第二页
这个图就像一个金字塔,信息的广泛程度,尤其是互联网生成了以后,数量非常庞大,而且原始数据的价值并不高,而且可以进行广泛采集,它在金字塔最底层,数据是非常庞大的。怎么让原始的数据有价值,就要对它进行信息处理,就要采取一些技术手段,我们需要把纷乱复杂的非结构化的数据结构化,要建立索引,要建立标识,要进行分析、筛选,让它从原始的数据上升到信息,这个信息具有一定的积累价值。往往在这儿质量垄断并不够,还要往塔尖上走。更重要的是,我们能不能够自动的通过挖掘的体系,来抽取主题,进行深度的标识,因为对比、统计,形成二次数据。就是我们要看到数据背后需要的东西,这样用户在进行商业抉择的时候,更有指导意义,更有建设性的意义。这就是我们所谓的互联网数据挖掘技术。
最近我去欧洲参加了一个全世界的计算机自然语言的年会,我发现大家谈的更多的是这几个字,现在的信息我们不谈原始数据,我们谈Google,谈百度,就是各个并购给你罗列了很多东西,你是打包的,它是一个搜索引擎,但是Google的战略方向我也知道,我也知道Google的进程,但是我们的门户网站如果真正要做到更深层次的,一定要在会议上比较流行的几个字,就是我要看到数据背后的意思,行与行之间到底表达了什么意思,这就是金字塔尖了,这就是数据挖掘要达到的技术更深层次的东西。
我们的门户网站都希望自己能够生存、壮大、发展,你们已经有这样的地位了,但是产业链是一个生态环境的问题,门户网站不必要去做这方面深层次的研究,我给你提供海量的技术,我给你提供这样的产品,融入到你的业务系统当中,来解决这些问题。我们在充当不同的player。我们海量要用互联网的挖掘技术给你们提供一个强大的技术平台,让你们在客户面前更加闪亮,而不只是罗列原始数据,罗列原始数据并不是大家所需求的,我们大家只知道“长尾”理论,农业革命、工业革命,现在是信息革命,信息革命已经发展到另一个阶段,就是从信息时代转换到挖掘时代,信息太多了,要淘金,这就是我们要用高科技人工智能的技术提供这方面的服务。
互联网挖掘能解决的问题,数据采集能降低人工,编辑成天坐在那儿大量剪裁、粘贴,很多东西是非常枯燥的,而且本地的资源消耗也非常大,信息的实效非常差,用自动化,高科技的技术来解决。而且可以消除重复、错误的信息,把非结构化的信息转换成结构化的信息,达到有效的储存和利用。更重要的是一定要把内容转换成有价值的,能够指导用户进行交易的信息,避免同质化竞争。
中国对城市管制,对小商贩的管制,大家的舆论评价是什么?可以通过数据挖掘,非常公正的把草根大众对城管的印象,完全用数据量化提供出来。我们做了一个试验在论坛上,不是官方的,也不是哪个媒体或者哪个企业雇佣做包装或者装饰的信息,而是完全民众的意愿,点击率最高的是城管是“狗”,城管是“暴力机构”,这就是广大群众对城管的印象。有结论性的、指导意义的、比较客观的是很重要的。
海量最近推出新的产品,叫“海纳”,就是数据挖掘技术,希望门户网站体会一下到底有什么样的功能,能帮助你们提高行业网站的质量水平,提高整个荣誉、品牌。行业网站没有必要去耗费资源,没有必要投入大量的硬件资源,大量的贷款,而且所有的维护全是由海量提供的,没有必要配备很重要的、很专业的人士维护这个体系。
总体来讲,我们的作用是什么?我们是数据服务提供商。如果门户网站是一只猛虎,在自己本领域之内迅速成长壮大,我们提供的服务能够给你在虎上添上两只翅膀,让你更自由地驰骋。希望大家有机会多跟我们交流,参观我们的展台。
谢谢大家!
网友评论