2007年8月16日,“2007中国行业网站年会暨百强峰会”在北京举行。会议由信息产业部、电子商务协会、互联网协会指导,计算机世界传媒集团、计世资讯和行业网站研究中心联合主办。
以下为海量信息技术有限公司副总裁、智能中心主任、首席科学家周富秋演讲全文:
主题:技术促成行业资讯垄断
周富秋:
行业网站今天上午的老总们都提到了一点,要生存,要壮大,要发展,在这个过程当中有很多因素,今天我主要是讲在成长的过程当中,行业网站需要一个庞大的、有生命力的技术平台,有一个后台的支撑,就是你在成长过程当中要赢得市场,赢得客户,要受到同事的青睐,这是必须的条件。行业网站最终是要服务于客户的,最终是促成客户能够在网上进行交易,你必须给他提供有效的、客观、公正的信息,这就是资讯时代。我演讲的主题,主要是在互联网上怎么采用高科技的信息技术,就是数据挖掘技术来整合行业资讯,巩固行业网站的地位。
一切源于资讯。互联网给我们提供了巨大的平台,把世界的距离拉近,让人们能够享受到信息的愉悦,在美国我们经常讲,现在信息是我们的指尖上随时能够看到,但是这个时代慢慢开始转变,我们已经埋在数据当中,已经埋入数据队伍当中,怎么摆脱出来,怎么让我们的所有行业能够得到准确的信息,虽然什么都源于资讯,但是这个资讯的产生一定要有价值,一定要让用户得到资讯以后,能够促成他们得到他们所需要的抉择。行业资讯虽然是最重要的资源,也是客户最基本的要求,而且最终是要引导消费,引导用户实现交易。
80年代我到美国找资讯,那时候因为互联网还没有完全兴起,半年或者一年要出一本厚厚的书,我们就依靠它来找我怎么花这个钱,怎么进行交易,来买到我需要的东西。我在美国待了20年,买了四辆车,全是TOYOTA,我们的行业资讯从文字、从文本一直到网络,首先是自动化、数字化,所以交易的本身并没有做根本的改善。我们今天上午所有的行业网站老总们谈到的都是基于这一点。行业网站在成长壮大的过程当中,一个成功的网站必须具有这些实力,第一,权力垄断,因为它有权威的发布渠道,往往是资助企业或者资助行业,有发言权,而且它往往要垄断这些信息。第二,在数量上垄断。无论信息的来源、信息的种类、信息的应用等方面,在本领域方面都是全面覆盖的,但就这两个并不够。第三个方面,在质量上一定要有垄断地位,你提供的信息能不能满足行业用户的专业化需求,如果你提供的资讯只是罗列原始数据,我想肯定不会受欢迎的,没多少用户会对你产生兴趣,或者很难吸引或者留住客户。提供的信息一定要符合专业需求,能不能采用一种技术的手段、高科技的智能化的信息处理的过程,用统计或数理的方法向客户提供有指导意义的,像情报一类抉择的信息,如果行业网站有了质量上的垄断,你这个领域里才能扎根,才能真正成为龙头老大。可能你们现在还没有完全意识到这个,可能很多人已经意识到了,但是你们投入的精力还不够。我提出来的是,从海量信息中,能够让你在质量垄断上下工夫,让你在行业里起到领军的作用。
行业垄断是不可复制的,权力是不可复制的。数量垄断要抓取系统,要通过智能的方法进行大量的编辑,编辑的流程你们可能不陌生,网站内部大部分还是人工编辑的,你们都是资深的编辑。我举个很简单的例子,比如信息来了以后,怎么生成自动摘要,现在是靠人工,靠高级编辑,经过他的智慧、头脑向用户提供信息。
第二页这个图就像一个金字塔,信息的广泛程度,尤其是互联网生成了以后,数量非常庞大,而且原始数据的价值并不高,而且可以进行广泛采集,它在金字塔最底层,数据是非常庞大的。怎么让原始的数据有价值,就要对它进行信息处理,就要采取一些技术手段,我们需要把纷乱复杂的非结构化的数据结构化,要建立索引,要建立标识,要进行分析、筛选,让它从原始的数据上升到信息,这个信息具有一定的积累价值。往往在这儿质量垄断并不够,还要往塔尖上走。更重要的是,我们能不能够自动的通过挖掘的体系,来抽取主题,进行深度的标识,因为对比、统计,形成二次数据。就是我们要看到数据背后需要的东西,这样用户在进行商业抉择的时候,更有指导意义,更有建设性的意义。这就是我们所谓的互联网数据挖掘技术。
最近我去欧洲参加了一个全世界的计算机自然语言的年会,我发现大家谈的更多的是这几个字,现在的信息我们不谈原始数据,我们谈Google,谈百度,就是各个并购给你罗列了很多东西,你是打包的,它是一个搜索引擎,但是Google的战略方向我也知道,我也知道Google的进程,但是我们的门户网站如果真正要做到更深层次的,一定要在会议上比较流行的几个字,就是我要看到数据背后的意思,行与行之间到底表达了什么意思,这就是金字塔尖了,这就是数据挖掘要达到的技术更深层次的东西。
我们的门户网站都希望自己能够生存、壮大、发展,你们已经有这样的地位了,但是产业链是一个生态环境的问题,门户网站不必要去做这方面深层次的研究,我给你提供海量的技术,我给你提供这样的产品,融入到你的业务系统当中,来解决这些问题。我们在充当不同的player。我们海量要用互联网的挖掘技术给你们提供一个强大的技术平台,让你们在客户面前更加闪亮,而不只是罗列原始数据,罗列原始数据并不是大家所需求的,我们大家只知道“长尾”理论,农业革命、工业革命,现在是信息革命,信息革命已经发展到另一个阶段,就是从信息时代转换到挖掘时代,信息太多了,要淘金,这就是我们要用高科技人工智能的技术提供这方面的服务。
互联网挖掘能解决的问题,数据采集能降低人工,编辑成天坐在那儿大量剪裁、粘贴,很多东西是非常枯燥的,而且本地的资源消耗也非常大,信息的实效非常差,用自动化,高科技的技术来解决。而且可以消除重复、错误的信息,把非结构化的信息转换成结构化的信息,达到有效的储存和利用。更重要的是一定要把内容转换成有价值的,能够指导用户进行交易的信息,避免同质化竞争。
中国对城市管制,对小商贩的管制,大家的舆论评价是什么?可以通过数据挖掘,非常公正的把草根大众对城管的印象,完全用数据量化提供出来。我们做了一个试验在论坛上,不是官方的,也不是哪个媒体或者哪个企业雇佣做包装或者装饰的信息,而是完全民众的意愿,点击率最高的是城管是“狗”,城管是“暴力机构”,这就是广大群众对城管的印象。有结论性的、指导意义的、比较客观的是很重要的。
海量最近推出新的产品,叫“海纳”,就是数据挖掘技术,希望门户网站体会一下到底有什么样的功能,能帮助你们提高行业网站的质量水平,提高整个荣誉、品牌。行业网站没有必要去耗费资源,没有必要投入大量的硬件资源,大量的贷款,而且所有的维护全是由海量提供的,没有必要配备很重要的、很专业的人士维护这个体系。
总体来讲,我们的作用是什么?我们是数据服务提供商。如果门户网站是一只猛虎,在自己本领域之内迅速成长壮大,我们提供的服务能够给你在虎上添上两只翅膀,让你更自由地驰骋。希望大家有机会多跟我们交流,参观我们的展台。
谢谢大家!
网友评论