台资餐饮企业"一茶一座"在内地发展迅猛,几年下来已经开了34家连锁店,历史数据累积到三千多万条;本土生产型企业"乐百氏"的门店几乎已铺遍全国,总部十分重视原始数据的采集,为加强对各区域门店和经销商的管理,需要上一套分销系统。
复合型项目人才一将难求
目前的数据挖掘市场,基本处在跨国巨头的垄断之下,至今未出现类似于ERP、SCM等领域的本土知名企业,连提供解决方案与咨询的厂商,其骨干及项目经验也多来自外企或国外。无论是软件开发商、咨询服务提供商或实施方,人才匮乏问题成为企业发展的一大瓶颈。
刘世平对这点深有体会。他本是IBM全球银行数据挖掘咨询组组长,有丰富的数据挖掘项目经验,怀着创业的梦想,他从IBM出来,在中科院带研究生的同时,也办了一家提供数据挖掘解决方案和咨询业务的公司――吉贝克信息技术(北京)有限公司。刘世平遇到的最大难题不是找不着业务需求,而是招不到合格的项目从业人员,哪怕是跑到国内顶尖院校,见着的仍是流于书本理论毫无项目实践的高才生。没办法,他只好立足于自己培养,现在的数据挖掘团队都是刘世平花了几年心血一手带出来的。这样的例子在业界举不胜举。
如果说成功的数据挖掘项目是一串钻石项链,那么数据收集和整理是挑选含有钻石的矿石,统计建模和数据分析则是钻石的开采,而项目管理就是把一颗颗钻石连接起来的金线。与其他信息系统对项目管理人员的要求不同,数据挖掘要求项目管理者不仅具备项目管理能力、软件设计能力、超强的理解和沟通能力,还要具备相当的数据分析能力。
数据挖掘项目的实施人员,除了项目管理者之外,还需要三类具有不同专长的人员,一是业务分析人员,精通业务,能够解释业务对象,并根据业务对象确定用于数据定义和挖掘算法的业务需求;二是数据分析人员,精通数据分析技术,熟练掌握统计学,能把业务需求转化为具体操作,并为每步操作选择合适的技术;三是数据管理人员,精通数据管理技术,了解数据源,负责数据准备过程。
同样,要成功完成一次数据挖掘过程,用户也既要熟悉业务,也要熟悉算法和模型,才能知道取出来的数据代表什么,算出来的结果又代表什么。而电信、金融等行业主导数据挖掘系统建设的大都是工科出身,不但业务不熟悉,对统计学也很生疏。由于双方面都对复合型人才有极大的需求,以致常出现用户挖厂商墙角、厂商再花大价钱回挖的人才拉锯战。
国内大型企业的数据挖掘成功案例凤毛麟角,很大一部分原因就在于用户过分依赖厂商,自身没有形成一支懂技术、懂业务、懂管理的核心团队。这点可以从宝钢的例子中吸取一点经验。宝钢领导普遍都很重视数据仓库的项目建设,亲自参与项目的整体或阶段性规划,并狠抓IT团队建设。几年下来,宝钢培养出一批掌握SAS核心技术的员工,保证了数据挖掘在业务上的较好应用。
实施过程中CEO的心头疙瘩
数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。项目实施过程中,用户与厂商之间存在着某些解不开的结。数据挖掘人员口里念叨的尽是些稀奇古怪的技术名词,他们的出身复杂,既不完全是学计算机的,也不像统计学家,更不像营销策划人员,他们搭建的模型五花八门,他们挖掘的结果不容易理解。商业直觉强烈的企业用户CEO们很容易产生抵触情绪,常常在四方面向数据挖掘人员开炮。
其一,争议自变量的选择权。企业CEO一般对预测模型的建立都比较感兴趣,预测的目标也比较好确定,比如要预测客户流失,那么"客户是否流失"就是目标变量;要预测股票涨跌,那么"收市价是否上升"就是目标变量。但确定哪些变量作为自变量则颇费周折,换句话说,要确定哪些因素与目标变量有关系,往往是双方各执一词。
自变量该由企业用户一方来决定,还是该由数据挖掘人员决定呢?企业用户人员拥有长期的业务经验,能敏锐感觉到哪些因素与目标变量密切相关,不过他们有时会遗漏很多表面无关但实际上很重要的因素,这正是数据挖掘人员可以发挥作用的地方。理想的方式是双方结合决定,但谁主谁辅则常常争执不休。
其二,CEO喜欢把客户群体分得越细越好。与传统的经验细分相比,数据挖掘产生的客户细分能够考虑客户更多的行为属性,每个客户群体具有更鲜明的行为特征。但什么样的客户细分结果才算好的?将客户分成多少个群体是最合适的?群体之间的人数相差悬殊是否就意味着细分结果不够好?
预测性模型的好坏有很多衡量指标,上述问题却没有一定的衡量标准。客户细分模型的好坏,更多地要从业务角度来评判。CEO喜欢将客户分成上百个群体,总想更细致地了解各群体客户的行为特征,但客户经理多半要忙吐血也顾不过来,现有的客户管理系统也很难支撑过多客户群体的处理。因此,数据挖掘人员的应对措施就难以让CEO满意。
第三,质疑数据挖掘的结果。数据挖掘建立的预测模型,是对真实世界的模拟,依据企业数据库中储存的客户行为信息建立的预测模型无法得出确定性结果,只能以概率值示人。例如,电信运营商要求挖掘出某个客户流失究竟是因为对网络质量不满、对服务质量不悦、还是对资费政策有怨言,但挖掘出来的结果只会是诸如"如果最近一个月漫游通话次数小于25次、交往圈人数三个月均值小于97个则符合这样条件的客户其流失概率为46%"的判断。
这样以概率值提交的结果最容易招来企业CEO的不满。他们通常会问,我要对我的客户流失做出预测,为什么不能准确告诉我究竟是哪些客户下个月会流失?只告诉我每个客户流失的概率,这样的数值叫我如何使用?
第四,还有数据挖掘不能解决的问题?CEO在指示业务需求时,常会提出如何优化自己的网络资源、如何对有众多随机因素的不确定系统(物流、供应链、排队系统等)提出最优操作方案、如何根据现状推演未来市场份额的变化等问题。由于相关技术在国内的应用很少,数据挖掘人员会告诉CEO:上述问题分别属于运筹学、离散事件仿真、系统动力学仿真的领域,超出了数据挖掘的能力。这样的回答很容易让CEO愤愤不平,难以释怀。
网友评论