|
板凳
楼主 |
发表于 2004-5-1 15:28:02
|
只看该作者
一些粗浅的个人看法:
这篇文章如果出现在2000-2001年,还是有相当的参考价值的,但是对于目前国内各个厂家特别是用户的知识和实践积累已经很丰富的2004年,指导意义就淡了很多。
首先,本文的内容可以在几乎所有的公开非公开的相关方案中找到,任何入围的服务方不管是否真的会做,起码是可以给出不低于该水准的方案。对于熟知移动RFP的大侠,甚至可以从中发现自己的类似叙述。
其次,文中很多说法值得商榷:
被反复强调的“数据挖掘的前提是必须建立企业级的客户信息数据仓库”,似乎移动企业的数据仓库不建成(而且还得建成“企业级”的),移动是无法去利用数据挖掘服务决策的。
事实上,数据挖掘在移动的成功案例中,真正建立企业级数据仓库以后再做数据挖掘的,保守估计,不到50%,即便在宣称已建立了数据仓库的客户中,了解项目的人也会知道,现有数据仓库的可用性往往不高,能够直接为数据挖掘服务的很少。
实际上,成熟的数据挖掘方案,数据准备是最重要的环节之一,但是这并不等同于数据挖掘必须依赖数据仓库甚至企业级数据仓库才能完成数据准备。
1。数据挖掘的数据准备要求往往是常规的数据仓库不易实现的(Inmon在数据仓库里加入ODS很大程度是为了适应复杂的细颗粒分析),因此,数据挖掘的方案中都会有自己的数据准备方法和工具,既可以借助符合要求的数据仓库,也可以独立实现。
2。数据挖掘的数据准备可能会借助企业已有的数据库系统来完成,但数据库系统并不等同于数据仓库。
3。数据挖掘的数据准备主要是服务于数据挖掘及以后的策略实施,并不一定按照数据仓库的规范来建立,有时甚至连数据集市的级别都不需要达到。因此,对于元数据规范,过程管理不一定花很多功夫,以免喧宾夺主。实际的项目中,数据挖掘组的人可能有义务提交自己的数据准备过程的相关资料给数据仓库组,但并不负责建立,整合和自动化这些流程,也不会因为这些阻碍数据挖掘的进行。
4。数据仓库和数据挖掘在建立中有很多途径,
全面收集需求->建立企业数据仓库->建立数据挖掘主题->数据挖掘 这是一种,
业务理解->建立数据挖掘主题->数据挖掘(含数据准备)->提供详细数据需求给数据仓库->数据仓库架构设计->《更多的应用数据详细需求反馈》->数据仓库逐步实施->逐步整合接管数据挖掘的数据处理环节->新的数据挖掘架构,又是一种。经历和学习的实例中,大部分是从第一种的痛苦转入第二种的务实的。
5。个人更倾向于一些实践大师的观点:
“数据挖掘可以不需要数据仓库,但是不需要数据挖掘的数据仓库是没有未来的数据仓库”
“在建模过程中,把数据分层为训练数据和校验数据,训练数据主要使用于建模过程中求解模型参数,而校验数据主要用于模型检验。因此模型检验阶段的主要工作是把检验数据代入已经建立的模型中,观察模型的响应,通过比较模型的响应和真实的数据,从而评估模型的准确程度”
事实上,数据挖掘的建模过程和评估过程的数据重构需要三部分数据(training,test,evaluation, Berry&Linoff: Mastering Data Mining),training和test用于在建模过程中的训练和校验的交互,这在神经元网络中很明显,这个交互很多情形是算法或工具自动的,evaluation是一组建模中unseen的数据,用于模型评估,这个过程的人工干预成分很高。
而且,并不是所有的数据挖掘建模都需要这种数据重构。在一些数据量和时间范围积累都不足的场合,用户更愿意利用模拟投放期的Champion-Challenger 模型去校验和评估模型。
楼主的帖子已经将移动挖掘应用中非常实际和深入的环节总结出来了,想来是希望交流更多出于项目实践的经验教训,比如在服务商都宣称要做并能做营销分析,而且纸面方案多多的情况下,如何甄别出最为有效的方法。 |
|