SAS中文论坛

标题: 统计的不能和不是 [打印本页]

作者: shiyiming    时间: 2004-4-27 16:44
标题: 统计的不能和不是
越来越多的人意识到统计在人类生活的各个方面所起的重大作用。在不远的未来,统计的优势只会增加,而且会长期保持领先地位。

统计被人看重的原因是供不应求 。一是统计的巨大市场;几乎所有领域都需要统计。另一个是统计专业所需要的包括数学、统计和计算机在内的功底,绝不是通过任何速成训练就能够达到的。

《大英百科全书》的关于统计的定义:用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。这个定义强调了统计以归纳为主的思维方式,这使得统计显然不同于以演绎思维为主的数学。该定义也体现了统计为各个领域进行数据分析的服务性命运。

目前多数统计教科书的内容主要是在计算机广泛应用之前的二十世纪中期发展的以估计和假设检验为主的统计推断理论,这样很难使人有足够的精力来理解藏在这些理论背后的统计思想,其根本原因是这些教科书把以归纳为主的统计按照以演绎为主的数学来写了。

统计应该是负责任的。在假设检验中,如果我们拒绝零假设时,总是会给出在零假设为真的情况下,错误拒绝零假设的概率。但是那些在不能拒绝零假设时声称要“接受零假设”的教科书中,从来都不提供在零假设错误时,错误地接受零假设的概率。

统计实际上不能证明什么是对的。各种方法的假定也不一定成立。

假设检验的目的就在于试图拒绝零假设。而不在于证明什么是正确的。

以回归为例,要求“验证”正态性,“确定”没有自相关,“认定”没有共线性等等;在这些以验证为目标的程序完成之后,就心安理得地认为结果是可靠的了。其实,根本无法证明任何一个样本来自正态总体,也无法确定有关的变量没有任何自相关,更无法确定绝对没有共线性。我们也只能够说,使用目前存在的方法没有发现问题,而永远不能说,绝对没有问题了。

世界上所有的模型都只是对现实世界的某种近似。没有完美的模型。所有的模型都命中注定要被修正、改进以至于被替代。只要没有被新的证据所否定,任何假定的模型都可以应用,直到被更好的模型代替为止。理想的、唯一绝对说得出是非对错的世界可能只存在于纯粹数学之中。世界上人类一切问题的根源在于资源的有限性和人类欲望的无限性之间的矛盾。这是真正的经济学、政治学和一切其他人文社会科学及科学技术的基础。也是一切统计模型的源泉。

[u:428d5][b:428d5]方便的统计计算软件也给产生错误造成方便 [/b:428d5][/u:428d5]

统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。那么,是否傻瓜式的统计软件的使用可以代替统计课程了?当然不是。

数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,而且没有任何警告。

另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。统计专家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。

方便的统计计算软件也给产生错误造成方便 那些“傻瓜式”的统计软件,往往不能随意做任何我们希望它做的事情,也不能输出各种想要的中间和最终点结果。
这种只反映现存统计方法的软件主要是为非统计专业出身的人使用的。对于想要在理论和方法上有所创新的统计工作者,必须能够使用可以随意编程的语言来达到自己的目的。

用统计误导,有多种方法。
一种是初级的;它有意无意地利用某些展示方式给人以与信息所代表的相反方向的印象。
另一种更高级一些;它利用数据及统计方法上的选择来达到自己的目的。不能排除这种做法的相当一部分是有意的。下面举一些这方面的例子。最常见于媒体的问题是在公布抽样调查结果时,不提样本量和调查对象(或如何得到样本的)。比如,一项广告可以说,“有三分之二人选择某产品”。人们往往理解为在广大消费者中,有三分之二的人选择该产品。但是,也不是没有下面的可能;即该广告数据仅仅来源于一个三口之家,其中有两个家庭成员使用该产品。有些调查报告还煞有介事地公布调查的误差,比如误差为“加减三个百分点”之类。在没有样本量或没有置信度的情况下,仅仅公布百分比及误差都是不负责任的。公布调查对象也是十分重要的。一个旨在发现全社会文化水准的调查如果仅仅在城镇居民中进行,则是毫无意义的。
另一种常见问题是在数据上作假。一些人把试验中不支持自己观点的数目去掉,只用剩下来的数据进行分析,以得到有利于自己的诸如“结果显著”之类的结论。这种行为明显违背了统计的基本原则。另外,稍微无辜一点的做法是,当觉得数据有些“异常”时,把和自己想法不一致的点作为“异常点”删除,而用剩下的“干净”数据来拟合想象中的模型。这种随意删除“异常点”的做法是很不慎重的。在这种情况下,最好先弄清这些“异常点”的来源。说不定还会从中发现很有价值的信息呢。

统计是在随机性中寻找规律性的科学。
只要有规律,统计原则上就应该有办法找到。但是,对于没有规律性的对象,统计就无能为力了。例如,经济活动中存在不按客观规律而按照长官意志办事的现象;仅仅从经济数据可能不会找到其规律。但是,在现在的市场经济之中,弄虚作假的违法行为却不难用统计方法捕捉到。而那些贪官和不法商人的行动也可以从与他们利益有关的数据中得到体现。
现在世界上一些机构和咨询公司利用统计方法对几乎所有的问题进行预测和预报;其中包括战争的预测,政权更迭的预测,经济和贸易的预测,科技领域的发展以及各国政府的决策方向的预测等等。为此,必须要拥有充分的情报、信息或数据。没有合适的数据,统计是什么也做不了的。




欢迎光临 SAS中文论坛 (http://mysas.net/forum/) Powered by Discuz! X3.2