若干个点的几十个月的水质检测数据,按是否达标赋值0或1,做聚类的时候类间距离是否应该用density非参数概率密度估计来衡量?如果是的话程序应该如何修改呢?还有就是有几个点的某几个月的数据缺失,可以直接放进去进行聚类么?sas小白拜谢各位大牛了!
下面的程序基本是从胡良平老师的书里面拷过来的,
Data Ptry ;
Input x1-x48 ;
cards;
;
Proc cluster standard method = density nonorm nosquare ccc
pseudo out =tree ;
proc tree data = tree horizontal spaces =0.1 ;
run;
cards后面输入数据,运行后出现以下错误
ERROR: The K=, R=, or HYBRID options must be specified with METHOD=DENSITY.
另外,关于缺失数据的问题,搜了一下,这里 <!-- m --><a class="postlink" href="http://zhidao.baidu.com/question/172168370.html?push=ql">http://zhidao.baidu.com/question/172168370.html?push=ql</a><!-- m --> 可以参考一下
[quote:2lpt58xz](1)删除有遗漏值的数据。如果一个数据集只有少量的数据具有遗漏值,则忽略它们可能是合理的。但是如果给定的数据集中有很多数据具有遗漏值,则采取这种策略很难对数据进行可靠分析,并且具有遗漏值的数据中也包含一定的信息,或许这些信息对分析是至关重要的,因此忽略它们是要非常小心,要保证对分析没有影响。(2)估计遗漏值。有时,根据数据的特点能够可靠的估计遗漏值。具体就是根据邻近点的属性值对遗漏值进行估计,常常选取邻近的平均属性值代替遗漏值,有时选取数据集的平均值代替遗漏值,或者进行曲线拟合,根据拟合的结果选择合适的属性值。(3)忽略遗漏值。许多聚类算法都可以用来直接处理具有遗漏值的数据,例如计算对象间的相似性,对保护遗漏值的数据可以使用没有遗漏值的属性值来计算相似性,这种相似性只是近似的,除非整个的数据属性很少,或者遗漏值的数据很多,否则其误差影响很小。[/quote:2lpt58xz]