SAS中文论坛

标题: 关于cluster的一个疑问 [打印本页]

作者: shiyiming    时间: 2004-10-27 09:54
标题: 关于cluster的一个疑问
想问一个关于cluster的一个问题.
在用cluster做聚类分析时,若碰到含缺失值的样本也能够得到分类的结果,不知道含缺失值的样本是怎样参与分类的,比方说是按什么来计算距离的.

本来的数据是很大的,在此我只是列举一个小数据,并用fastclus 来进行分类,
data a;
input x y z@@;
cards;
712977        146892        314303
473415        118100        197342
228367        58280        98224
185149        45968        84613
  .        48997        65149
  .        43891        61210
  .        37346        40230
337381        84689        148404
304941        70857        128411
run;
proc fastclus maxclusters=4 out=out1;
var x y z;
run;
此时在数据out1中对每条记录都有cluster的值,不知道对第 5,6,7条记录是怎么样来分类的?请高手指点.谢谢!

___________________________________

交流是有利于更好的学习
作者: shiyiming    时间: 2004-10-27 13:21
标题: re
对某行来说,先计算非缺失值变量与其seed的差的平方和,然后计算该平方和的均值,用这个均值来替代缺失值那里的差值平方。然后再求平方和开方。。。

应该是这样。。。
作者: shiyiming    时间: 2004-10-28 09:46
标题: answer
老兄说是用“均值来替代缺失值那里的差值平方”,你能不能确定?
关于SAS中聚类分析这一块,距离公式很多,但是很多的参考书中并没有提到处理缺失数据的聚类,所以在下表示很大的困惑,望高手再指点,谢谢!
作者: shiyiming    时间: 2004-10-28 12:21
标题: re
关于fastclus中的missing value,还是看看SAS自己的技术文档吧
<!-- m --><a class="postlink" href="http://www.id.unizh.ch/software/unix/statmath/sas/sasdoc/stat/chap27/sect13.htm">http://www.id.unizh.ch/software/unix/st ... sect13.htm</a><!-- m -->

我想不是高手也可以看懂的。




欢迎光临 SAS中文论坛 (http://mysas.net/forum/) Powered by Discuz! X3.2