|
|
沙发

楼主 |
发表于 2004-5-30 14:12:28
|
只看该作者
Re: 对proc fastclus 的思考
[quote="tomwalk":46140]两个问题
对于全部是连续型数值变量进行 proc fastclus聚类
1.通过探索性分析,发现变量的分布很偏,故通过log2数学变换降低了分布的偏度,然后再进行聚类会发现结果跟通过原始变量聚类截然不同。如何解释这个现象,同时怎么解决聚类变量分布很偏这个问题。[/quote:46140]
这是当然的. fastclus用的是K-means Clustering, 你作了变换自然改变了'距离',
而这种改变对于不同观测的影响是不同的.
两个解决方法:
1, 对于outlier作capping, 比如大于1000的都cap到1000
2, 用其他算法, 比如EM. etc
[quote="tomwalk":46140]
2.如果按照某个标准把所有的连续变量都转变成分类变量,使用proc fastclus如何进行聚类?[/quote:46140]
fastclus只能对数值变量进行操作, categorical变量不能处理. |
|