SAS中文论坛

 找回密码
 立即注册

扫一扫,访问微社区

查看: 600|回复: 1
打印 上一主题 下一主题

sas 聚类分析的非参数概率密度估计问题

[复制链接]

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
楼主
 楼主| 发表于 2011-4-1 10:54:54 | 只看该作者

sas 聚类分析的非参数概率密度估计问题

若干个点的几十个月的水质检测数据,按是否达标赋值0或1,做聚类的时候类间距离是否应该用density非参数概率密度估计来衡量?如果是的话程序应该如何修改呢?还有就是有几个点的某几个月的数据缺失,可以直接放进去进行聚类么?sas小白拜谢各位大牛了!
下面的程序基本是从胡良平老师的书里面拷过来的,
Data Ptry ;
Input x1-x48 ;
cards;
;
Proc cluster standard method = density nonorm nosquare ccc
pseudo out =tree ;
proc tree data = tree horizontal spaces =0.1 ;
run;

cards后面输入数据,运行后出现以下错误
ERROR: The K=, R=, or HYBRID options must be specified with METHOD=DENSITY.
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
沙发
 楼主| 发表于 2011-4-2 13:04:21 | 只看该作者

Re: sas 聚类分析的非参数概率密度估计问题

小弟菜鸟,统计理论薄弱,对于这题是否应用density做聚类也说不清楚,不过楼主copy的胡良平的代码的错误如log提示,是没有定义K=(k最近邻估计法中邻近个数)、R=(核密度估计法的支撑求半径)、或HYBRID(Wong混合聚类的相关问题),这些都牵扯到理论知识,在SAS help文档里有一些说明,可以参考一下。

另外,关于缺失数据的问题,搜了一下,这里 <!-- m --><a class="postlink" href="http://zhidao.baidu.com/question/172168370.html?push=ql">http://zhidao.baidu.com/question/172168370.html?push=ql</a><!-- m --> 可以参考一下
[quote:2lpt58xz](1)删除有遗漏值的数据。如果一个数据集只有少量的数据具有遗漏值,则忽略它们可能是合理的。但是如果给定的数据集中有很多数据具有遗漏值,则采取这种策略很难对数据进行可靠分析,并且具有遗漏值的数据中也包含一定的信息,或许这些信息对分析是至关重要的,因此忽略它们是要非常小心,要保证对分析没有影响。(2)估计遗漏值。有时,根据数据的特点能够可靠的估计遗漏值。具体就是根据邻近点的属性值对遗漏值进行估计,常常选取邻近的平均属性值代替遗漏值,有时选取数据集的平均值代替遗漏值,或者进行曲线拟合,根据拟合的结果选择合适的属性值。(3)忽略遗漏值。许多聚类算法都可以用来直接处理具有遗漏值的数据,例如计算对象间的相似性,对保护遗漏值的数据可以使用没有遗漏值的属性值来计算相似性,这种相似性只是近似的,除非整个的数据属性很少,或者遗漏值的数据很多,否则其误差影响很小。[/quote:2lpt58xz]
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|SAS中文论坛  

GMT+8, 2025-6-10 14:33 , Processed in 0.086232 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表