SAS中文论坛

标题: SAS EM:探索结点(Insight node) [打印本页]

作者: shiyiming    时间: 2010-10-22 22:51
标题: SAS EM:探索结点(Insight node)
From supersasmacro's blog on Sina

<p>&nbsp;</P>
<p>SAS EM:探索结点(Insight node)</P>
<p><br /></P>
<p>SAS EM(Enterprise
Miner)企业数据挖掘节点功能详解及代码实现(第四弹)</P>
<p><br /></P>
<p>本文未经作者允许,请勿转载</P>
<p><br /></P>
<p>
数据源中的缺失值、边界值、不规则分布都可能会影响到挖掘得建模甚至歪曲挖掘得结果。所以,清楚的了解数据源的内容和结构对于建立一个数据挖掘项目来说是非常重要的。</P>
<p>探索结点(Insight node)
是交互式图形化统计分析工具,可以让使用者用在不同的窗口中的不同的图形和分析值交互式的探索和分析数据。探索节点允许你从多个图形和分析中互动的探索和分析数据,举例来说,你可以分析单变量或是多变量的分配、建立散布图或是箱型图或是检验相关系数ANOVA
和 GLM等等。如果洞察节点是来自流程中的数据集合,则它可以使用整个数据集合或是使用抽样的meta data
当做输入。&nbsp;</P>
<p><a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static3.photo.sina.com.cn/orignal/5d3b177cg8ba4ce2e3ff2" TARGET="_blank"><img SRC="http://static3.photo.sina.com.cn/middle/5d3b177cg8ba4ce2e3ff2&amp;690" WIDTH="500" HEIGHT="300" /></A><br />
<br /></P>
<p>*随机数种子;</P>
<p>%let DM_SEED = 12345;</P>
<p>*生成企业数据挖掘数据集;</P>
<p>data EMDATA.VIEW_4O9 /
view=EMDATA.VIEW_4O9;</P>
<p>&nbsp;set EMSAMPLE.BUYTEST;</P>
<p>run;</P>
<p>由于不同的数据源的数据量可能不同, 而且有些数据源的数据量可能是非常巨大的,所以
Insight 节点默认抽取 2000 条数据记录来探索数据源,当数据源的记录数小于 2000时,可以选择Insight Based
On设置中的 Entire data set 来改变探索数据的样本数量。</P>
<p>&nbsp;<a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static8.photo.sina.com.cn/orignal/5d3b177cg8ba4cf7bbbf7" TARGET="_blank"><img SRC="http://static8.photo.sina.com.cn/middle/5d3b177cg8ba4cf7bbbf7&amp;690" WIDTH="432" HEIGHT="202" /></A></P>
<br />
<p>* 总共抽取2000条 (Input data source);</P>
<p>data EMPROJ.SMP_VIB6(label="Sample of
EMDATA.VIEW_4O9.");</P>
<p>&nbsp;set EMDATA.VIEW_4O9;</P>
<p>&nbsp;&nbsp;
&nbsp; drop _sample_count_;</P>
<p>&nbsp;&nbsp;
&nbsp; if _sample_count_ &lt; 2000 then
do;</P>
<p>&nbsp;&nbsp;
&nbsp; &nbsp; &nbsp;if
ranuni(12345)*(10001 - _N_) &lt;= (2000 -
_sample_count_) then do;</P>
<p>&nbsp;&nbsp;
&nbsp; &nbsp; &nbsp;
&nbsp; _sample_count_ + 1;</P>
<p>&nbsp;&nbsp;
&nbsp; &nbsp; &nbsp;
&nbsp; output;</P>
<p>&nbsp;&nbsp;
&nbsp; &nbsp; &nbsp;end;</P>
<p>&nbsp;&nbsp;
&nbsp; end;</P>
<p>run;</P>
<p>quit;</P>
<p><br /></P>
<p>*insight过程步;</P>
<p>proc insight data=EMPROJ.SMP_VIB6;</P>
<p>run;</P>
<p>察看 Insight 节点输出结果:</P>
<p>Insight 运行结果将数据源以二维表视图的形式显示。</P>
<p>&nbsp;<a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static7.photo.sina.com.cn/orignal/5d3b177cg8ba4d3a81a06" TARGET="_blank"><img SRC="http://static7.photo.sina.com.cn/middle/5d3b177cg8ba4d3a81a06&amp;690" WIDTH="690" HEIGHT="283" /></A></P>
<br />
<p>1 柱状图:</P>
<p>单击SAS
主菜单中的“分析”,选择下拉菜单中的“直方图”,将弹出选择察看直方图的变量的窗口</P>
<p>&nbsp;&nbsp;<a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static12.photo.sina.com.cn/orignal/5d3b177cg745d48e292db" TARGET="_blank"><img SRC="http://static12.photo.sina.com.cn/middle/5d3b177cg745d48e292db&amp;690" WIDTH="399" HEIGHT="246" /></A></P>
<a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static8.photo.sina.com.cn/orignal/5d3b177cg8ba4da3720a7" TARGET="_blank"><img SRC="http://static8.photo.sina.com.cn/middle/5d3b177cg8ba4da3720a7&amp;690" WIDTH="494" HEIGHT="320" /></A><br />
<p>代码:</P>
<p>proc insight data=EMPROJ.SMP_VIB6;</P>
<p>bar age ;</P>
<p>run;</P>
<p><br /></P>
<p>2 散点图:</P>
<p>单击SAS
主菜单中的“分析”,选择下拉菜单中的“散点图”,将弹出选择察看直方图的变量的窗口</P>
<p>&nbsp;<a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static7.photo.sina.com.cn/orignal/5d3b177cg8ba4db543f56" TARGET="_blank"><img SRC="http://static7.photo.sina.com.cn/middle/5d3b177cg8ba4db543f56&amp;690" WIDTH="400" HEIGHT="249" /></A></P>
<a href="http://blog.photo.sina.com.cn/showpic.html#url=http://static4.photo.sina.com.cn/orignal/5d3b177cg8ba4dc28f483" TARGET="_blank"><img SRC="http://static4.photo.sina.com.cn/middle/5d3b177cg8ba4dc28f483&amp;690" WIDTH="618" HEIGHT="319" /></A><br />
代码:<br />
<p>proc insight data=EMPROJ.SMP_VIB6;</P>
<p>scatter RESPOND*age sex;</P>
<p>run;</P>
<p><br /></P>
<p>其它更多功能如下,请大家自已试验:</P>
<p><br /></P>
<p>BAR: 绘制直方图,条图</P>
<p>BOX (Mosaic): 绘制盒状图</P>
<p>LINE &nbsp;:绘制二维连线图</P>
<p>SCATTER :绘制二维散点图</P>
<p>Contour &nbsp;:绘制等值面图</P>
<p>ROTATE: 绘制三维旋转图</P>
<p>DIST &nbsp;(Distribution):
绘制分布图,其中Distribution项可以绘制某连续变量的盒状图和分布图, 还可以计算各百分位数,均数,标准差,平方和,峰度系数
和偏度系数等统计量</P>
<p>MULT (Multivariate): 多变量分析</P>
<p>FIT :绘制拟合图</P>
<p><br /></P>
<p><br /></P>
<p>本文用到的SAS数据集为buytest.sas7bdat,其下载地址:</P>
<p>
<!-- m --><a class="postlink" href="http://ishare.iask.sina.com.cn/f/8641118.html">http://ishare.iask.sina.com.cn/f/8641118.html</a><!-- m --></P>
<p>本系列全部数据下载地址:</P>
<p><!-- m --><a class="postlink" href="http://iask.sina.com.cn/u/1564153724/ish">http://iask.sina.com.cn/u/1564153724/ish</a><!-- m --></P>
<p><br /></P>
<p>&nbsp;</P><div style="border-top: 1px solid rgb(203, 217, 217); padding-top: 20px; padding-bottom: 10px;">
<p><br><a href="http://move.blog.sina.com.cn/admin/blogmove/blogmove_msn.php" target="_blank">MSN空间完美搬家到新浪博客!</a></p></div>




欢迎光临 SAS中文论坛 (https://mysas.net/forum/) Powered by Discuz! X3.2