SAS中文论坛

标题: 胡江堂的THINK SAS只写了1就没了下文了啊? [打印本页]

作者: shiyiming    时间: 2010-12-20 10:12
标题: 胡江堂的THINK SAS只写了1就没了下文了啊?
继不继续?
作者: shiyiming    时间: 2010-12-21 09:40
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
<!-- s:lol: --><img src="{SMILIES_PATH}/icon_lol.gif" alt=":lol:" title="Laughing" /><!-- s:lol: -->
作者: shiyiming    时间: 2010-12-21 23:37
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
嘿嘿,因为SAS需要好好地慢慢地Think嘛
作者: shiyiming    时间: 2010-12-22 08:38
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
统计之都似乎年轻人很多,火气大
SAS真的搞好了,也是很NB的,而且会比那些用R的还要牛逼
当然我说的搞好了是把所有的PROC后面的算法彻底梳理一遍搞懂。我算了一下,就算一个月搞一个SAS/STAT里面的PROC,也要差不多5年,这还是牛到一个月看懂一个领域算法的人。
作者: shiyiming    时间: 2010-12-22 22:25
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
被定名了……冒个泡 <!-- s:) --><img src="{SMILIES_PATH}/icon_smile.gif" alt=":)" title="Smile" /><!-- s:) --> 。

think sas(2)的草稿留在机器很长时间了,写得不够流畅,一直不敢拿出来。等到有接受拍砖的信心再发布了。这段时间也在准备SGF2011的草稿,明年有机会可以去会场拜访一下你。

你说的搞好SAS,我想凡人是望尘莫及。SAS/STAT里的PROCs,里面都是一个个经典的统计模型,都学会使用和解释输出结果就需要大量的时间,更不用说搞懂其中的算法了,每一个PROC里面的参考文献都让人热血喷张。加上EM里面的那些proc svm之类,更是算法密集。说搞懂,真不简单。术业有专攻,我不知道一个统计PhD下来,对这些算法的掌握程度要求如何。

说了这些,我倒并不觉得很有压力。STAT只是SAS系统的一个子模块,作为一个SAS程序员,每天大量使用的多是BASE(data steps,Macro,SQL,ODS,加上BASE里的一些PROCs)。BASE里面还有XML, PRX等诸多元素,其实我们还可以说一句,要搞懂BASE,也谈何容易。都不容易,大伙就都拣自个感兴趣的或者工作需要的鼓捣了。

最近我在“统计之都”贴了一篇假设检验的读书笔记(在[url:6w2cilpn]http&#58;//cos&#46;name/2010/11/hypotheses-testing/[/url:6w2cilpn]),统计学的入门知识了,但写出来、解释清楚都觉得不易。啥都是路漫漫啊。按我这速度,要写到你博客里的那些高深算法,5年都打不住。
作者: shiyiming    时间: 2010-12-23 07:19
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
Totally agree, that is Mission Impossible

Think about PROC FREQ alone, it covers almost all fields in traditional categorical data analysis. The 700-page classic book Categorical Data Analysis by Agresti goes through the theories behind briefly....A graduate student takes 1-2 semester for this class [that is effectively 4--8 month]

And that is just the tip of iceberg.
作者: shiyiming    时间: 2010-12-23 21:44
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
那为神马SAS要人花那么多时间去搞懂他呢 ?

有人总结梳理了他的proc的算法么 ?

SAS帮助随着年数积累而不断的庞大,但是越来越不友好了。 烂帮助,爱得不轻松。

ps:oloolo貌似最近闲得蛋疼啊。 <!-- s:D --><img src="{SMILIES_PATH}/icon_biggrin.gif" alt=":D" title="Very Happy" /><!-- s:D -->
作者: shiyiming    时间: 2010-12-23 22:52
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
嗯,是闲了点,但是何以见得蛋疼捏?
可以理解,老外都去修圣诞了,中国人干嘛不稍微歇歇呢。 <!-- s:lol: --><img src="{SMILIES_PATH}/icon_lol.gif" alt=":lol:" title="Laughing" /><!-- s:lol: -->
作者: shiyiming    时间: 2010-12-24 01:40
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to sxlion
确实很闲, 老板度假去了,下属度假去了,就我一个人不想走动,还是宅着好,休息休息。目前蛋不疼哈,没得睾丸癌哟, <!-- s:D --><img src="{SMILIES_PATH}/icon_biggrin.gif" alt=":D" title="Very Happy" /><!-- s:D -->  <!-- s:D --><img src="{SMILIES_PATH}/icon_biggrin.gif" alt=":D" title="Very Happy" /><!-- s:D -->

不管你用R还是SAS还是SPSS,都要把那些基本的理论啥的搞懂才行啊,否则就是GIGO,反正计算机会报告一些列结果。但是统计师的主要作用还是在于合理地解释这些数据,并给具体业务提供策略指导。如果自己都不知道这些数值怎么产生的,怎么能合理地帮助业务部门扩展业务呢?

SAS自己的HELP就是所有算法的集成啊,不过要看的肯定不止是HELP了。SAS的帮助文档里面的细节部分主要是起一个索引介绍的作用,详细了解算法还是要看很多专业书籍才行,另外加上很多年的经验总结才能知道各类算法在具体应用中的效果。其实利用SAS把那些统计知识串起来,基本能把经典的统计融会贯通,学透彻了。我一直在准备写一个SAS COMPANION FOR THE ELEMENTS OF STATISTICAL LEARNING,但是进展太慢了。我目前才搞到第四章,discriminant analysis,时间真不够用。我明年在公司R&amp;D有三个讲座,分别讲PROTOTYPE METHODS,flexible discriminant analysis和SVM,希望能借此加快点进度。

我昨天刚在组里给了一个talk,关于如何成为行业顶尖统计师的一些思考。我给了个3集合文图,就是对业务敏感,对统计老到,对编程熟练。这个倒是引起了很多讨论。一般的人只能做到一方面比较强,比较有经验的能做到对两方面都熟悉,但是要想在市场上找到全通的人才真的是不容易。面了好几个人,没一个满意的。学生或者工作时间短的一般编程还行,业务上完全不敏感,统计应用很死板;工作经验很长的编程太烂,而且统计知识普遍不行,因为平时都忙于big talk,具体知识都忘了。
作者: shiyiming    时间: 2010-12-24 01:42
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to shiyiming
呵呵,工作在12月初就卸下来了。
作者: shiyiming    时间: 2010-12-24 01:51
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to jthu
我觉得写得很好啊

你的think in SAS section 2 可以先发在圈子里让SAS同僚们先尝尝鲜嘛
作者: shiyiming    时间: 2010-12-24 08:42
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
赞同oloolo,真的写的很好。想看抢先版2。
作者: shiyiming    时间: 2010-12-24 09:58
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
很受启发,mark一下
作者: shiyiming    时间: 2010-12-24 18:10
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to oloolo, 这样看来,SAS帮助是个shortcut,尽管仅仅是个shortcut,也是那么的巨大。梳理SAS里面的统计元素,对于统计知识不连续的SASor来说,确实一大福音。这是个NB的想法,当然,这也是个苦差事。料太多,不知道什么时候才能面世。要不先来个简版,试试反应。


学习SAS是个大工程。据我所知,会SAS编程不会统计的人,存在;会统计不会SAS编程的,也大有人在;这些最终反应到实际应用中业务水平的深度和广度上。胆子大的就号称精通,哈哈。

目前,我也在初步规划下以后的方向,业务第一位,统计原理为辅,SAS仅仅是个使用工具。当然也希望能把SAS的运用水平达到一定的度。
作者: shiyiming    时间: 2010-12-25 04:10
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
作为个人甚至一个小团队来讲,不可能完全梳理SAS/STAT里面的统计算法及其之间的联系,这个工程太庞大了,光是要把那么多材料看完并且消化就是要花十年功夫的努力。想想结构模型,缺失值分析,主成因分析,混合模型,哪一个不是做了博士也才入了皮毛的东西,哪一个不是本身就值得写一个大部头的内容?I.T.Jolliffe经典的PCA那本书就写了500多页,就这还是只覆盖了截止上世纪90年代末的内容,你说要是写个在SAS语言下用PCA工具分析时间序列,分析具备特定内在结构的数据,对eigenvectors做旋转,再加个Kernel PCA,从介绍到程序写个150页不算多吧。就这四个方面也才占SAS/STAT里面内容的十分之一,算法之间的深入联系更是考功夫。光是RKHS和Penalized LS之间的关系就可以写一本书了【这个倒是开辟了用SAS/STAT做特定loss function的SVM的一个蹊径】。

那些说SAS是恐龙的其实走入了一个误区,只专注编程和新方法去了,这就走入了一个误区。毕竟在实业界,就算是IT公司,码农的发展前途也是堪忧的,以业务为核心才是硬道理,无论统计还是编程都是为具体业务服务的,在北美的很多搞技术的老中还没有领会这条精神,当了一辈子统计码农,呵呵。另外,在实业界,对统计分析,要的是稳健,实用和可解释性,而不是新奇,尖端,在实业界这种例子比比皆是。很多R的推手也许忽略了这个,他们倒是要问问自己,有没有真正静下心来把SAS的每一个统计过程都研究透彻了。一味追求新方法而忽视深入挖掘经典方法就是本末倒置,因为新方法都是从经典方法发展而来的。真正理解了经典方法,搞新方法就不是问题。看看斯坦福的hastie,tibshirani,friedman等人的学生,这20年里把经典统计重新犁了一遍,结果搞出来几十种新数据挖掘方法。再比如比如NMF,常用算法之一就是一个基于SVD初始化的ALS,而SVD是PCA的计算核心,所以这些都是可以利用SAS现成的PROC搞出来的,只是一般人觉得很别扭,绕了一大圈。但是没有理解这些联系的人只会一味指责SAS太恐龙,连个PROC NMF都没有之类的,呵呵。当然,我不是说利用SAS能把所有新玩意儿都玩出来,毕竟SAS的自由度还是小了点,比如要在SAS/STAT里面做CART就不是很容易,不过我觉得已经够用了。

关于写书,我目前的策略是依托某一本书籍展开,主要以讲解如何用SAS实现书里面的算法为主线,并且提供一些模拟案例探索算法的优缺点,当然这需要参考很多其他书籍。这样的话工作量就大大降低了,不过仍然不小。也许我选ELEMENTS OF STATISTICAL LEARNING比较失算,这本书是神作巨著啊。另外一本可以依托的书籍是MATRIX METHODS FOR DATA MINING AND PATTERN RECOGNITION,这本比较深入浅出,覆盖的内容也比较少,本身也是用MATLAB讲解基本算法。里面的东西除了TENSOR还有NMF我都搞出来了。TENSOR我原来写过一些代码,太烂了,呵呵。
作者: shiyiming    时间: 2010-12-30 16:24
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
趁着休假,整了一些。幸亏是一个系列,随写随止。欢迎大伙拍砖:

[url:18geup7f]http&#58;//cos&#46;name/2010/12/think-sas-2/[/url:18geup7f]
作者: shiyiming    时间: 2010-12-31 23:35
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
一年又已过去,拜读完各位大师的牛贴,心情愈发沉重。jthu大师小了猪头十年,却有这么强悍的大局观。oloolo大师说的一切,不仅那些高科技猪头闻未所闻,就连码农的标准也不是猪头所从事的一切所能企及的。似乎每日的劳作,只能让自己离主所望越来越远;每多存活一天,只是为了背下更多的业债。明年的最后一天不能再上这个论坛了。
作者: shiyiming    时间: 2011-1-1 15:51
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
听老猪的话好伤感啊 <!-- s:cry: --><img src="{SMILIES_PATH}/icon_cry.gif" alt=":cry:" title="Crying or Very sad" /><!-- s:cry: -->
作者: shiyiming    时间: 2011-1-1 20:41
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
老猪,别这样,  新年新开始!
作者: shiyiming    时间: 2011-1-3 12:31
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
猪兄言重了
作者: shiyiming    时间: 2011-2-1 22:42
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to oloolo
一个proc及其衍生需要一个星期左右才能融会贯通。而灵活度方面已经有了很大进步,R也有接口,AF可以搞c的算法库,而且proc也是可以自己做的。
新算法方面,做个介绍吧,那几个犁地的,到底搞出什么来了?还是只是换汤不换药?

顺祝各位新春快乐!
作者: shiyiming    时间: 2011-2-4 09:13
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to superkuhasu
你去他们的主页看看就知道他们挖出来些啥了呗
学术的东西不就是不停地做加减法么。。。另外他们那个forward stagewise 的算法思想我个人觉得还是很有启发性的, boost, LAR都是这个衍生出来的。另外他们把CS里面的boosting跟统计里面的最大似然估计联系起来还是很牛的,别看推导简单,adaboost出来好几年就没人发现这个联系。
作者: shiyiming    时间: 2011-2-4 19:37
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to oloolo
谢谢。

顺便祝大家春节快乐!
作者: shiyiming    时间: 2011-2-8 05:41
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
to superkuhasu
samo samo
作者: shiyiming    时间: 2011-2-22 14:30
标题: Re: 胡江堂的THINK SAS只写了1就没了下文了啊?
SAS真的搞好了,也是很NB的。。。。




欢迎光临 SAS中文论坛 (https://mysas.net/forum/) Powered by Discuz! X3.2