标题: 求教大数据merge效率的问题 [打印本页] 作者: shiyiming 时间: 2011-4-26 14:07 标题: 求教大数据merge效率的问题 两个数据集进行merge,一个为主表数据较大(billion级别record,20-30variables),另一个从表数据较小(thousands级别record,<=5variable)当对两个表进行merge或者bridge的时候,使用哪种方法的效率更高呢?
我现在能想到的有
proc sql
data merge(with and without index)
hash (内存有限,不确定)
proc format cntlin and put format
求大牛指点一下,哪种方法的效率最高,能排个顺序就更好了,多谢!作者: shiyiming 时间: 2011-4-27 03:23 标题: Re: 求教大数据merge效率的问题 what your datasets looks like and what your target is(append two datasets together, or update some values, or add variables,...).
usually, proc sql is better than data step for huge data, also, proc sql can sort the data in the same time.作者: shiyiming 时间: 2011-4-27 06:58 标题: Re: 求教大数据merge效率的问题 这个问题令我想起自己四年以前的一个面试:可以讲一下data step和proc sql的优劣吗?我说:“。。。。sql更高效。。。”。面试的人没有发表很多的意见,只是说:“really,really?”。现在我的回答差不多是,“在更多的情况下,data step要比proc sql更令人满意舒适。”我估计面试的人依然会说:"really, really?".在sas公司有个叫ms。sql的人,她把sql和data step做了大量的比较,但是从来没有明言哪个更好。不过她似乎暗示,如果其中的一个效率很不好,那么另外的一个也一定不行。
京剧作者: shiyiming 时间: 2011-4-27 10:56 标题: Re: 求教大数据merge效率的问题 :)sql和data step,还是要看具体问题的 <!-- s:lol: --><img src="{SMILIES_PATH}/icon_lol.gif" alt=":lol:" title="Laughing" /><!-- s:lol: -->作者: shiyiming 时间: 2011-4-27 17:40 标题: Re: 求教大数据merge效率的问题 sql和data set感觉SAS公司的两个团队,并且他们一直在PK。
关于这两个的效率问题,SASor上的讨论也由来已久:
2004年 <!-- m --><a class="postlink" href="http://sasor.feoh.net/viewtopic.php?f=1&t=461">http://sasor.feoh.net/viewtopic.php?f=1&t=461</a><!-- m -->
2006年 <!-- m --><a class="postlink" href="http://sasor.feoh.net/viewtopic.php?f=1&t=102">http://sasor.feoh.net/viewtopic.php?f=1&t=102</a><!-- m -->
2006年 <!-- m --><a class="postlink" href="http://www.feoh.net/sasor/viewtopic.php?f=1&t=2549">http://www.feoh.net/sasor/viewtopic.php?f=1&t=2549</a><!-- m -->