SAS中文论坛

标题: [求助] 关于筛选相同记录的问题 [打印本页]

作者: shiyiming 时间: 2004-4-23 17:11
标题: [求助] 关于筛选相同记录的问题
各位大侠：
如果在一个dataset中存在两条或多条相同记录，该如何将他们选出来。
比如：
dataset: allobs中，含 a b c d e.........等多列。
我用proc sql写：
proc sql;
create table sameobs as select * from allobs
group by a, b, c, d, e ........
having count(a)>1;

我想知道，如果不用sql，用proc summary 怎么写？以前看到有人用proc summay写，忘了具体内容了。
bow！

作者: shiyiming 时间: 2004-4-23 23:43
I am not sure if there is any advantage to use proc summary, but the most fundamental way to do it is the following:

proc sort data=allobs;
by a b c d e;
run;

data ck;
set allobs;
by a b c d e;
if first.e+last.e ne 2;
run;

作者: shiyiming 时间: 2004-4-24 07:49
谢谢 xic。
你总是最快的回复。谢谢你！

作者: shiyiming 时间: 2004-4-24 20:16
和你的SQL相对应的proc summary 写法可以是：

proc summary data=allobs nway;
class a b c d e;
output out=someobs(where=(_freq_>1));
run;

使用Proc Summary代替SQL的理由是，在很多情形下的测试表明 summary要比SQL快，做个简单实验：
生成一个含32种重复记录的表（总共5000000条记录）
[code:b6e99]%let totalSize = 5000000;

%let DupRate = 0.8;

data total;
array v(*) v1 - v5;
do i=1 to &totalSize;
do j=1 to dim(v);
v(j) = 100 + 2 - rantbl(-1, (1 - &DupRate ));
end;
output;
end;
drop i j;
run;[/code:b6e99]

用summary选出32种重复记录，5秒多
[code:b6e99]proc summary data=total nway;
class v1 - v5;
output out=out2(drop=_type_ where=(_freq_>1));
run;[/code:b6e99]

用sql，在有cache便宜可占的情况下，还用了4分钟
[code:b6e99]proc sql;
create table out3
as
select *
from total
group by v1,v2,v3,v4,v5
having count(v1)>1;
quit;[/code:b6e99]

但是上述方法只能得到重复的变量组合，而xic 的方法可以提供更为详细的重复记录信息，并且是逐条输出的。

作者: shiyiming 时间: 2004-4-28 18:25
有辛在SASOR文档库上看到有人提交了这篇文章。自己试了一下，PROC SUMMARY的速度的确快，但是5s肯定有问题，不可能这么快。SQL也不会这么慢。

附上我的日志：
[code:92c81]103  %let totalSize = 5000000;
104  %let DupRate = 0.8;
105  data total;
106  array v(*) v1 - v5;
107  do i=1 to &totalSize;
108  option fullstimer msglevel=i;
109  do j=1 to dim(v);
110  v(j) = 100 + 2 - rantbl(-1, (1 - &DupRate ));
111  end;
112  output;
113  end;
114  drop i j;
115  run;

NOTE: 数据集 WORK.TOTAL 有 5000000 个观测和 5 个变量。
NOTE:  压缩的数据集 WORK.TOTAL 大小减少了百分之 17.39。
   压缩的是 40897 页；未压缩的要求 49506页。
NOTE: DATA 语句占用：
   实际时间       1:08.29
   CPU 时间       1:07.89

116
117  proc summary data=total nway;
118  class v1 - v5;
119  output out=out2(drop=_type_ where=(_freq_>1));
120  run;

NOTE: 有 5000000 个观测从数据集 WORK.TOTAL. 中读取
NOTE: 数据集 WORK.OUT2 有 32 个观测和 6 个变量。
NOTE:  压缩的数据集 WORK.OUT2 大小减少了百分之 100.00。
   压缩的是 2 页；未压缩的将要求 1页。
NOTE: PROCEDURE SUMMARY占用：
   实际时间       19.79 秒
   用户 CPU 时间    18.85 秒
   系统 CPU 时间    0.92 秒
   内存                         129k

121
122  proc sql;
123  create table out3
124  as
125  select *
126  from total
127  group by v1,v2,v3,v4,v5
128  having count(v1)>1;
NOTE:  压缩的数据集 WORK.OUT3 大小减少了百分之 100.00。
   压缩的是 2 页；未压缩的将要求 1页。
NOTE: Table WORK.OUT3 created, with 32 rows and 5 columns.

129  quit;
NOTE: PROCEDURE SQL占用：
   实际时间       51.09 秒
   用户 CPU 时间    44.28 秒
   系统 CPU 时间    6.53 秒
   内存                         417158k
[/code:92c81]

机器是1.6G Xeon *2。运行时还有其他任务在跑。

作者: shiyiming 时间: 2004-4-28 23:56
感谢Sharwyn腾出看家的服务器来测，并且让这个游戏玩得热闹。
我在笔记本和台式机上各做了几次试验，典型的结果是：

[code:18996]
1 options fullstimer msglevel=i;
2
3 %let totalSize = 5000000;
4
5 %let DupRate = 0.8;
6
7 data total;
8 array v(*) v1 - v5;
9 do i=1 to &totalSize;
10    do j=1 to dim(v);
11          v(j) = 100 + 2 - rantbl(-1, (1 - &DupRate ));
12    end;
13    output;
14 end;
15 drop i j;
16 run;

NOTE: The data set WORK.TOTAL has 5000000 observations and 5 variables.
NOTE: DATA statement used:
   real time          33.93 seconds
   user cpu time    31.43 seconds
   system cpu time    1.65 seconds
   Memory                         96k

17
18 proc summary data=total nway;
19 class v1 - v5;
20 output out=out2(drop=_type_ where=(_freq_>1));
21 run;

NOTE: There were 5000000 observations read from the data set WORK.TOTAL.
NOTE: The data set WORK.OUT2 has 32 observations and 6 variables.
NOTE: PROCEDURE SUMMARY used:
   real time          7.07 seconds
   user cpu time    6.29 seconds
   system cpu time    0.43 seconds
   Memory                         121k

22
23 proc sql;
24 create table out3
25 as
26 select *
27 from total
28 group by v1,v2,v3,v4,v5
29 having count(v1)>1;
NOTE: Table WORK.OUT3 created, with 32 rows and 5 columns.

30 quit;
NOTE: PROCEDURE SQL used:
   real time          3:13.98
   user cpu time    20.98 seconds
   system cpu time    4.21 seconds
   Memory                         417157k
[/code:18996]

和Sharwyn讨论了一下，有以下猜想：
1。本例中summary胜出是无疑的
2。summary的算法在此情形中比较优化，CPU时间少，内存使用少，IO操作少，却完成了相同的任务；SQL在这样的例子中内存居然夸张的用到了417M
3。我的测试中，summary比Sharwyn快的原因是CPU快，而SQL慢在物理内存少和硬盘IO低

测试机
笔记本 1.4G迅驰，内存512M DDR333
台式机 2.0G P4，内存512M DDR266

作者: shiyiming 时间: 2004-4-29 00:42
我的结果和结论与SAS_Dream非常相似，机器刚重起，没有其他作业。
我把SQL和SUMMARY的位置对调了，结果还是一样。
运行完程序后,现在机器变得暴慢！
[code:72d04]1 options fullstimer msglevel=i;
2 %let totalSize = 5000000;
3 %let DupRate = 0.8;
4
5 data total;
6 array v(*) v1 - v5;
7 do i=1 to &totalSize;
8    do j=1 to dim(v);
9       v(j) = 100 + 2 - rantbl(-1, (1 - &DupRate ));
10    end;
11    output;
12 end;
13 drop i j;
14 run;

NOTE: The data set WORK.TOTAL has 5000000 observations and 5 variables.
NOTE: DATA statement used:
   real time          16.16 seconds
   user cpu time    13.48 seconds
   system cpu time    0.70 seconds
   Memory                         96k

15
16 proc sql;
17 create table out3
18 as
19 select *
20 from total
21 group by v1,v2,v3,v4,v5
22 having count(v1)>1;
NOTE: Table WORK.OUT3 created, with 32 rows and 5 columns.

23 quit;
NOTE: PROCEDURE SQL used:
   real time          5:09.97
   user cpu time    27.63 seconds
   system cpu time    8.31 seconds
   Memory                         2299k

24
25 proc summary data=total nway;
26 class v1 - v5;
27 output out=out2(drop=_type_ where=(_freq_>1));
28 run;

NOTE: There were 5000000 observations read from the data set WORK.TOTAL.
NOTE: The data set WORK.OUT2 has 32 observations and 6 variables.
NOTE: PROCEDURE SUMMARY used:
   real time          13.76 seconds
   user cpu time    7.19 seconds
   system cpu time    0.39 seconds
   Memory                         129k[/code:72d04]
IBM ThinkPad T23
PIII 1.13G 512M SDRAM

作者: shiyiming 时间: 2004-4-29 12:16
[quote="shiyiming":8b942]我的结果和结论与SAS_Dream非常相似，机器刚重起，没有其他作业。
我把SQL和SUMMARY的位置对调了，结果还是一样。
运行完程序后,现在机器变得暴慢！
[/quote:8b942]

<img src="{SMILIES_PATH}/icon_wink.gif" alt=":wink:" title="Wink" /> 估计SQL用完了内存也死抱着不还，"400M是我的"
Sharwyn他家富，好几个G的内存，不还就不还，像你我这样，512M就敢出来混，不暴慢就怪了。

另外，老大可以调一调config里的sortsize, 调到和你的物理内存一样，这时你可以观察到SQL使用的内存在加大，速度也会不同。

作者: shiyiming 时间: 2004-4-29 17:21
[quote:19a25]1       options fullstimer msglevel=i;
2
3       %let totalSize = 5000000;
4
5       %let DupRate = 0.8;
6
7    data total;
8       array v(*) v1 - v5;
9       do i=1 to &totalSize;
10       do j=1 to dim(v);
11          v(j) = 100 + 2 - rantbl(-1, (1 - &DupRate ));
12       end;
13       output;
14    end;
15    drop i j;
16    run;

NOTE: The data set WORK.TOTAL has 5000000 observations and 5 variables.
NOTE: DATA statement used (Total process time):
   real time          9.73 seconds
   user cpu time    4.43 seconds
   system cpu time    1.06 seconds
   Memory                         80k

17
18    proc summary data=total nway;
19    class v1 - v5;
20    output out=out2(drop=_type_ where=(_freq_>1));
21    run;

NOTE: Multiple concurrent threads will be used to summarize data.
NOTE: There were 5000000 observations read from the data set WORK.TOTAL.
NOTE: The data set WORK.OUT2 has 32 observations and 6 variables.
NOTE: PROCEDURE SUMMARY used (Total process time):
   real time          5.03 seconds
   user cpu time    8.56 seconds
   system cpu time    1.14 seconds
   Memory                         94k

22
23    proc sql;
24    create table out3
25    as
26    select *
27    from total
28    group by v1,v2,v3,v4,v5
29    having count(v1)>1;
NOTE: Table WORK.OUT3 created, with 32 rows and 5 columns.

30    quit;
NOTE: PROCEDURE SQL used (Total process time):
   real time          18.60 seconds
   user cpu time    18.04 seconds
   system cpu time    2.48 seconds
   Memory                         316k

[/quote:19a25]

联想 P4 3.2G 内存2G DDR400 台式电脑

作者: shiyiming 时间: 2004-4-29 17:23
[quote:bca75]1       options fullstimer msglevel=i;
2
3       %let totalSize = 5000000;
4
5       %let DupRate = 0.8;
6
7    data total;
8       array v(*) v1 - v5;
9       do i=1 to &totalSize;
10       do j=1 to dim(v);
11          v(j) = 100 + 2 - rantbl(-1, (1 - &DupRate ));
12       end;
13       output;
14    end;
15    drop i j;
16    run;

NOTE: The data set WORK.TOTAL has 5000000 observations and 5 variables.
NOTE: DATA statement used (Total process time):
   real time          9.73 seconds
   user cpu time    4.43 seconds
   system cpu time    1.06 seconds
   Memory                         80k

17
18    proc summary data=total nway;
19    class v1 - v5;
20    output out=out2(drop=_type_ where=(_freq_>1));
21    run;

NOTE: Multiple concurrent threads will be used to summarize data.
NOTE: There were 5000000 observations read from the data set WORK.TOTAL.
NOTE: The data set WORK.OUT2 has 32 observations and 6 variables.
NOTE: PROCEDURE SUMMARY used (Total process time):
   real time          5.03 seconds
   user cpu time    8.56 seconds
   system cpu time    1.14 seconds
   Memory                         94k

22
23    proc sql;
24    create table out3
25    as
26    select *
27    from total
28    group by v1,v2,v3,v4,v5
29    having count(v1)>1;
NOTE: Table WORK.OUT3 created, with 32 rows and 5 columns.

30    quit;
NOTE: PROCEDURE SQL used (Total process time):
   real time          18.60 seconds
   user cpu time    18.04 seconds
   system cpu time    2.48 seconds
   Memory                         316k

[/quote:bca75]

联想 P4 3.2G 内存2G DDR400 台式电脑

作者: shiyiming 时间: 2004-4-29 17:50
看来物理内存的大小对这个Case的影响很大啊，这使我联想到系统配置建议书应该详悉考虑这些问题。
这回长见识了，大家的测试结果很有用，要把这个帖子设为精华贴。

作者: shiyiming 时间: 2004-4-29 18:09
[quote="xlbgf":5153d]
联想 P4 3.2G 内存2G DDR400 台式电脑
[/quote:5153d]

xlbgf的测试机好劲！

欢迎光临 SAS中文论坛 (http://mysas.net/forum/)