各位高手
我现在面临这样一个问题,希望得到大家的指点和帮助,谢谢。
有一个数据集格式如下:
serial,item
001,A
001,B
001,C
002,B
002,C
003,D
003,E
004,A
004,D
...,...
我希望能先找出使用过2个Item以上(含2个)的serial,然后统计item两两使用的人数。
例如:
item1,item2,count
A,B,100
A,C,234
A,D,355
...,...
注意:A,D与D,A是一样的不需要重复统计(其他的两两搭配也是一样)。
请教高手这段代码该如何写?
PS,有点类似于关联规则,通过sas的em模块倒是可以做出来。但是希望可以通过sas/base来完成这个工作:) |