SAS中文论坛
标题:
急!求助:怎样比较某个字段在2条记录的相似性?
[打印本页]
作者:
shiyiming
时间:
2009-8-14 21:02
标题:
急!求助:怎样比较某个字段在2条记录的相似性?
我有个文件,是中国上市公司的CEO的名字和简历。
company CEO resume
1 a xxxxx
2 a xxxyx
3 b yyyyyy
1个人在不同公司简历的表达可能有所不同,但是有较大相似度。比如a, 在公司1和2都有任职,简历有点不同,但是与B的不同 则更大。
我的文件都是中文的。
请问,我怎样比较简历和简历之间的相似度呢?
这个问题需要解决是因为我需要通过这个方式把同名同姓的人区分开。比如,我怎样能通过简历的相似性区分公司1和公司2的a是不是同一个人?
请大侠帮忙。
小女子拜谢了。
作者:
shiyiming
时间:
2009-8-17 12:42
标题:
Re: 急!求助:怎样比较某个字段在2条记录的相似性?
这个问题有挑战性。
问题1:相似的定义,计算两个文本的距离,SAS中有2个函数供参考COMPLEV,COMPGED。(文本挖掘资料中有介绍)
问题2:多条比对,2条记录比对这应该是特殊情况,我想还会有N条的比对。假设3条:三条中两两比对,如果相似则认为是同一个人。
问题3:最后程序结构的搭建。
观望。
作者:
shiyiming
时间:
2009-8-17 16:31
标题:
Re: 急!求助:怎样比较某个字段在2条记录的相似性?
突然间心血来潮写了一大段解决方案,居然提示让我重新登录.......
作者:
shiyiming
时间:
2009-8-17 17:51
标题:
Re: 急!求助:怎样比较某个字段在2条记录的相似性?
那再写呗,我们都等着呢。
作者:
shiyiming
时间:
2009-8-17 21:07
标题:
Re: 急!求助:怎样比较某个字段在2条记录的相似性?
....
我是觉得难得有个有想法的人。
已经有文件了,那么就是说不少东西已经是结构化处理完成的了。最好的方式的话实际上用xml来做的话会更好,尤其是简历方面,方便处理,而且直接结合网页脚本即可。
任职时间和工作年限都是可以抽取的,任职单位以及学历学校都属于半结构化信息,也可以抽取。而对于描述性信息,可以做词频统计,这个就需要一个专业属性的分词库。
从可以得到的个人基本信息,以及词频统计的描述性信息,把简历库完全结构化,更进一步的话需要做进一步的文本挖掘处理。
如果只是比较相似性、判断是否相同人员的话,应该够用,除非之后建立的模型效果不好。
目标变量标识,同一人用相同id编号。之后建立模型系统,进行判断。
通常情况,在信息描述经历,时间吻合的情况,应该可以很好判定身份,复杂些的,通过描述简历信息的能力和语言偏好也可以对结果起到增强作用。
而如果你再把用人单位的相关需求和历史成交结果信息做结构化处理,然后进行配对模型测试的话,应该可以大幅度提高筛选候选人速度和匹配度,同时可以避免单一的学历学校工作经验等的偏见,提高成功率。
但是我所担心的是,你们那里是否有足够的信息。
作者:
shiyiming
时间:
2009-8-18 20:45
标题:
Re: 急!求助:怎样比较某个字段在2条记录的相似性?
to superkuhasu:
能否再写一段给我。谢谢!
欢迎光临 SAS中文论坛 (https://mysas.net/forum/)
Powered by Discuz! X3.2