SAS中文论坛

标题: hapmap文件导入到sas中的第三个问题 [打印本页]

作者: shiyiming    时间: 2009-10-29 14:50
标题: hapmap文件导入到sas中的第三个问题
另外一个需要生成的文件(格式)
ped:
M012   NA19663        0         0        2        G        G        T        T        A        A        ... ;
M012   NA19664         0        0        1        G        G        C        C        C        C        ... ;
M012   NA19665             NA19664        NA19663    0        0        2        G        G        ... ;
...

在这个文件中,第一列代表家系,第二列代表个体,第三列代表父亲,第四列代表母亲,第五列代表性别(1男2女),后面的字母是其被检测的SNP(单核甘酸多态性)的排列(大家可以顺便当生物科普消遣一下,嘻嘻)

这些个体和基因型的信息,包含在上一篇贴的hapmap文件里。在那个文件中,第三行是此样本中的所有个体名(NA19663...),从第四行开始,是每个SNP的名字,以及这个SNP在此样本每个个体中对应的基因型(GG AG AA ...etc)
* btw:由于组成DNA的碱基只有A,G,C,T四种,所以每个SNP的基因型(即两条染色体上的单核苷酸位点,如GG,代表两条染色体上都是G)只有16种组合

而家系,父母和性别的信息,包含在另一个hapmap文件里:
hapmap3:
FID        IID        dad        mom        sex        pheno        population
M006        NA19656        NA19655        NA19654        2        0        MEX
M006        NA19655        0        0        1        0        MEX
M006        NA19654        0        0        2        0        MEX
M007        NA19659        NA19658        NA19657        2        0        MEX
M007        NA19658        0        0        1        0        MEX
M007        NA19657        0        0        2        0        MEX
......
如第一行所示,我们需要的是前五列的信息,并且要将个体名和基因型对应起来

综上,我们需要解决的问题是
1. 剔除hapmap2文件中的文字信息,提取SNP信息,将它们一一与个体名称对应。以rs774265为例,这个SNP在所有SNP中排在第一个,它在个体NA19663 NA19664 NA19665 中的基因型是GG GG GG,那么我们需要的是给NA19663的基因型第一、二个位置上对应上G G(需用空格隔开,占两格) ,NA19664, NA19665同理。而倒数第二、一个位置上则对应rs4722699,NA19663为C T
2. 在获得个体名和SNP排列后,通过个体名配对,将hapmap3中的家系名,父母,性别的信息加入

呼哧......写这么长的求助帖,也自己把思路好好整理了一遍
不管您是否回帖,都非常感谢您的时间~~
在用手和excel排列了好多文件之后,痛下决心要学好sas,实现自动化!希望与大家携手共进:)




欢迎光临 SAS中文论坛 (https://mysas.net/forum/) Powered by Discuz! X3.2