|
|
楼主

楼主 |
发表于 2009-10-29 14:50:23
|
只看该作者
hapmap文件导入到sas中的第三个问题
另外一个需要生成的文件(格式)
ped:
M012 NA19663 0 0 2 G G T T A A ... ;
M012 NA19664 0 0 1 G G C C C C ... ;
M012 NA19665 NA19664 NA19663 0 0 2 G G ... ;
...
在这个文件中,第一列代表家系,第二列代表个体,第三列代表父亲,第四列代表母亲,第五列代表性别(1男2女),后面的字母是其被检测的SNP(单核甘酸多态性)的排列(大家可以顺便当生物科普消遣一下,嘻嘻)
这些个体和基因型的信息,包含在上一篇贴的hapmap文件里。在那个文件中,第三行是此样本中的所有个体名(NA19663...),从第四行开始,是每个SNP的名字,以及这个SNP在此样本每个个体中对应的基因型(GG AG AA ...etc)
* btw:由于组成DNA的碱基只有A,G,C,T四种,所以每个SNP的基因型(即两条染色体上的单核苷酸位点,如GG,代表两条染色体上都是G)只有16种组合
而家系,父母和性别的信息,包含在另一个hapmap文件里:
hapmap3:
FID IID dad mom sex pheno population
M006 NA19656 NA19655 NA19654 2 0 MEX
M006 NA19655 0 0 1 0 MEX
M006 NA19654 0 0 2 0 MEX
M007 NA19659 NA19658 NA19657 2 0 MEX
M007 NA19658 0 0 1 0 MEX
M007 NA19657 0 0 2 0 MEX
......
如第一行所示,我们需要的是前五列的信息,并且要将个体名和基因型对应起来
综上,我们需要解决的问题是
1. 剔除hapmap2文件中的文字信息,提取SNP信息,将它们一一与个体名称对应。以rs774265为例,这个SNP在所有SNP中排在第一个,它在个体NA19663 NA19664 NA19665 中的基因型是GG GG GG,那么我们需要的是给NA19663的基因型第一、二个位置上对应上G G(需用空格隔开,占两格) ,NA19664, NA19665同理。而倒数第二、一个位置上则对应rs4722699,NA19663为C T
2. 在获得个体名和SNP排列后,通过个体名配对,将hapmap3中的家系名,父母,性别的信息加入
呼哧......写这么长的求助帖,也自己把思路好好整理了一遍
不管您是否回帖,都非常感谢您的时间~~
在用手和excel排列了好多文件之后,痛下决心要学好sas,实现自动化!希望与大家携手共进:) |
|