練習問題5-2

wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/example.vcf.gz
gzip -d example.vcf.gz

練習用のVCFファイルをダウンロードし、example.vcfというファイルに解凍する VCFファイルは変異情報を記述するファイル形式でRAD-seq、全ゲノムシーケンス等で使用される。

1.VCFファイルの最初のほうの##から始まる行はコメント行である。##で始まる行を除外して表示せよ。

grep -v "^##" example.vcf

2.VCFの8列目にはその変異について、色々な情報が記述されている。各情報の区切りとしては「;」が使用される。この8列目に遺伝子名も記載されている(snpEffというツールで)。 snpEffのアノテーションがついている変異については、8列目に「ANN=」から始まる項目が存在する。遺伝子名は「ANN=」から始まる項目の中で「|」区切りで表示される情報の4番目に登場する。 ただし、複数の転写物が重なっている領域は、「ANN=」の項目は「,」で区切られて転写物の数だけ複数回表記される。 example.vcfファイル中にはいくつの遺伝子が記載されているでしょうか。

grep -v "^#" example.vcf |awk -F'\t' '
BEGIN{}

{
    split($8, arr, ";");
    for(i in arr){
        if(arr[i]~"^ANN="){
            split(arr[i],arr2,",");
            for(j in arr2){
                split(arr2[j],arr3,"|");
                data[arr3[4]]=1;
            }
        }
    }
}

END{print length(data)}
' 

結果は「14131」