wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/sample1.fasta.gz
wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/sample2.fasta.gz
wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/sample3.fasta.gz
wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/sample4.fasta.gz
gzip -d sample*.fasta.gz

として練習用のVCFファイルをダウンロードして解凍する。 上記ファイルは抗体可変領域のアンプリコンシーケンスデータである。

awk -F'\t' '
BEGIN{
    ORS="";
}
{
    length(ARGV)
    if(FILENAME==ARGV[1]){
        if(FNR%2==0){
            data[1][$0]=data[1][$0]+1;
            seq[$0]=1;
        }
    }
    if(FILENAME==ARGV[2]){
        if(FNR%2==0){
            data[2][$0]=data[2][$0]+1;
            seq[$0]=1;
        }
    }
    if(FILENAME==ARGV[3]){
        if(FNR%2==0){
            data[3][$0]=data[3][$0]+1;
            seq[$0]=1;
        }
    }
    if(FILENAME==ARGV[4]){
        if(FNR%2==0){
            data[4][$0]=data[4][$0]+1;
            seq[$0]=1;
        }
    }
}
END{
    print "id\tsample1\tsample2\tsample3\tsample4\n";
    for(i in seq){
        print i;
        for(j=1;j<=4;j=j+1){
            print "\t"data[j][i]+0;
        }
        print "\n";
    }
}' sample1.fasta  sample2.fasta  sample3.fasta  sample4.fasta
  • 2022awk7回答例.1653294084.txt.gz
  • 最終更新: 2022/05/23 08:21
  • by suikou