# 練習問題① シロイヌナズナの遺伝子配列が記載されたFASTAファイルをhttps://www.arabidopsis.org/download_files/Genes/TAIR6_genome_release/TAIR6_seq_20060907 からダウンロードする。(wgetコマンドを使用) 1.FASTAファイルのレコード数(遺伝子数)を算出せよ FASTAファイルのレコードは”>”から始まります。 1文字目を切り出すには・・・substr($0,1,1) ``` awk ' { if(substr($0,1,1)==">"){ cnt=cnt+1 } } END{ print cnt } ' TAIR6_seq_20060907 ``` 35351 2.塩基配列の平均長を算出せよ 改行を考慮して各レコードの塩基配列長を取得して下さい。 (本来は改行コードをod -c で確認する必要あり。) ``` awk ' { if(substr($0,1,1)==">"){ if(NR>1){ print "previous read length:" readlen; cntbp=cntbp+readlen; cnt=cnt+1; } readlen=0; }else{ readlen=readlen+length($0); } } END{ print "previous read length:" readlen; cntbp=cntbp+readlen; cnt=cnt+1; print cntbp/cnt } ' TAIR6_seq_20060907 ``` 2229.55 3.最大、最小の配列長を算出せよ ``` awk ' BEGIN{min=1e+10} #<=10,000,000,000のこと { if(substr($0,1,1)==">"){ if(NR>1){ if(readlen>max){max=readlen} if(readlenmax){max=readlen} if(readlen filename とすればよい。