文書の表示以前のリビジョンバックリンク文書の先頭へ この文書は読取専用です。文書のソースを閲覧することは可能ですが、変更はできません。もし変更したい場合は管理者に連絡してください。 # 練習問題2-2 1.FASTAファイルのレコード数(遺伝子数)を算出せよ FASTAファイルのレコードは”>”から始まります。 1文字目を切り出すには・・・substr($0,1,1) ``` awk ' { if(substr($0,1,1)==">"){ cnt=cnt+1 } } END{ print cnt } ' TAIR6_seq_20060907 ``` 35351 2.塩基配列の平均長を算出せよ seqkitでFASTA->TABに変換したファイルを利用する。区切り文字を指定する-F'\t'を忘れないこと。 ``` awk -F'\t' ' { cnt = cnt + length($2); n = n + 1; } END{ print cnt / n; } ' TAIR6_seq_20060907.tab ``` 2227.59 3.最大、最小の配列長を算出せよ ``` awk -F'\t' ' BEGIN{min=1e+10} #<=10,000,000,000のこと { len=length($2) if(len>max){max=len} if(len<min){min=len} } END{ print max, min } ' TAIR6_seq_20060907.tab ``` max: 31258 min: 22 4.配列を長い順に表示 ``` awk -F'\t' ' { data[$1]=length($2); seq[$1]=$2; } END{ PROCINFO["sorted_in"]="@val_num_desc"; for(i in data){ print data[i]": "i"\t"seq[i]; } }' TAIR6_seq_20060907.tab ``` 2022awk2回答例.txt 最終更新: 2022/04/18 10:33by 127.0.0.1