2日目練習問題①の続き

4．FASTAファイルを「名前（タブ「\t」）配列」と1レコード1行のタブ区切りで表示するようにせよ
ヒント：特殊変数であるORS（改行文字）を変更し、名前の行の時はタブ区切り、それ以外の行の時は区切り文字なしで出力する。

```
awk '
{
  if(substr($0,1,1)==">"){
    ORS="\t";
    if(NR>1){
      print "\n"substr($0,2);
    }else{
      print substr($0,2);
    }
  }else{
    ORS="";
    print $0;
  }
}
END{
  ORS="\n";
  print "";
}
' TAIR6_seq_20060907 > TAIR6_seq_20060907.tab.txt
```

5．4．のタブ区切りテキストを用いて配列を長い順に表示し、ファイルに保存せよ
ファイルに保存する際は、 
awk '{…}' > filename 
とすればよい。

```
awk -F'\t' '
{
  data[$1]=length($NF);
}
END{
  PROCINFO["sorted_in"]="@val_num_desc";
  for(i in data){
    print i"\t"data[i];
  }
}
' TAIR6_seq_20060907.tab.txt > TAIR6_seq_20060907.tab.sort.txt 
```

練習問題①

16S + 18S rDNAのデータベースであるSILVAの配列名の行だけを抽出したファイルを下記の通りダウンロードする。

```wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/SILVA_128_SSURef_Nr99_tax_silva.fasta.name```

中身は
```
>[配列名(スペースは含まない)][スペース][分類名(スペースを含む)]
```
となっている。

1．「Bacteria」という文字列が含まれる行を抽出せよ。

```
awk '
{
  if($0~"Bacteria"){cnt=cnt+1}
}
END{
  print cnt;
}
' SILVA_128_SSURef_Nr99_tax_silva.fasta.name
```

2．分類名が「Bacteria」という文字列で始まる行のみ抽出せよ。

例1：
```
awk '
{
  if($2~"^Bacteria"){cnt=cnt+1}
}
END{
  print cnt;
}
' SILVA_128_SSURef_Nr99_tax_silva.fasta.name
```
例2：
```
awk '
{
  if($0~"^>[^ ]+ Bacteria"){cnt=cnt+1}
}
END{
  print cnt;
}
' SILVA_128_SSURef_Nr99_tax_silva.fasta.name
```

3．ドメインがBacteria、 Eukaryotaに属する生物はそれぞれいくつ登録されているか？
```
awk '
{
  if($2~"^Bacteria"){cnt=cnt+1}
  else if($2~"^Eukaryota"){cnt2=cnt2+1}
}
END{
  print "Bacteria: "cnt", Eukaryota: "cnt2;
}
' SILVA_128_SSURef_Nr99_tax_silva.fasta.name
```