フォーマットが崩れたfastaファイルを整形

フォーマットが崩れたfastaの整形

落としてきた遺伝子のfastaファイルがこんな形式だった。

>CI01000000_00034855_00045035 6 exon (s) 34855 - 45035 2310 bp, chain - CDS..POLYA_34265..34855_36662..37935_37991..38432_38605..38722_38866..38944_39020..44987_45035..TSS_45416       ATGTCGAACAGGAGCAGAGAAAACAACGCAAGCACTATAATCTTTCAAGGGGAAATCCCAGA...  MSNRSRENNASTIIFQGEIPEELSIDDLKQKAKNGDAKAQTEIGRYYLRLAEQEDEEVNSVTAVTWLLQAAKNGRKDAVKLLQRCLHDRRGI...      rnaseq_fgenesh_DREhomolog       [lineend]
>CI01000000_00108218_00111090 2 exon (s) 108218 - 111090 1164 bp, chain +       CDS..TSS_107962..108218_108820..110530_111090..POLYA_111210     ATGGCTGCAGGTGGGACAGGTGTGGTCCAAGCTCTTTTACTATACACTCTGTTTGTTGTTTTTTT...    MAAGGTGVVQALLLYTLFVVFLPSKVDLDLKYAGNRQQLFFYEKKYFSSMGLLYKQTNNDPKPSIGYGKHLLVMTFIYPSLYKQIRKKNKTT...    fgenesh_DREhomolog      [lineend]

どうやら

>遺伝子名・情報 \t CDSのID \t 塩基配列 \t アミノ酸配列 \t ホモログ情報? \t 行末マーカー

という形式のようなので、とりあえずタブで改行したあと>で始まる行とATGCNで構成される行を取り出し、いらない行をトリミングする。

cat carp_cdna.fa | sed -e 's/\t/\n/g' | awk '/^>|[ATGCN]+$/ {print}'| grep -E "^>|^[ATGCN]+$"

結果↓

>CI01000000_00034855_00045035 6 exon (s) 34855 - 45035 2310 bp, chain -
ATGTCGAACAGGAGCAGAGAAAACAACGCAAGCACTATAATCTTTCAAGGGGAAATCCCAGAGGAGCTAAGCATTGATGATCTTAAACAGAAGGCAAAGAATGGGGATGCCAAAGCACAGACAGAGATTGGTAGATATTACCTGAGATTAGCCGAGCAAGAAGACGAAGAAGTAAATTCTGTCACCGCGGTAACATGGCTACTCCAGGCGGCGAAAAATGGACGGAAAGATGCAGTGAAACTGCTACAGCGCTGCCTGCATGACAGGAGGGGCATCACAGCTGAGAACAGAGAGGAGGTGTGTTCCCTGGCATGTGAATCTCGTTTTCAGCGCAGTGTAAGGAAAGCAGCTCTGCTCATGTACTGGAAACTCAATCCAGAGAGGAAGAAAAACATCACTGCCTCTGAACTTCTGGAAAATGTCAGCCAGCTCAACACTGAGACAGGGGCTGGATATGTAGGTGTAGAAGAGTTTGTTGAGAATACTAAACAATACGCTGAGGTGTTGGAGGTGAAAGAGGTGTTGATTGACTGGGCATCCCGTGCGGGCATGCAGTGGATTAGCGCCCTCATACCTACTCATCACATCAATACCCTCATCTTCTTCTTCATCATCTCCAACCTAACCCTAGAGTTCTTTGTCCTTGTCATTCCTCTTATTATATTCTACCTATCTTTTGTGTCAATGGTAATCTGTACTCTCCGAGTCTTTCAGAACAGCAAGGCATGGGAGAACTTTCGAGCGTTGACGGCCATGTTGTCTCATTTTGAGCCAGGCATAGACCTTGAGCAGGCAGAGTCAAACTTCACATGGAACCACCTTGAGCCATACCTCTACTTCCTCCTTTCTTCACTTTTCCTCATCCTTTCGTTTCCCGTCGCAGACAAGTCCTGGTTGCCATGTTCGGAACTGGCTACGGTTGCAGTCTTCTTCACTGTAAGCGGCTACTTAAGCCTGCGACCAGCAGCGCAGCAGCATTCCAAACTTGCTCTGCTCTCCCAGGTTGCCTCCGCCATTTCTGCGTTAATGAATCAGTTGCTGGGAGGCTGGGTGGGTCGAATAGTTGGTGGCGCTTGGTTCAACATGCACCTTGGCGACTGGTTGGTACTGCATGTGGGTGTGCCTTGTTTTCTGTATTTTTACCTCCTGTATTTGTGTACCCGAATGGCCACAGCAGGTGGTGCACGTGGCACCTACTGTGTGCTGCTGCCCTACCTGGTGTGCTTCATCTGGTGTGAACTGTCTGTCACGCTGTTGCAAGAGTCTACTGCATTGGGGCTAATGCGCACAGCTGTGGGCTACCTCCTTTTCTTCTTTGCTTTGCCGGTACTATCGCTGGCTCTAGCAGCCATAATGCTGGTGCAGCTGGTGCAATGGTTCCTCGCCCTGGAACTGACCAAAATGGTTGTAACAGTGTGTGTTTTTGTGCTGCCTGTCTTGTTGCACTGGTGGACACGTTTTAGTGTGTCGCCTTTGGCAGTTCTGCACTTTTTGCGGCGTAGCAGCGTGGTCAAGTTGATCCTTGTGTGGATTTCAGCTCTGGTGCTCTTCAGCTGGTTCTATGTGTACCGTTCTGAGGGGATGAAGGTATACAACTCCACCTTGACTTGGCAGGAGTACAGCGACCTGTGTGGCCCTCGTGCTTGGAAGGAGCATAACATGGCACACGCCCAGATCCTCTGCAGCCACTTGGAGGGACACCGGGTGACATGGGAGGGTCGGTTTAAGTACGTTCGCGTCACTGAGATCGAGAATGGAGCGCAAGCTGTCATCAACCTTCTGCCGGTTTTTATAGCAGACTGGGCCCGATGTCTATACGGTGAGGAGTACCCTGCCTGTGATGAGACCCAGCCGGGACCCGCTGAACCGCTGTGTCAGCTCAAGGCGCTTGCAAAGCATAAGTGCCATGTCAAACGTTTTGACCACTACAAGTTTGAAGTGACCATGGGGATGCCGCAGAAGGGGCGCAATGGGGCACAAGATTTTGATGATGCCACCAAAGACATTGTACTTCGGGCTAGTAGTGAATTCAGACACGTCCTATTGGCACTCAGCTCAGGCAGTATGGTGGAGTTTAGCACGGTACTTGAAGGTAGACTGGGCAGCAAATGGCCAGTGTTTGAACTCAAGGCCTTGCACTGCAAGACATGTGCCTCACCACTTGTACCAATACGACGACAGGTCAAGATTGAGCAGGACTGGAGGGTTAAAGCCCGAAATGCCTTTGCTTTTGCTTTCAATTTCCTGTTCCACCCTCTGCTTTCGGCTGAGGTAGACATTACAGTAGCTACTACAGAAGTATCTGTGTGA
>CI01000000_00108218_00111090 2 exon (s) 108218 - 111090 1164 bp, chain +
ATGGCTGCAGGTGGGACAGGTGTGGTCCAAGCTCTTTTACTATACACTCTGTTTGTTGTTTTTTTACCATCTAAAGTTGATTTAGACCTCAAATATGCTGGCAACAGGCAACAACTTTTCTTCTATGAAAAAAAGTATTTCAGCAGTATGGGTCTACTTTATAAACAAACAAACAATGACCCTAAGCCAAGTATTGGCTATGGGAAACACCTTCTGGTTATGACGTTCATTTATCCTTCTTTATACAAACAAATACGGAAAAAAAACAAGACAACTTCACACCTACATTGGACTAATGCACTGATCATTACAATCTGTTTGATATTGTCTGGAGACATACATCCATGCCCAGGACAGCACCGCGTTACACCGGAGGAGAGGCCTGTGGAAGAGCGCGCTACTACATTCCTTCAGGTATGCCCATTGTATGATGCATTACAGTGTAGTCCTGTACATTCTAACCTTTCCTGTCCGTCGTCTTCGCTTGGAGCTGCCGTGGATGGGACATTGGGAGGCCGTGCTGGTGCTGTGGCAGAGGTGGTGGATCGGCGTGCACGGCGTGCACGGGATTCTCGTGCTGGTGTTGGCGTTGGTGGAGTGCCTAACATATACGCTCCTCCAATAGACACAAGTCAATCAGTTTTCTGTTTAATAAGCATCACAGAATCAGAGGCATCACAGACCATTAAATCACTTAGACCATCTAGTTGTAAAGATATTTTTGGTATGGATACAGTGATGCTCAAGGAGCTTAATACAACAGTCACACACCCCATTACCAAAATTATCAATTTGTCCATTTTACAAAATATGTTCCCAAGCGTGTGGAAATCAGCTGTTATTGTTCCCATTTTCAAAAGTGGAGACCCTCATTCCGTGTCAAACTACAGACCCATCAGTATATTACCCACTGTGTCTAAGATTGCAGAGAAACTGATAGTAAAACAAATTATTAACCATCTAAATACCACACCCTATGCTCTCCACTCTATGCAGTTTGGCTTTAGAGCCAATTATTCCACCGAAACTGCTACTTGCTTTTTTACTGAAAACATCAGAGCTTTGTTGGATCGAGGTGGGGTTGTTGGAGCTGTGTTTCTGGATCTCAAGAAGGCTTTTGACACTGTCAATCATAAAGTCTTGCTGAAAATTATGCAGTTTTAA
  • フォーマットが崩れたfastaファイルを整形.1525742976.txt.gz
  • 最終更新: 2018/05/08 01:29
  • by 133.11.222.89