**文書の過去の版を表示しています。**
フォーマットが崩れたfastaの整形
落としてきた遺伝子のfastaファイルがこんな形式だった。
>CI01000000_00034855_00045035 6 exon (s) 34855 - 45035 2310 bp, chain - CDS..POLYA_34265..34855_36662..37935_37991..38432_38605..38722_38866..38944_39020..44987_45035..TSS_45416 ATGTCGAACAGGAGCAGAGAAAACAACGCAAGCACTATAATCTTTCAAGGGGAAATCCCAGA... MSNRSRENNASTIIFQGEIPEELSIDDLKQKAKNGDAKAQTEIGRYYLRLAEQEDEEVNSVTAVTWLLQAAKNGRKDAVKLLQRCLHDRRGI... rnaseq_fgenesh_DREhomolog [lineend] >CI01000000_00108218_00111090 2 exon (s) 108218 - 111090 1164 bp, chain + CDS..TSS_107962..108218_108820..110530_111090..POLYA_111210 ATGGCTGCAGGTGGGACAGGTGTGGTCCAAGCTCTTTTACTATACACTCTGTTTGTTGTTTTTTT... MAAGGTGVVQALLLYTLFVVFLPSKVDLDLKYAGNRQQLFFYEKKYFSSMGLLYKQTNNDPKPSIGYGKHLLVMTFIYPSLYKQIRKKNKTT... fgenesh_DREhomolog [lineend]
どうやら
>遺伝子名・情報 \t CDSのID \t 塩基配列 \t アミノ酸配列 \t ホモログ情報? \t 行末マーカー
という形式らしい。塩基配列のfastaが欲しいので、とりあえずタブで改行したあと>で始まる行とATGCNで構成される行を取り出し、いらない行をトリミングする。
cat carp_cdna.fa | sed -e 's/\t/\n/g' | awk '/^>|[ATGCN]+$/ {print}'| grep -E "^>|^[ATGCN]+$"
結果↓
>CI01000000_00034855_00045035 6 exon (s) 34855 - 45035 2310 bp, chain - ATGTCGAACAGGAGCAGAGAAAACAACGCAAGCACTATAATCTTTCAAGGGGAAATCCCAGAGGAGCTAAGCATTGATGATCTTAAACAGAAGGCAAAGAATGGGGATGCCAAAGCACAGACAGAGATTGGTAGATATTACCTGAGATTAGCCGAGCAAGAAGACGAAGAAGTAAATTCTGTCACCGCGGTAACATGGCTACTCCAGGCGGCGAAAAATGGACGGAAAGATGCAGTGAAACTGCTACAGCGCTGCCTGCATGACAGGAGGGGCATCACAGCTGAGAACAGAGAGGAGGTGTGTTCCCTGGCATGTGAATCTCGTTTTCAGCGCAGTGTAAGGAAAGCAGCTCTGCTCATGTACTGGAAACTCAATCCAGAGAGGAAGAAAAACATCACTGCCTCTGAACTTCTGGAAAATGTCAGCCAGCTCAACACTGAGACAGGGGCTGGATATGTAGGTGTAGAAGAGTTTGTTGAGAATACTAAACAATACGCTGAGGTGTTGGAGGTGAAAGAGGTGTTGATTGACTGGGCATCCCGTGCGGGCATGCAGTGGATTAGCGCCCTCATACCTACTCATCACATCAATACCCTCATCTTCTTCTTCATCATCTCCAACCTAACCCTAGAGTTCTTTGTCCTTGTCATTCCTCTTATTATATTCTACCTATCTTTTGTGTCAATGGTAATCTGTACTCTCCGAGTCTTTCAGAACAGCAAGGCATGGGAGAACTTTCGAGCGTTGACGGCCATGTTGTCTCATTTTGAGCCAGGCATAGACCTTGAGCAGGCAGAGTCAAACTTCACATGGAACCACCTTGAGCCATACCTCTACTTCCTCCTTTCTTCACTTTTCCTCATCCTTTCGTTTCCCGTCGCAGACAAGTCCTGGTTGCCATGTTCGGAACTGGCTACGGTTGCAGTCTTCTTCACTGTAAGCGGCTACTTAAGCCTGCGACCAGCAGCGCAGCAGCATTCCAAACTTGCTCTGCTCTCCCAGGTTGCCTCCGCCATTTCTGCGTTAATGAATCAGTTGCTGGGAGGCTGGGTGGGTCGAATAGTTGGTGGCGCTTGGTTCAACATGCACCTTGGCGACTGGTTGGTACTGCATGTGGGTGTGCCTTGTTTTCTGTATTTTTACCTCCTGTATTTGTGTACCCGAATGGCCACAGCAGGTGGTGCACGTGGCACCTACTGTGTGCTGCTGCCCTACCTGGTGTGCTTCATCTGGTGTGAACTGTCTGTCACGCTGTTGCAAGAGTCTACTGCATTGGGGCTAATGCGCACAGCTGTGGGCTACCTCCTTTTCTTCTTTGCTTTGCCGGTACTATCGCTGGCTCTAGCAGCCATAATGCTGGTGCAGCTGGTGCAATGGTTCCTCGCCCTGGAACTGACCAAAATGGTTGTAACAGTGTGTGTTTTTGTGCTGCCTGTCTTGTTGCACTGGTGGACACGTTTTAGTGTGTCGCCTTTGGCAGTTCTGCACTTTTTGCGGCGTAGCAGCGTGGTCAAGTTGATCCTTGTGTGGATTTCAGCTCTGGTGCTCTTCAGCTGGTTCTATGTGTACCGTTCTGAGGGGATGAAGGTATACAACTCCACCTTGACTTGGCAGGAGTACAGCGACCTGTGTGGCCCTCGTGCTTGGAAGGAGCATAACATGGCACACGCCCAGATCCTCTGCAGCCACTTGGAGGGACACCGGGTGACATGGGAGGGTCGGTTTAAGTACGTTCGCGTCACTGAGATCGAGAATGGAGCGCAAGCTGTCATCAACCTTCTGCCGGTTTTTATAGCAGACTGGGCCCGATGTCTATACGGTGAGGAGTACCCTGCCTGTGATGAGACCCAGCCGGGACCCGCTGAACCGCTGTGTCAGCTCAAGGCGCTTGCAAAGCATAAGTGCCATGTCAAACGTTTTGACCACTACAAGTTTGAAGTGACCATGGGGATGCCGCAGAAGGGGCGCAATGGGGCACAAGATTTTGATGATGCCACCAAAGACATTGTACTTCGGGCTAGTAGTGAATTCAGACACGTCCTATTGGCACTCAGCTCAGGCAGTATGGTGGAGTTTAGCACGGTACTTGAAGGTAGACTGGGCAGCAAATGGCCAGTGTTTGAACTCAAGGCCTTGCACTGCAAGACATGTGCCTCACCACTTGTACCAATACGACGACAGGTCAAGATTGAGCAGGACTGGAGGGTTAAAGCCCGAAATGCCTTTGCTTTTGCTTTCAATTTCCTGTTCCACCCTCTGCTTTCGGCTGAGGTAGACATTACAGTAGCTACTACAGAAGTATCTGTGTGA >CI01000000_00108218_00111090 2 exon (s) 108218 - 111090 1164 bp, chain + ATGGCTGCAGGTGGGACAGGTGTGGTCCAAGCTCTTTTACTATACACTCTGTTTGTTGTTTTTTTACCATCTAAAGTTGATTTAGACCTCAAATATGCTGGCAACAGGCAACAACTTTTCTTCTATGAAAAAAAGTATTTCAGCAGTATGGGTCTACTTTATAAACAAACAAACAATGACCCTAAGCCAAGTATTGGCTATGGGAAACACCTTCTGGTTATGACGTTCATTTATCCTTCTTTATACAAACAAATACGGAAAAAAAACAAGACAACTTCACACCTACATTGGACTAATGCACTGATCATTACAATCTGTTTGATATTGTCTGGAGACATACATCCATGCCCAGGACAGCACCGCGTTACACCGGAGGAGAGGCCTGTGGAAGAGCGCGCTACTACATTCCTTCAGGTATGCCCATTGTATGATGCATTACAGTGTAGTCCTGTACATTCTAACCTTTCCTGTCCGTCGTCTTCGCTTGGAGCTGCCGTGGATGGGACATTGGGAGGCCGTGCTGGTGCTGTGGCAGAGGTGGTGGATCGGCGTGCACGGCGTGCACGGGATTCTCGTGCTGGTGTTGGCGTTGGTGGAGTGCCTAACATATACGCTCCTCCAATAGACACAAGTCAATCAGTTTTCTGTTTAATAAGCATCACAGAATCAGAGGCATCACAGACCATTAAATCACTTAGACCATCTAGTTGTAAAGATATTTTTGGTATGGATACAGTGATGCTCAAGGAGCTTAATACAACAGTCACACACCCCATTACCAAAATTATCAATTTGTCCATTTTACAAAATATGTTCCCAAGCGTGTGGAAATCAGCTGTTATTGTTCCCATTTTCAAAAGTGGAGACCCTCATTCCGTGTCAAACTACAGACCCATCAGTATATTACCCACTGTGTCTAAGATTGCAGAGAAACTGATAGTAAAACAAATTATTAACCATCTAAATACCACACCCTATGCTCTCCACTCTATGCAGTTTGGCTTTAGAGCCAATTATTCCACCGAAACTGCTACTTGCTTTTTTACTGAAAACATCAGAGCTTTGTTGGATCGAGGTGGGGTTGTTGGAGCTGTGTTTCTGGATCTCAAGAAGGCTTTTGACACTGTCAATCATAAAGTCTTGCTGAAAATTATGCAGTTTTAA