フォーマットが崩れたfastaファイルを整形

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン 前のリビジョン
フォーマットが崩れたfastaファイルを整形 [2018/05/08 01:30] 133.11.222.89フォーマットが崩れたfastaファイルを整形 [Unknown date] (現在) – 削除 - 外部編集 (Unknown date) 127.0.0.1
行 1: 行 1:
-====== フォーマットが崩れたfastaの整形 ====== 
  
-落としてきた遺伝子のfastaファイルがこんな形式だった。 
-<code> 
->CI01000000_00034855_00045035 6 exon (s) 34855 - 45035 2310 bp, chain - CDS..POLYA_34265..34855_36662..37935_37991..38432_38605..38722_38866..38944_39020..44987_45035..TSS_45416       ATGTCGAACAGGAGCAGAGAAAACAACGCAAGCACTATAATCTTTCAAGGGGAAATCCCAGA...  MSNRSRENNASTIIFQGEIPEELSIDDLKQKAKNGDAKAQTEIGRYYLRLAEQEDEEVNSVTAVTWLLQAAKNGRKDAVKLLQRCLHDRRGI...      rnaseq_fgenesh_DREhomolog       [lineend] 
->CI01000000_00108218_00111090 2 exon (s) 108218 - 111090 1164 bp, chain +       CDS..TSS_107962..108218_108820..110530_111090..POLYA_111210     ATGGCTGCAGGTGGGACAGGTGTGGTCCAAGCTCTTTTACTATACACTCTGTTTGTTGTTTTTTT...    MAAGGTGVVQALLLYTLFVVFLPSKVDLDLKYAGNRQQLFFYEKKYFSSMGLLYKQTNNDPKPSIGYGKHLLVMTFIYPSLYKQIRKKNKTT...    fgenesh_DREhomolog      [lineend] 
-</code> 
-どうやら 
-<code> 
->遺伝子名・情報 \t CDSのID \t 塩基配列 \t アミノ酸配列 \t ホモログ情報? \t 行末マーカー 
-</code> 
-という形式らしい。塩基配列のfastaが欲しいので、とりあえずタブで改行したあと>で始まる行とATGCNで構成される行を取り出し、いらない行をトリミングする。 
-<code bash> 
-cat carp_cdna.fa | sed -e 's/\t/\n/g' | awk '/^>|[ATGCN]+$/ {print}'| grep -E "^>|^[ATGCN]+$" 
-</code> 
- 
-結果↓ 
-<code> 
->CI01000000_00034855_00045035 6 exon (s) 34855 - 45035 2310 bp, chain - 
-ATGTCGAACAGGAGCAGAGAAAACAACGCAAGCACTATAATCTTTCAAGGGGAAATCCCAGAGGAGCTAAGCATTGATGATCTTAAACAGAAGGCAAAGAATGGGGATGCCAAAGCACAGACAGAGATTGGTAGATATTACCTGAGATTAGCCGAGCAAGAAGACGAAGAAGTAAATTCTGTCACCGCGGTAACATGGCTACTCCAGGCGGCGAAAAATGGACGGAAAGATGCAGTGAAACTGCTACAGCGCTGCCTGCATGACAGGAGGGGCATCACAGCTGAGAACAGAGAGGAGGTGTGTTCCCTGGCATGTGAATCTCGTTTTCAGCGCAGTGTAAGGAAAGCAGCTCTGCTCATGTACTGGAAACTCAATCCAGAGAGGAAGAAAAACATCACTGCCTCTGAACTTCTGGAAAATGTCAGCCAGCTCAACACTGAGACAGGGGCTGGATATGTAGGTGTAGAAGAGTTTGTTGAGAATACTAAACAATACGCTGAGGTGTTGGAGGTGAAAGAGGTGTTGATTGACTGGGCATCCCGTGCGGGCATGCAGTGGATTAGCGCCCTCATACCTACTCATCACATCAATACCCTCATCTTCTTCTTCATCATCTCCAACCTAACCCTAGAGTTCTTTGTCCTTGTCATTCCTCTTATTATATTCTACCTATCTTTTGTGTCAATGGTAATCTGTACTCTCCGAGTCTTTCAGAACAGCAAGGCATGGGAGAACTTTCGAGCGTTGACGGCCATGTTGTCTCATTTTGAGCCAGGCATAGACCTTGAGCAGGCAGAGTCAAACTTCACATGGAACCACCTTGAGCCATACCTCTACTTCCTCCTTTCTTCACTTTTCCTCATCCTTTCGTTTCCCGTCGCAGACAAGTCCTGGTTGCCATGTTCGGAACTGGCTACGGTTGCAGTCTTCTTCACTGTAAGCGGCTACTTAAGCCTGCGACCAGCAGCGCAGCAGCATTCCAAACTTGCTCTGCTCTCCCAGGTTGCCTCCGCCATTTCTGCGTTAATGAATCAGTTGCTGGGAGGCTGGGTGGGTCGAATAGTTGGTGGCGCTTGGTTCAACATGCACCTTGGCGACTGGTTGGTACTGCATGTGGGTGTGCCTTGTTTTCTGTATTTTTACCTCCTGTATTTGTGTACCCGAATGGCCACAGCAGGTGGTGCACGTGGCACCTACTGTGTGCTGCTGCCCTACCTGGTGTGCTTCATCTGGTGTGAACTGTCTGTCACGCTGTTGCAAGAGTCTACTGCATTGGGGCTAATGCGCACAGCTGTGGGCTACCTCCTTTTCTTCTTTGCTTTGCCGGTACTATCGCTGGCTCTAGCAGCCATAATGCTGGTGCAGCTGGTGCAATGGTTCCTCGCCCTGGAACTGACCAAAATGGTTGTAACAGTGTGTGTTTTTGTGCTGCCTGTCTTGTTGCACTGGTGGACACGTTTTAGTGTGTCGCCTTTGGCAGTTCTGCACTTTTTGCGGCGTAGCAGCGTGGTCAAGTTGATCCTTGTGTGGATTTCAGCTCTGGTGCTCTTCAGCTGGTTCTATGTGTACCGTTCTGAGGGGATGAAGGTATACAACTCCACCTTGACTTGGCAGGAGTACAGCGACCTGTGTGGCCCTCGTGCTTGGAAGGAGCATAACATGGCACACGCCCAGATCCTCTGCAGCCACTTGGAGGGACACCGGGTGACATGGGAGGGTCGGTTTAAGTACGTTCGCGTCACTGAGATCGAGAATGGAGCGCAAGCTGTCATCAACCTTCTGCCGGTTTTTATAGCAGACTGGGCCCGATGTCTATACGGTGAGGAGTACCCTGCCTGTGATGAGACCCAGCCGGGACCCGCTGAACCGCTGTGTCAGCTCAAGGCGCTTGCAAAGCATAAGTGCCATGTCAAACGTTTTGACCACTACAAGTTTGAAGTGACCATGGGGATGCCGCAGAAGGGGCGCAATGGGGCACAAGATTTTGATGATGCCACCAAAGACATTGTACTTCGGGCTAGTAGTGAATTCAGACACGTCCTATTGGCACTCAGCTCAGGCAGTATGGTGGAGTTTAGCACGGTACTTGAAGGTAGACTGGGCAGCAAATGGCCAGTGTTTGAACTCAAGGCCTTGCACTGCAAGACATGTGCCTCACCACTTGTACCAATACGACGACAGGTCAAGATTGAGCAGGACTGGAGGGTTAAAGCCCGAAATGCCTTTGCTTTTGCTTTCAATTTCCTGTTCCACCCTCTGCTTTCGGCTGAGGTAGACATTACAGTAGCTACTACAGAAGTATCTGTGTGA 
->CI01000000_00108218_00111090 2 exon (s) 108218 - 111090 1164 bp, chain + 
-ATGGCTGCAGGTGGGACAGGTGTGGTCCAAGCTCTTTTACTATACACTCTGTTTGTTGTTTTTTTACCATCTAAAGTTGATTTAGACCTCAAATATGCTGGCAACAGGCAACAACTTTTCTTCTATGAAAAAAAGTATTTCAGCAGTATGGGTCTACTTTATAAACAAACAAACAATGACCCTAAGCCAAGTATTGGCTATGGGAAACACCTTCTGGTTATGACGTTCATTTATCCTTCTTTATACAAACAAATACGGAAAAAAAACAAGACAACTTCACACCTACATTGGACTAATGCACTGATCATTACAATCTGTTTGATATTGTCTGGAGACATACATCCATGCCCAGGACAGCACCGCGTTACACCGGAGGAGAGGCCTGTGGAAGAGCGCGCTACTACATTCCTTCAGGTATGCCCATTGTATGATGCATTACAGTGTAGTCCTGTACATTCTAACCTTTCCTGTCCGTCGTCTTCGCTTGGAGCTGCCGTGGATGGGACATTGGGAGGCCGTGCTGGTGCTGTGGCAGAGGTGGTGGATCGGCGTGCACGGCGTGCACGGGATTCTCGTGCTGGTGTTGGCGTTGGTGGAGTGCCTAACATATACGCTCCTCCAATAGACACAAGTCAATCAGTTTTCTGTTTAATAAGCATCACAGAATCAGAGGCATCACAGACCATTAAATCACTTAGACCATCTAGTTGTAAAGATATTTTTGGTATGGATACAGTGATGCTCAAGGAGCTTAATACAACAGTCACACACCCCATTACCAAAATTATCAATTTGTCCATTTTACAAAATATGTTCCCAAGCGTGTGGAAATCAGCTGTTATTGTTCCCATTTTCAAAAGTGGAGACCCTCATTCCGTGTCAAACTACAGACCCATCAGTATATTACCCACTGTGTCTAAGATTGCAGAGAAACTGATAGTAAAACAAATTATTAACCATCTAAATACCACACCCTATGCTCTCCACTCTATGCAGTTTGGCTTTAGAGCCAATTATTCCACCGAAACTGCTACTTGCTTTTTTACTGAAAACATCAGAGCTTTGTTGGATCGAGGTGGGGTTGTTGGAGCTGTGTTTCTGGATCTCAAGAAGGCTTTTGACACTGTCAATCATAAAGTCTTGCTGAAAATTATGCAGTTTTAA 
-</code> 
  • フォーマットが崩れたfastaファイルを整形.1525743029.txt.gz
  • 最終更新: 2018/05/08 01:30
  • by 133.11.222.89