差分
このページの2つのバージョン間の差分を表示します。
mitofishのアノテーションファイルからcds領域を抽出 [2018/05/28 12:47] – 作成 133.11.222.89 | mitofishのアノテーションファイルからcds領域を抽出 [Unknown date] (現在) – 削除 - 外部編集 (Unknown date) 127.0.0.1 | ||
---|---|---|---|
行 1: | 行 1: | ||
- | ====== データチェック ====== | ||
- | mitofishは魚類のミトコンドリア配列データベース。現在2500種が登録済み。登録されたミトコンドリア配列は遺伝子領域の予測がされているので、その領域の抽出を目指す。まずはデータを覗いてみる。 | ||
- | |||
- | < | ||
- | NC_000860_Salvelinus_fontinalis TOPOLOGY | ||
- | source | ||
- | organelle | ||
- | organism | ||
- | specimen_voucher | ||
- | mol_type | ||
- | CDS | ||
- | gene ND1 | ||
- | product NADH dehydrogenase subunit 1 | ||
- | transl_table | ||
- | CDS | ||
- | gene ND2 | ||
- | product NADH dehydrogenase subunit 2 | ||
- | note Incomplete stop codon | ||
- | transl_except | ||
- | transl_table | ||
- | ... | ||
- | rRNA 69..1015 | ||
- | rRNA 1088..2767 | ||
- | tRNA 1..68 | ||
- | tRNA 1016..1087 | ||
- | tRNA 2768..2842 | ||
- | note Anticodon: UAA | ||
- | tRNA 3824..3895 | ||
- | tRNA complement(3893..3963) | ||
- | ... | ||
- | NC_000861_Salvelinus_alpinus | ||
- | source | ||
- | organelle | ||
- | organism | ||
- | specimen_voucher | ||
- | mol_type | ||
- | CDS | ||
- | gene ND1 | ||
- | product NADH dehydrogenase subunit 1 | ||
- | transl_table | ||
- | CDS | ||
- | gene ND2 | ||
- | product NADH dehydrogenase subunit 2 | ||
- | transl_table | ||
- | ... | ||
- | </ | ||
- | |||
- | どうも配列名の宣言のあとタブでずらしてCDS情報が列挙されてるっぽい。 | ||
- | |||
- | ====== フォーマットチェック ====== | ||
- | |||
- | 戦略を練るためもう少しフォーマットを確認。 | ||
- | < | ||
- | [kijima.yusuke@m48 annotation]$ cat * | grep CDS | head -n 30 | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | CDS | ||
- | </ | ||
- | |||
- | complementみたいな変な文字がたまに混入するっぽい。アミノ酸配列に変えるときコドン開始位置は気になるので一応チェックしてみる。 | ||
- | < | ||
- | [kijima.yusuke@m48 annotation]$ cat * | grep CDS | cut -f 5 | uniq | ||
- | 1 | ||
- | </ | ||
- | 全部1スタートで大丈夫ですね。 | ||
- | |||
- | ====== 本番 ====== | ||
- | |||
- | イメージとしては配列名と転写開始終了位置がタブ区切りで並ぶ感じ。 | ||
- | <code awk> | ||
- | cat * | awk ' | ||
- | </ | ||
- | |||
- | それでは結果を見てみます | ||
- | < | ||
- | [kijima.yusuke@m48 annotation]$ head -n 20 mitoCDSStartEnd | ||
- | NC_000860_Salvelinus_fontinalis 2843 3817 | ||
- | NC_000860_Salvelinus_fontinalis 4032 5080 | ||
- | NC_000860_Salvelinus_fontinalis 5472 7022 | ||
- | NC_000860_Salvelinus_fontinalis 7186 7876 | ||
- | NC_000860_Salvelinus_fontinalis 7952 8119 | ||
- | NC_000860_Salvelinus_fontinalis 8110 8792 | ||
- | NC_000860_Salvelinus_fontinalis 8793 9577 | ||
- | NC_000860_Salvelinus_fontinalis 9648 9996 | ||
- | NC_000860_Salvelinus_fontinalis 10067 10363 | ||
- | NC_000860_Salvelinus_fontinalis 10357 11737 | ||
- | NC_000860_Salvelinus_fontinalis 11950 13788 | ||
- | NC_000860_Salvelinus_fontinalis 13785 14306 | ||
- | NC_000860_Salvelinus_fontinalis 14379 15519 | ||
- | NC_000861_Salvelinus_alpinus | ||
- | NC_000861_Salvelinus_alpinus | ||
- | NC_000861_Salvelinus_alpinus | ||
- | NC_000861_Salvelinus_alpinus | ||
- | NC_000861_Salvelinus_alpinus | ||
- | NC_000861_Salvelinus_alpinus | ||
- | NC_000861_Salvelinus_alpinus | ||
- | </ | ||
- | まあいいんじゃないでしょうか |