概論

比較ゲノム解析はゲノム配列の生物種間の比較から特徴的な配列変化、遺伝子欠損や重複を見つけて考察する学問。　　

ターゲットのの生物種がどれだけ独特の性質があるか
比較の基準にする生物種がどれだけターゲットと近縁か

この辺が鍵になる。つまり、近縁かつノーマルな形質を持った種を比較対象とすること、そしてターゲットの種がどれだけユニークな形質を持っているかが大事。比較対象の選定には一番気を使うべき。コントロールの種は多ければ多いほど理想的。　　

中立説(木村資生,簡単にでも内容を把握しておくと良い)に従って、塩基配列の変化に対するアミノ酸変異の割合を計算する手法がメジャー。簡単に言うと、アミノ酸変異が多く蓄積している遺伝子は基本的に有害、すぐに集団から淘汰されて消える。すなわち、アミノ酸変異が多く蓄積していると今検出された遺伝子は進化的に有利であったため特別に生き残ったと考えられる。このへんの計算を行ってくれるのがPAMLというツールだが、いろいろな進化モデルが存在し使うにはかなり気合を入れてマニュアルを読む必要がある。高度な統計学の知識が必要で、僕もあまり理解しきれてない部分がしばしばある。使うなら頑張ってください。一応、ターゲットの生物種でアミノ酸変異が多い=正の自然選択を受けた遺伝子を抽出し、GO解析などからその環境に適応するために必要だった遺伝子群として機能を推定するのが一般的(最近の動向はあまり知らない)。

branch-siteモデルを使うと一塩基単位で正の自然選択を受けた箇所を出してくれるので、その変異が主要なドメインに入っているか、とか立体構造に影響を及ぼすか、みたいな議論までできると強い。

ただ進化論的なアプローチなしで議論を完結させている論文も多くあるので、ちゃんと文献を読んで解析の手札を増やすのが大事（反省）。

もっとシンプルに特定の遺伝子の有無から議論する。まずはこっちでいいと思う。配列比較からターゲットの種だけに存在する、もしくは欠損する遺伝子を抽出し、その機能を確かめる。ゲノム上で隣り合ってたりしたらシンテニーブロックを描いてみると伝わりやすい。

随時更新予定。

以下チャレンジしてみよう

NCBI genomesよりゼブラフィッシュ, コイ, キンギョのゲノム配列とcDNA配列のアミノ酸配列をダウンロード
それぞれcDNAの数をカウント、コイとキンギョはゼブラフィッシュからゲノム倍化しているという説が確かめられるかチェック
アミノ酸配列はスプライシングバリアントの情報を含んでおり邪魔なので、一つの遺伝子にまとめる。ネット上でgene2accessionというファイルを探してきて、この情報を元にfastaのヘッダーをGENE IDに変えてやるといいと思います。
GENE IDに統一できたらバリアントが同じ遺伝子IDになるはずなので、同一遺伝子IDで最も配列長が長いものを代表遺伝子として保存する。
以上の作業を行う上でseqkitというツールが役に立つと思います。あとはawkでゴリ押しすれば大丈夫。これを機にpythonとか勉強してみるのもいいかも？