2021-概要説明

2021年 水圏生物科学実験III

リボソームはRNAとタンパク質の複合体であり、原核生物の場合、大きく50Sと30Sのサブユニットに分かれる。30S複合体の中には16S rRNAが含まれる。

rrna-30s.jpg

16S rRNAは保存性の高いConserved Regionsと、変化の多いVariable Regionsが交互に出現する。

16srrna.jpg

rRNAの二次構造ではVariable Regionsを可視化すると下記のようになる。

12S rRNAは真核生物のミトコンドリアにコードされている遺伝子で、16S rRNAに相同な遺伝子である。

12S

16S

16S, 12Sの保存性の高い領域に設計したプライマーを使用している。具体的には次の配列を使用している。

名前配列生物種増える長さ
ミトコンドリア16S一部 Forward (16SAR-L)CGCCTGTTATCAAAAACAT脊椎動物,節足動物,軟体動物等600 bp程度
ミトコンドリア16S一部 Reverse (16SBR-H)CCGGTCTGAACTCAGATCACGT脊椎動物,節足動物,軟体動物等600 bp程度
バクテリア16S全長 Forward (27F)AGAGTTTGATCMTGGCTCAGバクテリア全般1.5 kbp程度
バクテリア16S全長 Reverse (1492R)GGTTACCTTGTTACGACTTバクテリア全般1.5 kbp程度
ミトコンドリア12S MiFish Forward (MiFish-U-F)GTCGGTAAAACTCGTGCCAGC魚類200 bp程度
ミトコンドリア12S MiFish Reverse (MiFish-U-R)CATAGTGGGGTATCTAATCCCAGTTTG魚類200 bp程度
真核生物18S全長 Forward (EukA)AACCTGGTTGATCCTGCCAGT真核生物全般(ただし植物は除く?)1.8 kbp程度
真核生物18S全長 Reverse (EukB)TGATCCTTCTGCAGGTTCACCTAC真核生物全般(ただし植物は除く?)1.8 kbp程度
  • 混合塩基表記
    記号RMWSYKHBDVN
    塩基の種類A,gA,CA,TC,gC,Tg,TA,T,Cg,T,Cg,A,TA,C,gA,C,g,T

東大 新領域 情報生命 笠原先生の講義資料より

まずは2つの配列がどの程度似ているのかをスコアを付けることを考えてみる。

JST HPより

BLASTは、相同性検索(ホモ ロジーサーチ)を比較的高速に行うプログラムである。厳密な解を提供する Smith-Watermanアルゴリズムを少しヒューリスティックにすることで、完全な厳密解は与えないものの実用的には十分な精度を持ちつつ、 Smith-Watermanよりはるかに高速に検索を実現した。 また、BLASTではペアワイズの相同性検索の結果に対して、偶然そのような配列の一致が起こる期待値e-valueを出力し、閾値以上でデータベースとヒットした結果を出力する。

データベース検索する場合、下記のようにデータベース側は100 Gbaseを超える場合もあり、非常に巨大である。しかし、その中で相同な配列というのは通常そんなに多くはない。

そこで、あらかじめwordサイズで指定した大きさで100%マッチする場所を高速に調べておき、その周辺のみ時間をかけて調べることで高速化している。

このwordサイズはNCBIのWEBサイトで公開されているBLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi )などでは、デフォルトが28 bpと比較的大きめなので、シーケンス精度が悪い場合は注意する必要があるかもしれない。

BLASTでは、問い合わせ配列とデータベース配列の組み合わせから、次の5種類が用意されている。

プログラム名querydb
blastnDNADNA
blastpproteinprotein
blastxDNAprotein(DNAはアミノ酸に翻訳して比較)
tblastnproteinDNA(DNAはアミノ酸に翻訳して比較)
tblastxDNADNA(DNAはアミノ酸に翻訳して比較)

距離行列モデル

  • 2021-概要説明.txt
  • 最終更新: 2021/11/09 03:56
  • by suikou