2017年 水圏生物科学実験III
本日の概要
次世代シーケンサーから得られるデータの解析を行う。データはOxford Nanoporeから得られた16S rDNAのアンプリコンメタゲノムデータである。
データ解析の概要としては、rDNAのデータベースであるSILVA databaseに対して、Nanoporeのデータの相同性検索を行い、検索した結果をMEGANというツールで統合し、可視化する。
データの説明
16S rDNAについて
学生実習で使用したプライマー
名前 | 配列 |
27F | AGAGTTTGATC(A/C)TGGCTCAG |
1492R | GGTTACCTTGTTACGACTT |
FASTQ形式について
準備
ツール・データのダウンロード
MACでログインしたら、デスクトップに「ダウンロード」フォルダ等の適当なフォルダを作り、その中に下記のファイルをすべてダウンロードする。
- FASTQC ・・・シーケンスデータのクオリティチェックを行う。(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)
- FASTX-Toolkit ・・・シーケンスデータのトリミングやフィルタリング、変換等を行う。(http://hannonlab.cshl.edu/fastx_toolkit/)
- BLAST ・・・言わずと知れた相同性検索ツール。(https://blast.ncbi.nlm.nih.gov/Blast.cgi)
- SILVA database ・・・リボソームDNA配列を整理したデータベース。(https://www.arb-silva.de/)
- MEGAN ・・・BLASTの結果から微生物叢情報や機能遺伝子情報へと変換してくれるソフトウェア。KEGGに関しては有償。(http://ab.inf.uni-tuebingen.de/software/megan6/)
シーケンスデータの説明
- FASTQファイルとは
ダウンロードしたツール・データの解凍
データ解析
解析手順の概要は、まずFASTQCでシーケンスデータを確認してから、FASTQをFASTAファイルに変換し、SILVAデータベースに対してBLASTを実行する。そして、BLASTの結果ファイルをMEGANで読み込む。
- FASTQC
FASTQCを実行し、シーケンスデータを開く。
FASTQCは主にIllumina用のクオリティチェックツールであり、Nanoporeのデータに対しては適切な評価ができないので、評価値の〇×は気にしなくてよい。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報。クオリティスコアに関する説明はこちら。Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。
リード長の分布。
- FASTQ→FASTA変換
まずはFinderからターミナルを開く。
ターミナルを開いたら、
cd Desktop
と入力して、ターミナル内のディレクトリをデスクトップに移す。よく使用するコマンドの説明は下記の通り
ls
: 現在のディレクトリ内のファイルを一覧表示。cd [ディレクトリ名]
: 指定したディレクトリに移動する。less [ファイル名]
: 指定したファイルの中身を表示する。表示をやめるときは「q」を押す。ターミナルで「Desktop」に移動したら、下記のコマンドを入力し、FASTQファイルからクオリティを除去したFASTAファイルへと変換する。
./fastxtoolkit/fastq_to_fasta -Q33 -i data2017-1.fastq -o data2017-1.fasta
-Q33オプションはクオリティスコアの種類を示すオプションで、おまじないと思ってとりあえず書いておくこと。
-i は入力のFASTQファイル、-o は出力のFASTAファイルの名前を書く。
- BLASTデータベース作成
次にSILVAのrDNAの配列がすべて含まれるFASTAファイルから、BLASTのデータベースを作成する。
./ncbi-blast-2.6.0+/bin/makeblastdb -in SILVA_128_SSURef_Nr99_tax_silva.fasta -dbtype nucl
-in には入力となるFASTAファイルを指定する。
-dbtype はFASTAファイルがDNA配列であれば「nucl」、アミノ酸配列であれば「prot」を指定する。
- BLAST検索
FASTA形式に変換したシーケンスデータをクエリーとして、SILVAデータベースに塩基配列の相同性検索を行う。
./ncbi-blast-2.6.0+/bin/blastn -db SILVA_128_SSURef_Nr99_tax_silva.fasta -query data2017-1.fasta -num_threads 4 > data2017-1.fasta.blastn
-db には、BLASTデータベースファイルを作成したFASTAファイルを指定する。
-query にはデータベースに対して相同性検索を行いたい配列が含まれるFASTAファイルを指定する。ここではFASTAファイルに変換したシーケンスデータを指定する。
-num_threads には並列計算時に使用するCPUの数を指定する。ECCSでは1台当たり4コアあるので、4を指定。
> の後ろには出力ファイルの名前を書く。(拡張子はMEGANに読み込ませるために「.blastn」とすること)
BLASTについての説明
■ 相同性検索について 東大 新領域 情報生命 笠原先生の講義資料より
■ BLASTとは JST HPより
BLASTは、相同性検索(ホモ ロジーサーチ)を比較的高速に行うプログラムである。厳密な解を提供する Smith-Watermanアルゴリズムを少しヒューリスティックにすることで、完全な厳密解は与えないものの実用的には十分な精度を持ちつつ、 Smith-Watermanよりはるかに高速に検索を実現した。 また、BLASTではペアワイズの相同性検索の結果に対して、偶然そのような配列の一致が起こる期待値e-valueを出力し、閾値以上でデータベースとヒットした結果を出力する。
BLASTでは、問い合わせ配列とデータベース配列の組み合わせから、次の5種類が用意されている。
プログラム名 | query | db | |
blastn | DNA | DNA | |
blastp | protein | protein | |
blastx | DNA | protein | (DNAはアミノ酸に翻訳して比較) |
tblastn | protein | DNA | (DNAはアミノ酸に翻訳して比較) |
tblastx | DNA | DNA | (DNAはアミノ酸に翻訳して比較) |
Blastの結果についての説明 https://www.jaici.or.jp/stn/pdf/seqfaq.pdf
5. MEGANによる結果表示
MEGANではLowest Common Ancestor (LCA)法によって最もらしい元配列を推測している。LCA法の説明はこちら
まずはMEGANを起動する。
次にBLAST結果ファイルをMEGANで開く。
解析が終わっていない人、もしくはほかの班のデータも見たい人は以下のリンクから各班のBLAST結果をダウンロード可能。
LCAのパラメータを変更する場合は、ここで変更する。(後からでも変更可能)
結果が表示される。
種名まで表示するために、表示するRankを変更する。
6.MEGANで複数サンプルの比較
blastnファイルを複数回開いたら、開いたウィンドウをそのままにした状態で、「File」→「Compare」とクリックして比較したいサンプルを選択し、「Apply」をクリックする。
比較ウィンドウを開くと、とりあえず下記のように表示される。
表示形式を変更したりすると下記のように表示される。
ExcelやR等で解析する場合は、データをタブ区切りテキスト形式でExportする。Exportしたいノードをクリックして(全部Exportする場合は全部選択して)、「File」→「Export」→「CSV Format」をクリックする。
Exportするデータを「taxonPathtocount」に変更してみる。(ほかのデータでも勿論可)
7.Excelでの解析
ExportしたファイルをExcelで開くには、右クリックして「このアプリケーションで開く」→「Microsoft Excel」をクリックする。
フィルターを使ってみたり、グラフを描いてみたりする。Excelでデータの概要を把握するのに役立つテクニックとして、条件付き書式を設定することで、データの大小を一目でわかるようにできたりする。
Excelファイルの提出先
akyoshita@g.ecc.u-tokyo.ac.jp