# 2017年 水圏生物科学実験III ## 本日の概要 次世代シーケンサーから得られるデータの解析を行う。データはOxford Nanoporeから得られた16S rDNAのアンプリコンメタゲノムデータである。 データ解析の概要としては、rDNAのデータベースである[[https://www.arb-silva.de/|SILVA database]]に対して、Nanoporeのデータの相同性検索を行い、検索した結果をMEGANというツールで統合し、可視化する。 ## データの説明 ### 16S rDNAについて https://biology.stackexchange.com/questions/54823/what-causes-the-variable-conserved-structure-in-the-16s-rrna-gene 学生実習で使用したプライマー |名前|配列| |27F|AGAGTTTGATC(A/C)TGGCTCAG| |1492R|GGTTACCTTGTTACGACTT| ### FASTQ形式について FASTQファイルをメモ帳などで開いてみると次のように表示される。 {{fastq.png}} ## 準備 ### ツール・データのダウンロード MACでログインしたら、デスクトップに「ダウンロード」フォルダ等の適当なフォルダを作り、その中に下記のファイルをすべてダウンロードする。 - FASTQC ・・・シーケンスデータのクオリティチェックを行う。(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/jissyu/fastqc_v0.11.5.dmg|download]] - FASTX-Toolkit ・・・シーケンスデータのトリミングやフィルタリング、変換等を行う。(http://hannonlab.cshl.edu/fastx_toolkit/) [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/jissyu/fastx_toolkit_0.0.13_binaries_MacOSX.10.5.8_i386.tar.bz2|download]] - BLAST ・・・言わずと知れた相同性検索ツール。(https://blast.ncbi.nlm.nih.gov/Blast.cgi) [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/jissyu/ncbi-blast-2.6.0+-x64-macosx.tar.gz|download]] - SILVA database ・・・リボソームDNA配列を整理したデータベース。(https://www.arb-silva.de/) [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/jissyu/SILVA_128_SSURef_Nr99_tax_silva.fasta.gz|download]] - MEGAN ・・・BLASTの結果から微生物叢情報や機能遺伝子情報へと変換してくれるソフトウェア。KEGGに関しては有償。(http://ab.inf.uni-tuebingen.de/software/megan6/) [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/jissyu/MEGAN_Community_macos_6_10_0.dmg|download]] - 各班のシーケンスデータ [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group1.1k.fastq|1]] [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group2.1k.fastq|2]] [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group3.1k.fastq|3]] [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group4.1k.fastq|4]] ### シーケンスデータの説明 - FASTQファイルとは ### ダウンロードしたツール・データの解凍 1. FASTQCのインストール fastqc_v0.11.5.dmgを開いて、FastQC.appをデスクトップにコピーする。 {{2007jissyu_1_.jpg}} 1. FASTX-Toolkitのインストール fastx_toolkit_0.0.13_binaries_MacOSX.10.5.8_i386.tar.bz2をダブルクリックすると解凍されるので、解凍された「bin」フォルダをデスクトップに移動し、「fastxtoolkit」というフォルダ名に変更する。 {{2007jissyu_2_.jpg}} 1. BLASTのインストール ncbi-blast-2.6.0+-x64-macosx.tar.gzをダブルクリックすると解凍されるので、解凍された「ncbi-blast-2.6.0+」フォルダをデスクトップに移動する。 {{2007jissyu_3_.jpg}} 1. SILVA databaseの解凍 SILVA_128_SSURef_Nr99_tax_silva.fasta.gzをダブルクリックすると解凍される(もしくはsafariでダウンロードしていたら自動で解凍されている)ので、解凍された「SILVA_128_SSURef_Nr99_tax_silva.fasta」ファイルをデスクトップに移動する。 {{2007jissyu_4_.jpg}} 1. 各班のシーケンスデータの配置 ダウンロードしたシーケンスデータを全てデスクトップに移動する。 {{2007jissyu_5_.jpg}} 1. MEGANのインストール MEGAN_Community_macos_6_10_0.dmgをダブルクリックすると、インストーラが表示されるので、インストーラをダブルクリックして起動する。 {{2007jissyu_6_.jpg}} インストーラの指示に従って進めていく {{2007jissyu_7_.jpg}} {{2007jissyu_8_.jpg}} インストール先は、自分のデスクトップにすること! {{2007jissyu_9_.jpg}} {{2007jissyu_10_.jpg}} {{2007jissyu_11_.jpg}} {{2007jissyu_12_.jpg}} メモリの割り当てを4GBに増やしておく。(デフォルトのままでも今回は問題ない。) {{2007jissyu_13_.jpg}} {{2007jissyu_14_.jpg}} いったんMEGANを終了する。 {{2007jissyu_15_.jpg}} ## データ解析 解析手順の概要は、まずFASTQCでシーケンスデータを確認してから、FASTQをFASTAファイルに変換し、SILVAデータベースに対してBLASTを実行する。そして、BLASTの結果ファイルをMEGANで読み込む。 1. FASTQC FASTQCを実行し、シーケンスデータを開く。 {{2007jissyu_16_.jpg}} {{2007jissyu_17_.jpg}} FASTQCは主にIllumina用のクオリティチェックツールであり、Nanoporeのデータに対しては適切な評価ができないので、評価値の〇×は気にしなくてよい。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報。クオリティスコアに関する説明は[[https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html|こちら]]。Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。 {{2007jissyu_18_.jpg}} リード長の分布。 {{2007jissyu_19_.jpg}} 1. FASTQ->FASTA変換 まずはFinderからターミナルを開く。 {{2007jissyu_20_.jpg}} ターミナルを開いたら、```cd Desktop```と入力して、ターミナル内のディレクトリをデスクトップに移す。 {{2007jissyu_21_.jpg}} よく使用するコマンドの説明は下記の通り ```ls``` : 現在のディレクトリ内のファイルを一覧表示。 ```cd [ディレクトリ名]``` : 指定したディレクトリに移動する。 ```less [ファイル名]``` : 指定したファイルの中身を表示する。表示をやめるときは「q」を押す。 ターミナルで「Desktop」に移動したら、下記のコマンドを入力し、FASTQファイルからクオリティを除去したFASTAファイルへと変換する。 ```./fastxtoolkit/fastq_to_fasta -Q33 -i data2017-1.fastq -o data2017-1.fasta``` -Q33オプションはクオリティスコアの種類を示すオプションで、おまじないと思ってとりあえず書いておくこと。 -i は入力のFASTQファイル、-o は出力のFASTAファイルの名前を書く。 1. BLASTデータベース作成 次にSILVAのrDNAの配列がすべて含まれるFASTAファイルから、BLASTのデータベースを作成する。 ```./ncbi-blast-2.6.0+/bin/makeblastdb -in SILVA_128_SSURef_Nr99_tax_silva.fasta -dbtype nucl ``` -in には入力となるFASTAファイルを指定する。 -dbtype はFASTAファイルがDNA配列であれば「nucl」、アミノ酸配列であれば「prot」を指定する。 1. BLAST検索 FASTA形式に変換したシーケンスデータをクエリーとして、SILVAデータベースに塩基配列の相同性検索を行う。 ```./ncbi-blast-2.6.0+/bin/blastn -db SILVA_128_SSURef_Nr99_tax_silva.fasta -query data2017-1.fasta -num_threads 4 > data2017-1.fasta.blastn``` -db には、BLASTデータベースファイルを作成したFASTAファイルを指定する。 -query にはデータベースに対して相同性検索を行いたい配列が含まれるFASTAファイルを指定する。ここではFASTAファイルに変換したシーケンスデータを指定する。 -num_threads には並列計算時に使用するCPUの数を指定する。ECCSでは1台当たり4コアあるので、4を指定。 > の後ろには出力ファイルの名前を書く。(拡張子はMEGANに読み込ませるために「.blastn」とすること) --- ### BLASTについての説明 ■ 相同性検索について [[http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/upbsb_shotgun_day1.pdf|東大 新領域 情報生命 笠原先生の講義資料]]より {{aln1.png}} {{aln2.png}} {{aln3.png}} {{aln4.png}} ■ BLASTとは [[http://www.jst.go.jp/nbdc/bird/minicourses/blast-tutorial.pdf|JST HPより]] BLASTは、相同性検索(ホモ ロジーサーチ)を比較的高速に行うプログラムである。厳密な解を提供する Smith-Watermanアルゴリズムを少しヒューリスティックにすることで、完全な厳密解は与えないものの実用的には十分な精度を持ちつつ、 Smith-Watermanよりはるかに高速に検索を実現した。 また、BLASTではペアワイズの相同性検索の結果に対して、偶然そのような配列の一致が起こる期待値e-valueを出力し、閾値以上でデータベースとヒットした結果を出力する。 BLASTでは、問い合わせ配列とデータベース配列の組み合わせから、次の5種類が用意されている。 |プログラム名|query|db|| |blastn|DNA|DNA|| |blastp|protein|protein|| |blastx|DNA|protein|(DNAはアミノ酸に翻訳して比較)| |tblastn|protein|DNA|(DNAはアミノ酸に翻訳して比較)| |tblastx|DNA|DNA|(DNAはアミノ酸に翻訳して比較)| Blastの結果についての説明 https://www.jaici.or.jp/stn/pdf/seqfaq.pdf {{2017jissyu_2_.jpg}} --- 5. MEGANによる結果表示 MEGANではLowest Common Ancestor (LCA)法によって最もらしい元配列を推測している。LCA法の説明は[[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1800929/figure/F2/|こちら]] まずはMEGANを起動する。 {{2007jissyu_22_.jpg}} 次にBLAST結果ファイルをMEGANで開く。 {{2007jissyu_23_.jpg}} 解析が終わっていない人、もしくはほかの班のデータも見たい人は以下のリンクから各班のBLAST結果をダウンロード可能。 [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group1.1k.fasta.blastn.gz|1]] [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group2.1k.fasta.blastn.gz|2]] [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group3.1k.fasta.blastn.gz|3]] [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2017jissyu/group4.1k.fasta.blastn.gz|4]] {{2017jissyu_10_.jpg}} {{2017jissyu_9_.jpg}} LCAのパラメータを変更する場合は、ここで変更する。(後からでも変更可能) {{2007jissyu_25_.jpg}} 結果が表示される。 {{2007jissyu_26_.jpg}} 種名まで表示するために、表示するRankを変更する。 {{2007jissyu_27_.jpg}} {{2007jissyu_28_.jpg}} 6.MEGANで複数サンプルの比較 blastnファイルを複数回開いたら、開いたウィンドウをそのままにした状態で、「File」→「Compare」とクリックして比較したいサンプルを選択し、「Apply」をクリックする。 {{megan-c1.jpg}} 比較ウィンドウを開くと、とりあえず下記のように表示される。 {{megan-c2.jpg}} 表示形式を変更したりすると下記のように表示される。 {{megan-c3.jpg}} ExcelやR等で解析する場合は、データをタブ区切りテキスト形式でExportする。Exportしたいノードをクリックして(全部Exportする場合は全部選択して)、「File」→「Export」→「CSV Format」をクリックする。 {{megan-c4.jpg}} Exportするデータを「taxonPath_to_count」に変更してみる。(ほかのデータでも勿論可) {{megan-c5.jpg}} {{megan-c6.jpg}} 7.Excelでの解析 ExportしたファイルをExcelで開くには、右クリックして「このアプリケーションで開く」→「Microsoft Excel」をクリックする。 {{excel1.jpg}} フィルターを使ってみたり、グラフを描いてみたりする。Excelでデータの概要を把握するのに役立つテクニックとして、条件付き書式を設定することで、データの大小を一目でわかるようにできたりする。 {{excel2.jpg}} ## Excelファイルの提出先 akyoshita@g.ecc.u-tokyo.ac.jp