2022-メタゲノム・edna

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン 前のリビジョン
次のリビジョン
前のリビジョン
2022-メタゲノム・edna [2022/11/09 13:34] suikou2022-メタゲノム・edna [2022/11/10 04:34] (現在) suikou
行 15: 行 15:
  
 大雑把なデータ解析の流れとしては、 まずシーケンスデータの品質チェックをFastQCというツールを用いて行います。それから、コンピュータにインストールしたBLASTを使って、すべてのシーケンスデータをデータベースと照合させ、各リードがどの種と相同性があるかを調べます。それからMEGANを使ってBLASTのヒットを集計し、各サンプルに含まれていたバクテリアの種類を網羅的に解析します。 大雑把なデータ解析の流れとしては、 まずシーケンスデータの品質チェックをFastQCというツールを用いて行います。それから、コンピュータにインストールしたBLASTを使って、すべてのシーケンスデータをデータベースと照合させ、各リードがどの種と相同性があるかを調べます。それからMEGANを使ってBLASTのヒットを集計し、各サンプルに含まれていたバクテリアの種類を網羅的に解析します。
- 
-環境DNAのサンプルは、MEGANの結果で検出された種と、実際に池にいそうな魚なのかの考察や、使用したプライマーの種類(12S全長 or 12S MiFish)の違いが結果に与える影響などを考えてみてください。メタゲノムのほうでは、食品のデータはシャッフルしてお渡ししますので、含まれるバクテリアの種類から、食品サンプルが上記4つの食品のどれであるかを推定します。また、池の水と水槽の水で微生物叢にそれぞれ特徴があるかを考察してください。 
  
 ## サンプルの説明 ## サンプルの説明
行 50: 行 48:
  
 [[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/g3-g4.html|3, 4班のシーケンス結果レポート]] [[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/g3-g4.html|3, 4班のシーケンス結果レポート]]
 +
 +クオリティスコアQは、エラーの生じる確率 perror から下記のように計算されます。 (出典: https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html )
 +
 +{{:pasted:20201026-181651.png}}
 +
 +- クオリティスコアが 10 ならば、シーケンシングエラーが生じる確率は 10.0% であるから、読み取られた塩基の信頼度は 90.0% 。
 +- クオリティスコアが 20 ならば、シーケンシングエラーが生じる確率は 1.0% であるから、読み取られた塩基の信頼度は 99.0% 。
 +- クオリティスコアが 30 ならば、シーケンシングエラーが生じる確率は 0.1% であるから、読み取られた塩基の信頼度は 99.9% 。
  
  
行 55: 行 61:
 ### 1. ツールのインストール ### 1. ツールのインストール
  
-これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2022jissyu」というフォルダを作ったとする。+これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2022jissyu」というフォルダを作ったとする。(注意:今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C:\Users\XXX\ダウンロード\2022jissyu」などとパスに日本語が含まれる場合は、「C:\2022jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveなどと同期させていない場合は、おそらく「C:\Users\XXX\Downloads\2022jissyu」になっているはずなので、特に気にしなくて良いはずです。)
  
 - SeqKit - SeqKit
行 109: 行 115:
  
  https://adoptium.net/temurin/releases/?version=11 から「`OpenJDK11U-jdk_x64_windows_hotspot_11.0.17_8.msi`」をダウンロードしてインストールする。(デフォルトのまま「次へ」を選択していけばOK)  https://adoptium.net/temurin/releases/?version=11 から「`OpenJDK11U-jdk_x64_windows_hotspot_11.0.17_8.msi`」をダウンロードしてインストールする。(デフォルトのまま「次へ」を選択していけばOK)
- 
  
 ### 2. データベースのダウンロード ### 2. データベースのダウンロード
行 118: 行 123:
  
  https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz (バクテリアの16S rRNAが約2万種登録されている。)  https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz (バクテリアの16S rRNAが約2万種登録されている。)
 +
 +```
 +#ダウンロードしたファイルを解凍する。
 +tar vxf 16S_ribosomal_RNA.tar.gz
 +```
  
 - MitoFish ・・・魚類のミトコンドリアのデータベース。約2万種が登録されている。魚類ミトコンドリア上の16S rRNA、12S rRNAを探す場合に使用する。 - MitoFish ・・・魚類のミトコンドリアのデータベース。約2万種が登録されている。魚類ミトコンドリア上の16S rRNA、12S rRNAを探す場合に使用する。
行 142: 行 152:
  - 品種判別(食品): y2022-groupX-fish-16S.fqのファイルを使用  - 品種判別(食品): y2022-groupX-fish-16S.fqのファイルを使用
  - メタゲノム解析(水・食品): y2022-groupX-bacteria-16S-xxx.fqのファイルを使用  - メタゲノム解析(水・食品): y2022-groupX-bacteria-16S-xxx.fqのファイルを使用
- 
  
 ## B. クオリティチェック ## B. クオリティチェック
  
-FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報+FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。
  
-Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。 
- 
-クオリティスコアQは、エラーの生じる確率 perror から下記のように計算されます。 (出典: https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html ) 
- 
-{{:pasted:20201026-181651.png}} 
- 
-- クオリティスコアが 10 ならば、シーケンシングエラーが生じる確率は 10.0% であるから、読み取られた塩基の信頼度は 90.0% 。 
-- クオリティスコアが 20 ならば、シーケンシングエラーが生じる確率は 1.0% であるから、読み取られた塩基の信頼度は 99.0% 。 
-- クオリティスコアが 30 ならば、シーケンシングエラーが生じる確率は 0.1% であるから、読み取られた塩基の信頼度は 99.9% 。 
- 
-リード長の分布が想定される長さになっているかなども確認すること。 (16S全長は1.5 kbp程度、12S全長は1 kbp程度、12S MiFishは250 bp程度) 
  
 ### FASTQCを実行するには… ### FASTQCを実行するには…
行 187: 行 185:
 ./fastqc ./fastqc
 ``` ```
- 
 ### FastQCでシーケンスファイルを開く ### FastQCでシーケンスファイルを開く
  
 {{:pasted:20221105-194846.png}} {{:pasted:20221105-194846.png}}
  
-Ctrlキーを押しながらクリックすれば、複数のファイルを一度に選択できるので、必要なファイルを選択して開く。+Ctrlキーを押しながらクリックすれば、複数のファイルを一度に選択できるので、必要なファイルを選択して開く。(ただし一度に複数選択するとメモリーエラーで落ちたりするので、その場合は一つずつ開くこと。)
  
 {{:pasted:20221105-194935.png}} {{:pasted:20221105-194935.png}}
行 200: 行 197:
 {{:pasted:20201030-031940.png}} {{:pasted:20201030-031940.png}}
  
 +Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずですが、リード全体のクオリティは比較的正しく計算できるみたいだけど、塩基ごとのクオリティはあまり正確ではなく、実際の塩基精度とは乖離があるようです。(ナノポアでQ20と出ていても、実際はQ12.5程度。https://labs.epi2me.io/quality-scores/)
 +
 +リード長の分布が想定される長さになっているかなども確認すること。 (バクテリア16S全長は1.5 kbp程度、魚類ミトコンドリア16Sは600 bp程度、魚類ミトコンドリア12S MiFishは200 bp強)
  
 ## C. BLAST ## C. BLAST
行 222: 行 222:
  
 ```input_file.fastq```, ```output_file.fasta```は適当に変更すること。  ```input_file.fastq```, ```output_file.fasta```は適当に変更すること。 
- 
 ### コマンド入力時の便利キー ### コマンド入力時の便利キー
  
 |カーソルの上・下キー|前に入力したコマンドを呼び出す。| |カーソルの上・下キー|前に入力したコマンドを呼び出す。|
-|Ctrl+Shift+V|貼り付け|+|(Win) Ctrl+Shift+V or 右クリック, (Mac) Cmd+V|貼り付け|
 |tabキー|ファイル名・コマンドの自動補完| |tabキー|ファイル名・コマンドの自動補完|
 |Ctrl+C|コマンド強制終了(blastを実行中に止めたい場合など)| |Ctrl+C|コマンド強制終了(blastを実行中に止めたい場合など)|
行 288: 行 287:
  
 {{:pasted:20201026-182323.png}} {{:pasted:20201026-182323.png}}
- 
 ## D. MEGANによるBLAST結果集計 ## D. MEGANによるBLAST結果集計
  
行 346: 行 344:
 {{:pasted:20201026-182809.png}} {{:pasted:20201026-182809.png}}
  
-13.Exportするデータを「taxonPath_to_count」に変更します。(ほかのデータ形式でも勿論可)+13.Exportするデータを「`taxonPath_to_count`」に変更します。(ほかのデータ形式でも勿論可)
  
 {{:pasted:20201026-182821.png}} {{:pasted:20201026-182821.png}}
行 353: 行 351:
  
 {{:pasted:20201026-182832.png}} {{:pasted:20201026-182832.png}}
- 
 ## E. データの転送、Excelでの解析 ## E. データの転送、Excelでの解析
- 
-リモートデスクトップ先で「ファイル管理」を開いて、保存したファイルをコピーしてから、手元のWindowsでファイルエクスプローラーを開いて貼り付けるとファイルを簡単に転送できる。もしくは、メールやGoogle Driveなどで転送するなどしてもよい。 
  
 ExportしたファイルをExcelで開くには、Excelを起動しておき、ExportしたファイルをExcel上にドラッグアンドドロップすれば良いです。 ExportしたファイルをExcelで開くには、Excelを起動しておき、ExportしたファイルをExcel上にドラッグアンドドロップすれば良いです。
行 367: 行 362:
  
 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。
- 
 ## F. 明日の内容 ## F. 明日の内容
  
行 393: 行 387:
 検出された魚は三四郎池に棲息していそうな魚かどうか。 検出された魚は三四郎池に棲息していそうな魚かどうか。
  
-去年の三四郎池のデータとも比較してみる。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-12S-Sanshiroike1.fq) 今年はブラックバスが密かに話題になっているらしいが、去年と比べてブラックバスが増えていそうか。+去年の三四郎池のデータとも比較してみる。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-12S-Sanshiroike1.fq) 今年は三四郎池のブラックバスが密かに話題になっているらしいが、去年と比べてブラックバスが増えていそうか。
  
 手法で詳しく説明して欲しい箇所:「電気泳動、DNA精製」(使用したキットはFastGene™ Gel/PCRExtractionキットです。) 手法で詳しく説明して欲しい箇所:「電気泳動、DNA精製」(使用したキットはFastGene™ Gel/PCRExtractionキットです。)
行 401: 行 395:
 今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。 今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。
  
-加工食品から検出された魚は妥当でしょうか。No Hitのリードを抜き出して、NCBIのBLASTにかけてみると何がヒットしますか?+加工食品から検出された魚は妥当でしょうか。No Hitのリードを抜き出して、NCBIのBLASTにかけてみると何がヒットしますか?(リードを抜き出す例: `./seqkit grep -rp "1e2f600e-220b-4144-93b0-75ccd2c537de:35:1568:-1:bac-27F-BC05:bac-1492R" ./2022nanopore/y2022-group1-bacteria-16S-Sanshiro.fq`)
  
 手法で詳しく説明して欲しい箇所:「PCR」(使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。) 手法で詳しく説明して欲しい箇所:「PCR」(使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。)
  • 2022-メタゲノム・edna.1668000842.txt.gz
  • 最終更新: 2022/11/09 13:34
  • by suikou