差分
このページの2つのバージョン間の差分を表示します。
次のリビジョン | 前のリビジョン | ||
2023-メタゲノム・edna [2023/11/04 17:30] – 作成 suikou | 2023-メタゲノム・edna [2023/11/09 00:57] (現在) – suikou | ||
---|---|---|---|
行 7: | 行 7: | ||
|サンプル|プライマー領域|対象生物|PCR断片長| | |サンプル|プライマー領域|対象生物|PCR断片長| | ||
|三四郎池の水|ミトコンドリア12S rRNA|魚|200 bp強| | |三四郎池の水|ミトコンドリア12S rRNA|魚|200 bp強| | ||
+ | |三四郎池の水|バクテリア16S rRNA|バクテリア|1, | ||
|発酵食品|バクテリア16S rRNA|バクテリア|1, | |発酵食品|バクテリア16S rRNA|バクテリア|1, | ||
- | |加工食品|ミトコンドリア16S rRNA|魚|600 bp程度| | ||
本日のデータ解析のワークフローを以下に示します。 | 本日のデータ解析のワークフローを以下に示します。 | ||
行 20: | 行 20: | ||
### 三四郎池で採水したときの様子 | ### 三四郎池で採水したときの様子 | ||
- | 1班:{{img_5208.jpg?300}} | + | {{: |
- | 2班:{{img_8531.jpeg?300}} | + | {{: |
- | 3班:{{img_8527.jpeg?300}} | + | {{: |
- | + | ||
- | 4班:{{img_8528.jpeg? | + | |
### 発酵食品 | ### 発酵食品 | ||
- | 2班:チーズ | + | 1班:塩辛 |
- | 3班:ヨーグルト(R1) | + | 2班:キムチ |
- | ### 加工食品 | + | 3班:チーズ |
- | 6: 蒲焼さん太郎 | + | 4班:チーズ |
- | + | ||
- | 8: ちくわ | + | |
## PCR結果まとめ | ## PCR結果まとめ | ||
- | {{:pasted:20221104-161635.png}} | + | {{:pasted:20231106-123701.png}} |
## ナノポアシーケンス結果 | ## ナノポアシーケンス結果 | ||
- | [[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/g1-g2.html|1, 2班のシーケンス結果レポート]] | + | クオリティスコアQから、エラーの生じる確率 P(error) は下記のように計算されます。 (出典: https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html ) |
- | [[http:// | + | {{:pasted:20231107-065948.png}} |
- | + | ||
- | クオリティスコアQは、エラーの生じる確率 perror から下記のように計算されます。 (出典: https:// | + | |
- | + | ||
- | {{:pasted:20201026-181651.png}} | + | |
- クオリティスコアが 10 ならば、シーケンシングエラーが生じる確率は 10.0% であるから、読み取られた塩基の信頼度は 90.0% 。 | - クオリティスコアが 10 ならば、シーケンシングエラーが生じる確率は 10.0% であるから、読み取られた塩基の信頼度は 90.0% 。 | ||
行 62: | 行 54: | ||
### 1. ツールのインストール | ### 1. ツールのインストール | ||
- | これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2022jissyu」というフォルダを作ったとする。(注意:今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C: | + | これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2023jissyu」というフォルダを作ったとします。(注意:今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C: |
- SeqKit | - SeqKit | ||
行 70: | 行 62: | ||
| | ||
- | | + | |
+ | |||
+ | | ||
``` | ``` | ||
行 82: | 行 76: | ||
- BLAST | - BLAST | ||
- | | + | |
- | | + | |
``` | ``` | ||
# | # | ||
- | tar vxf ncbi-blast-2.15.0+-x64-win64.tar.gz | + | ## Windows |
+ | tar vxf ncbi-blast-2.12.0+-x64-win64.tar.gz | ||
+ | |||
+ | ## Mac | ||
+ | tar vxf ncbi-blast-2.12.0+-x64-macosx.tar.gz | ||
``` | ``` | ||
行 95: | 行 93: | ||
| | ||
- | | ||
- | |||
| | ||
+ | |||
+ | | ||
+ | |||
+ | ``` | ||
+ | Expand-Archive -Path fastqc_v0.12.1.zip -DestinationPath . | ||
+ | ``` | ||
+ | |||
+ | | ||
- | | ||
- | |||
- MEGAN | - MEGAN | ||
| | ||
- | | + | |
- | | + | 下記の画面が出たら「詳細情報」を開いて |
- | + | ||
- | | + | |
- | - JAVAランタイム(WindowsでこれまでにJAVAランタイムをインストールしていない人のみ) | + | {{: |
- | | + | 「実行」をクリックする。 |
- | ### 2. データベースのダウンロード | + | {{: |
- | - NCBI blast database | + | インストーラーに従い、「次へ」を押してインストールを完了する。 |
- | https:// | + | {{:pasted: |
- | https://ftp.ncbi.nlm.nih.gov/ | + | Macは「`MEGAN_Community_macos_6_XX_X.dmg`」をダウンロードし、ダウンロードしたファイルをダブルクリックしてディスクイメージをマウントし、インストーラーをダブルクリックして起動する。 |
- | ``` | + | {{: |
- | # | + | |
- | tar vxf 16S_ribosomal_RNA.tar.gz | + | |
- | ``` | + | |
- | - MitoFish ・・・魚類のミトコンドリアのデータベース。約2万種が登録されている。魚類ミトコンドリア上の16S rRNA、12S rRNAを探す場合に使用する。 | + | 開いて良いか聞かれたら「開く」を押す。 |
- | http:// | + | {{:pasted: |
- | | + | ### 2. データベースのダウンロード |
- | zipファイルを解凍しておく。「mito-all」というファイルが解凍される。 | + | - 16S rRNA、18S rRNA、ミトコンドリア、葉緑体等のメタバーコーディングで使用される領域をまとめたFASTAファイルをダウンロードして各自OSの機能でzipファイルを解凍し、中身の`silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta`を「2023jissyu」フォルダにコピーしておく。 |
- | - ヒトミトコンドリア配列・・・ヒトの16S, 12Sが混入していることがあるので、それを検出するために用いる。 | + | [[http:// |
- | | + | このファイルは、NCBI blast database (ミトコンドリア、葉緑体)、PR2(18S rRNAなど)、SILVA(16S rRNA, 23S rRNA)、MitoFish (MiFish用12S rRNA)をマージして作ったもの。具体的には下記のファイルをマージ。 |
- | | + | `https:// |
- | - Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。 | + | `http:// |
- | http://suikou.fs.a.u-tokyo.ac.jp/ | + | `https://github.com/ |
- | | + | `https:// |
- | - eDNA解析: y2022-groupX-fish-12S-xxx.fqのファイルを使用 | + | `https:// |
- | - 品種判別(食品): y2022-groupX-fish-16S.fqのファイルを使用 | + | |
- | - メタゲノム解析(水・食品): | + | `http:// |
+ | |||
+ | - Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。 | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | ・ eDNA解析: groupX-fish-water.fqのファイルを使用 | ||
+ | |||
+ | | ||
## B. クオリティチェック | ## B. クオリティチェック | ||
FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。 | FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。 | ||
- | |||
### FASTQCを実行するには… | ### FASTQCを実行するには… | ||
行 218: | 行 224: | ||
``` | ``` | ||
- | ./seqkit fq2fa ./ | + | ./seqkit fq2fa input_file.fastq -o output_file.fasta |
``` | ``` | ||
```input_file.fastq```, | ```input_file.fastq```, | ||
+ | |||
### コマンド入力時の便利キー | ### コマンド入力時の便利キー | ||
行 231: | 行 238: | ||
### 2. BLASTデータベース作成 | ### 2. BLASTデータベース作成 | ||
- | MitoFishデータベースのFASTAファイルから、makeblastdbコマンドによってBLASTのデータベースを作成します。ターミナルで下記のように入力します。 | + | makeblastdbコマンドによってBLASTのデータベースを作成します。ターミナルで下記のように入力します。 |
``` | ``` | ||
- | # MitoFish (魚類用) | ||
- | # MitoFishにヒトミトコンドリア配列を追加したファイルを作成する。 | ||
- | ## Windowsの場合 | ||
- | cmd /C "type .\complete_partial_mitogenomes\mito-all sequence.fasta > mitofish-human.fasta" | ||
- | |||
- | ## Mac/ | ||
- | cat mito-all sequence.fasta > mitofish-human.fasta | ||
- | |||
# | # | ||
- | ./ | + | ./ |
``` | ``` | ||
行 255: | 行 254: | ||
``` | ``` | ||
- | # | + | ./ |
- | ./ | + | |
- | + | ||
- | # | + | |
- | ./ncbi-blast-2.12.0+/ | + | |
``` | ``` | ||
行 307: | 行 302: | ||
{{: | {{: | ||
- | 5.「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。 | + | 5.「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。「Apply」を押すとファイルを読み込みます。 |
{{: | {{: | ||
行 363: | 行 358: | ||
そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。 | そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。 | ||
+ | |||
## F. 明日の内容 | ## F. 明日の内容 | ||
- | 各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成する。班ごとに発表し、発表時間は質疑応答を入れて30分。 | + | 各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成してください。班ごとに発表し、発表時間は質疑応答を入れて30分。 |
``` | ``` | ||
- | 1班.食品の品種判別 by サンガー | + | X班.食品の品種判別 by サンガー |
- | 2班.三四郎池のeDNA | + | X班.三四郎池のeDNA |
- | 3班.発酵食品のメタゲノム、加工食品の品種判別 by ナノポア | + | X班.発酵食品のメタゲノム |
- | 4班.三四郎池のメタゲノム | + | X班.三四郎池のメタゲノム |
``` | ``` | ||
各テーマごとに例えば下記のような項目について考察をすること。インターネットを積極的に使用して調べることを推奨します。また、ある程度調べてもわからないことがあればTA・スタッフに聞いてみてください。 | 各テーマごとに例えば下記のような項目について考察をすること。インターネットを積極的に使用して調べることを推奨します。また、ある程度調べてもわからないことがあればTA・スタッフに聞いてみてください。 | ||
- | ・1班.食品の品種判別 by サンガー | + | ・X班.食品の品種判別 by サンガー |
NCBIのデータベースとMitoFishのデータベースを比べて、ヒットした種が同じかどうか調べ、どちらのデータベースのほうが良さそうか考えてみる。 | NCBIのデータベースとMitoFishのデータベースを比べて、ヒットした種が同じかどうか調べ、どちらのデータベースのほうが良さそうか考えてみる。 | ||
- | ヒットした近縁種の配列をGenbankからダウンロードして加え、系統樹を描いてみる。 | + | ネガティブコントロールでもPCR増幅してしまった理由を考えて、どうすればネガティブコントロールで増幅しないようにできるか、どうやって検証するか考える。 |
手法で詳しく説明して欲しい箇所:「DNA抽出」(使用したキットはDNeasy Blood & Tissue Kitsです。) | 手法で詳しく説明して欲しい箇所:「DNA抽出」(使用したキットはDNeasy Blood & Tissue Kitsです。) | ||
- | ・2班.三四郎池のeDNA | + | ・X班.三四郎池のeDNA |
検出された魚は三四郎池に棲息していそうな魚かどうか。 | 検出された魚は三四郎池に棲息していそうな魚かどうか。 | ||
+ | |||
+ | 二年前の三四郎池のデータとも比較してみてください。http:// | ||
手法で詳しく説明して欲しい箇所:「電気泳動、DNA精製」(使用したキットはFastGene™ Gel/ | 手法で詳しく説明して欲しい箇所:「電気泳動、DNA精製」(使用したキットはFastGene™ Gel/ | ||
- | ・3班.発酵食品のメタゲノム、加工食品の品種判別 by ナノポア | + | ・X班.発酵食品のメタゲノム |
今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。 | 今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。 | ||
行 398: | 行 396: | ||
手法で詳しく説明して欲しい箇所:「PCR」(使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。) | 手法で詳しく説明して欲しい箇所:「PCR」(使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。) | ||
- | ・4班.三四郎池のメタゲノム | + | ・X班.三四郎池のメタゲノム |
検出されたバクテリアは淡水環境で良く検出されているでしょうか? | 検出されたバクテリアは淡水環境で良く検出されているでしょうか? | ||
- | 去年の三四郎池のデータとも比較してみる。http:// | + | 二年前の三四郎池のデータとも比較してみてください。http:// |
手法で詳しく説明して欲しい箇所:「ナノポアシーケンシング」(使用したライブラリー調整キットはSQK-LSK110です。公式マニュアル:http:// | 手法で詳しく説明して欲しい箇所:「ナノポアシーケンシング」(使用したライブラリー調整キットはSQK-LSK110です。公式マニュアル:http:// | ||
行 408: | 行 406: | ||
## G. 課題 | ## G. 課題 | ||
- | 明日のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。 | + | 来週のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。 |