2023-メタゲノム・edna

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン 前のリビジョン
次のリビジョン
前のリビジョン
2023-メタゲノム・edna [2023/11/07 07:11] suikou2023-メタゲノム・edna [2023/11/09 00:57] (現在) suikou
行 42: 行 42:
 ## ナノポアシーケンス結果 ## ナノポアシーケンス結果
  
-クオリティスコアQ、エラーの生じる確率 perror から下記のように計算されます。 (出典: https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html )+クオリティスコアQから、エラーの生じる確率 P(error) は下記のように計算されます。 (出典: https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html )
  
 {{:pasted:20231107-065948.png}} {{:pasted:20231107-065948.png}}
行 54: 行 54:
 ### 1. ツールのインストール ### 1. ツールのインストール
  
-これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2023jissyu」というフォルダを作ったとす。(注意:今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C:\Users\XXX\ダウンロード\2023jissyu」などとパスに日本語が含まれる場合は、「C:\2023jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveなどと同期させていない場合は、おそらく「C:\Users\XXX\Downloads\2023jissyu」になっているはずなので、特に気にしなくて良いはずです。)+これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2023jissyu」というフォルダを作ったとします。(注意:今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C:\Users\XXX\Downloads\東大学生実験\2023jissyu」などとパスに日本語が含まれる場合は、「C:\Users\XXX\Downloads\2023jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveでダウンロードフォルダを同期させていると「C:\Users\XXX\ダウンロードと日本語になっていることもあるので注意。)
  
 - SeqKit - SeqKit
行 62: 行 62:
  Windowsは「Windows amd64」の「`seqkit_windows_amd64.exe.tar.gz`」、Mac (Intel)は「`seqkit_darwin_amd64.tar.gz`」、Mac (M1, M2)は「`seqkit_darwin_arm64.tar.gz`」、Linuxは「`seqkit_linux_amd64.tar.gz`」をダウンロードする。  Windowsは「Windows amd64」の「`seqkit_windows_amd64.exe.tar.gz`」、Mac (Intel)は「`seqkit_darwin_amd64.tar.gz`」、Mac (M1, M2)は「`seqkit_darwin_arm64.tar.gz`」、Linuxは「`seqkit_linux_amd64.tar.gz`」をダウンロードする。
  
- WindowsではPowerShellなどをターミナルを開き、下記コマンド実行する。(Mac、Linuxでも基本的は同じtarコマンドを使う。ディレクトリやファイルの名前が違うと思うのでそれぞれ変更すること+ WindowsではスタートメニューからPowerShellを起動してターミナルを開く。MacではLaunchpad→そ他→ターミナル起動する。 
 + 
 + ターミナル下記のコマンドを入力し、seqkitを解凍する。
  
 ``` ```
行 74: 行 76:
 - BLAST - BLAST
  
- https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.15.0/+ https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.12.0/
  
- Windowsは「`ncbi-blast-2.15.0+-x64-win64.tar.gz`」をダウンロードする。+ Windowsは「`ncbi-blast-2.12.0+-x64-win64.tar.gz`」を、Macは「`ncbi-blast-2.12.0+-x64-macosx.tar.gz`」ダウンロードし、「2023jissyu」フォルダに移した後で、下記のコマンドを実行する。
  
 ``` ```
 #ダウンロードしたファイルを解凍する。 #ダウンロードしたファイルを解凍する。
-tar vxf ncbi-blast-2.15.0+-x64-win64.tar.gz+## Windows 
 +tar vxf ncbi-blast-2.12.0+-x64-win64.tar.gz 
 + 
 +## Mac 
 +tar vxf ncbi-blast-2.12.0+-x64-macosx.tar.gz 
 ``` ```
  
行 87: 行 93:
  https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc  https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
  
- Windowsは「FastQC vX.XX.X (Win/Linux zip file)」をダウンロードする。 
-  
  {{:pasted:20221105-180123.png}}  {{:pasted:20221105-180123.png}}
-  
- 各自OSの機能でzipファイルを解凍する。 
  
 + Windowsは「FastQC vX.XX.X (Win/Linux zip file)」をダウンロードし、「2023jissyu」フォルダに移した後で、下記のコマンドを実行する。
 +
 +```
 +Expand-Archive -Path fastqc_v0.12.1.zip -DestinationPath .
 +```
 +
 + Macは「FastQC vX.XX.X (Mac DMG image)」をダウンロードし、ダブルクリックしてイメージをマウントしておく。
 + 
 - MEGAN - MEGAN
  
行 111: 行 121:
 {{:pasted:20231107-050521.png?600}} {{:pasted:20231107-050521.png?600}}
  
- Macは「`MEGAN_Community_macos_6_XX_X.dmg`」をダウンロードし、ダウンロードしたファイルをクリックorダブルクリックしてディスクイメージをマウントし、インストーラーをダブルクリックして起動する。+ Macは「`MEGAN_Community_macos_6_XX_X.dmg`」をダウンロードし、ダウンロードしたファイルをダブルクリックしてディスクイメージをマウントし、インストーラーをダブルクリックして起動する。
  
 {{:pasted:20231107-070534.png?600}} {{:pasted:20231107-070534.png?600}}
行 121: 行 131:
 ### 2. データベースのダウンロード ### 2. データベースのダウンロード
  
-- 16S rRNA、18S rRNA、ミトコンドリア、葉緑体等のメタバーコーディングで使用される領域をまとめたFASTAファイル+- 16S rRNA、18S rRNA、ミトコンドリア、葉緑体等のメタバーコーディングで使用される領域をまとめたFASTAファイルをダウンロードして各自OSの機能でzipファイルを解凍し、中身の`silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta`を「2023jissyu」フォルダにコピーしておく。
  
-[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename.fasta.zip]]+[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta.zip]]
  
 このファイルは、NCBI blast database (ミトコンドリア、葉緑体)、PR2(18S rRNAなど)、SILVA(16S rRNA, 23S rRNA)、MitoFish (MiFish用12S rRNA)をマージして作ったもの。具体的には下記のファイルをマージ。 このファイルは、NCBI blast database (ミトコンドリア、葉緑体)、PR2(18S rRNAなど)、SILVA(16S rRNA, 23S rRNA)、MitoFish (MiFish用12S rRNA)をマージして作ったもの。具体的には下記のファイルをマージ。
  
 `https://ftp.ncbi.nlm.nih.gov/blast/db/ から16S_ribosomal_RNA、LSU_prokaryote_rRNA、mito` `https://ftp.ncbi.nlm.nih.gov/blast/db/ から16S_ribosomal_RNA、LSU_prokaryote_rRNA、mito`
 +
 `http://ftp.ncbi.nih.gov/refseq/release/plastid/ からplastid.*.genomic.fna.gz` `http://ftp.ncbi.nih.gov/refseq/release/plastid/ からplastid.*.genomic.fna.gz`
  
 `https://github.com/pr2database/pr2database/releases/download/v4.14.0/pr2_version_4.14.0_SSU_taxo_long.fasta.gz` `https://github.com/pr2database/pr2database/releases/download/v4.14.0/pr2_version_4.14.0_SSU_taxo_long.fasta.gz`
 +
 `https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_LSURef_NR99_tax_silva_trunc.fasta.gz` `https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_LSURef_NR99_tax_silva_trunc.fasta.gz`
 +
 `https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz` `https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz`
 +
 `http://mitofish.aori.u-tokyo.ac.jp/species/detail/download/?filename=download%2F/complete_partial_mitogenomes.zip` `http://mitofish.aori.u-tokyo.ac.jp/species/detail/download/?filename=download%2F/complete_partial_mitogenomes.zip`
  
 - Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。 - Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。
- +  
-[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/2023nanopore.zip]] + [[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/2023nanopore.zip]] 
- +  
- zipファイルを解凍しておく。本当は各サンプ2万リードほど読めていたけど、全部blastかけると時間がかかるので、1000リドずつ抽出している。 + zipファイルを解凍し、中身のgroupX_XXX.fqファイを「2023jissyu」フォルダコピーしておく。 
- +  
- eDNA解析: y2022-groupX-fish-12S-xxx.fqのファイルを使用 + ・ eDNA解析: groupX-fish-water.fqのファイルを使用 
- - 品種判別(食品): y2022-groupX-fish-16S.fqのファイルを使用 +  
- メタゲノム解析(水・食品): y2022-groupX-bacteria-16S-xxx.fqのファイルを使用+ ・ メタゲノム解析(水・食品): groupX-bacteria-xxxx.fqのファイルを使用
  
 ## B. クオリティチェック ## B. クオリティチェック
  
 FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。 FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。
- 
  
 ### FASTQCを実行するには… ### FASTQCを実行するには…
行 211: 行 224:
  
 ``` ```
-./seqkit fq2fa ./2023nanopore/input_file.fastq -o output_file.fasta +./seqkit fq2fa input_file.fastq -o output_file.fasta 
 ``` ```
  
行 229: 行 242:
 ``` ```
 #Blastデータベースを作成 #Blastデータベースを作成
-./ncbi-blast-2.12.0+/bin/makeblastdb -in silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename.fasta -dbtype nucl+./ncbi-blast-2.12.0+/bin/makeblastdb -in silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta -dbtype nucl
 ``` ```
  
行 241: 行 254:
  
 ``` ```
-./ncbi-blast-2.12.0+/bin/blastn -db silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename.fasta -query input.fasta -num_threads 16 -out input.fasta.blastn+./ncbi-blast-2.12.0+/bin/blastn -db silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta -query input.fasta -num_threads 16 -out input.fasta.blastn
 ``` ```
  
行 289: 行 302:
 {{:pasted:20201026-182612.png}} {{:pasted:20201026-182612.png}}
  
-5.「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。+5.「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。「Apply」を押すとファイルを読み込みます。
  
 {{:pasted:20201026-182626.png}} {{:pasted:20201026-182626.png}}
行 345: 行 358:
  
 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。
 +
 ## F. 明日の内容 ## F. 明日の内容
  
-各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成する。班ごとに発表し、発表時間は質疑応答を入れて30分。+各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成してください。班ごとに発表し、発表時間は質疑応答を入れて30分。
  
 ``` ```
-1班.食品の品種判別 by サンガー +X班.食品の品種判別 by サンガー 
-2班.三四郎池のeDNA +X班.三四郎池のeDNA 
-3班.発酵食品のメタゲノム、加工食品の品種判別 by ナノポア +X班.発酵食品のメタゲノム 
-4班.三四郎池のメタゲノム+X班.三四郎池のメタゲノム
 ``` ```
  
 各テーマごとに例えば下記のような項目について考察をすること。インターネットを積極的に使用して調べることを推奨します。また、ある程度調べてもわからないことがあればTA・スタッフに聞いてみてください。 各テーマごとに例えば下記のような項目について考察をすること。インターネットを積極的に使用して調べることを推奨します。また、ある程度調べてもわからないことがあればTA・スタッフに聞いてみてください。
  
-1班.食品の品種判別 by サンガー+X班.食品の品種判別 by サンガー
  
 NCBIのデータベースとMitoFishのデータベースを比べて、ヒットした種が同じかどうか調べ、どちらのデータベースのほうが良さそうか考えてみる。 NCBIのデータベースとMitoFishのデータベースを比べて、ヒットした種が同じかどうか調べ、どちらのデータベースのほうが良さそうか考えてみる。
  
-ヒットした近縁種の配列Genbankからダウンローて加え、系統樹を描いてる。+ネガティブコンロールでもPCR増幅てしまっ理由考えて、どうすればネガティブコロールで増幅ようにできるか、どうやっ検証するか考える。
  
 手法で詳しく説明して欲しい箇所:「DNA抽出」(使用したキットはDNeasy Blood & Tissue Kitsです。) 手法で詳しく説明して欲しい箇所:「DNA抽出」(使用したキットはDNeasy Blood & Tissue Kitsです。)
  
-2班.三四郎池のeDNA+X班.三四郎池のeDNA
  
 検出された魚は三四郎池に棲息していそうな魚かどうか。 検出された魚は三四郎池に棲息していそうな魚かどうか。
 +
 +二年前の三四郎池のデータとも比較してみてください。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-12S-Sanshiroike1.fq)
  
 手法で詳しく説明して欲しい箇所:「電気泳動、DNA精製」(使用したキットはFastGene™ Gel/PCRExtractionキットです。) 手法で詳しく説明して欲しい箇所:「電気泳動、DNA精製」(使用したキットはFastGene™ Gel/PCRExtractionキットです。)
  
-3班.発酵食品のメタゲノム、加工食品の品種判別 by ナノポア+X班.発酵食品のメタゲノム
  
 今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。 今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。
行 380: 行 396:
 手法で詳しく説明して欲しい箇所:「PCR」(使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。) 手法で詳しく説明して欲しい箇所:「PCR」(使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。)
  
-4班.三四郎池のメタゲノム+X班.三四郎池のメタゲノム
  
 検出されたバクテリアは淡水環境で良く検出されているでしょうか? 検出されたバクテリアは淡水環境で良く検出されているでしょうか?
  
-年の三四郎池のデータとも比較してみ。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-16S-Sanshiroike1.fq)+の三四郎池のデータとも比較してみてください。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-16S-Sanshiroike1.fq)
  
 手法で詳しく説明して欲しい箇所:「ナノポアシーケンシング」(使用したライブラリー調整キットはSQK-LSK110です。公式マニュアル:http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/amplicons-by-ligation-sqk-lsk110-ACDE_9110_v110_revT_10Nov2020-minion.pdf ) 手法で詳しく説明して欲しい箇所:「ナノポアシーケンシング」(使用したライブラリー調整キットはSQK-LSK110です。公式マニュアル:http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/amplicons-by-ligation-sqk-lsk110-ACDE_9110_v110_revT_10Nov2020-minion.pdf )
行 390: 行 406:
 ## G. 課題 ## G. 課題
  
-明日のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。+来週のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。
  • 2023-メタゲノム・edna.1699341083.txt.gz
  • 最終更新: 2023/11/07 07:11
  • by suikou