差分

このページの2つのバージョン間の差分を表示します。

--- 2023-メタゲノム・edna [2023/11/04 17:30] – 作成 suikou
+++ 2023-メタゲノム・edna [2023/11/09 00:57] (現在) – suikou
@@ 行 7: / 行 7: @@
 |サンプル|プライマー領域|対象生物|PCR断片長|
 |三四郎池の水|ミトコンドリア12S rRNA|魚|200 bp強|
+|三四郎池の水|バクテリア16S rRNA|バクテリア|1,500 bp程度|
 |発酵食品|バクテリア16S rRNA|バクテリア|1,500 bp程度|
-|加工食品|ミトコンドリア16S rRNA|魚|600 bp程度|
 本日のデータ解析のワークフローを以下に示します。
@@ 行 20: / 行 20: @@
 ### 三四郎池で採水したときの様子
-班：{{img_5208.jpg?300}}
+{{:pasted:20231106-122819.png?400}}
-班：{{img_8531.jpeg?300}}
+{{:pasted:20231106-122834.png?400}}
-班：{{img_8527.jpeg?300}}
+{{:pasted:20231106-122847.png?400}}
-班：{{img_8528.jpeg?300}}
 ### 発酵食品
-班：チーズ
+班：塩辛
-班：ヨーグルト（R1)
+班：キムチ
-### 加工食品
+班：チーズ
-: 蒲焼さん太郎
+班：チーズ
-: ちくわ
 ## PCR結果まとめ
-{{:pasted:20221104-161635.png}}
+{{:pasted:20231106-123701.png}}
 ## ナノポアシーケンス結果
-[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/g1-g2.html|1, 2班のシーケンス結果レポート]]
+クオリティスコアQから、エラーの生じる確率 P(error) は下記のように計算されます。 (出典： https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html )
-[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/g3-g4.html|3, 4班のシーケンス結果レポート]]
+{{:pasted:20231107-065948.png}}
-クオリティスコアQは、エラーの生じる確率 perror から下記のように計算されます。 (出典： https://bi.biopapyrus.jp/rnaseq/qc/fastq-quality-score.html )
-{{:pasted:20201026-181651.png}}
 - クオリティスコアが 10 ならば、シーケンシングエラーが生じる確率は 10.0% であるから、読み取られた塩基の信頼度は 90.0% 。
@@ 行 62: / 行 54: @@
 ### 1. ツールのインストール
-これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2022jissyu」というフォルダを作ったとする。（注意：今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C:\Users\XXX\ダウンロード\2022jissyu」などとパスに日本語が含まれる場合は、「C:\2022jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveなどと同期させていない場合は、おそらく「C:\Users\XXX\Downloads\2022jissyu」になっているはずなので、特に気にしなくて良いはずです。）
+これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2023jissyu」というフォルダを作ったとします。（注意：今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C:\Users\XXX\Downloads\東大学生実験\2023jissyu」などとパスに日本語が含まれる場合は、「C:\Users\XXX\Downloads\2023jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveでダウンロードフォルダを同期させていると「C:\Users\XXX\ダウンロード」と日本語になっていることもあるので注意。）
 - SeqKit
@@ 行 70: / 行 62: @@
  Windowsは「Windows amd64」の「`seqkit_windows_amd64.exe.tar.gz`」、Mac (Intel)は「`seqkit_darwin_amd64.tar.gz`」、Mac (M1, M2)は「`seqkit_darwin_arm64.tar.gz`」、Linuxは「`seqkit_linux_amd64.tar.gz`」をダウンロードする。
- WindowsではPowerShellなどをターミナルを開き、下記のコマンドを実行する。(Mac、Linuxでも基本的には同じコマンドを使う。ディレクトリの名前が違うと思うのでそれぞれ変更すること。）
+ WindowsではスタートメニューからPowerShellを起動してターミナルを開く。MacではLaunchpad→その他→ターミナルを起動する。
+ ターミナルに下記のコマンドを入力し、seqkitを解凍する。
 ```
@@ 行 82: / 行 76: @@
 - BLAST
- https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.15.0/
+ https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.12.0/
- Windowsは「`ncbi-blast-2.15.0+-x64-win64.tar.gz`」をダウンロードする。
+ Windowsは「`ncbi-blast-2.12.0+-x64-win64.tar.gz`」を、Macは「`ncbi-blast-2.12.0+-x64-macosx.tar.gz`」ダウンロードし、「2023jissyu」フォルダに移した後で、下記のコマンドを実行する。
 ```
 #ダウンロードしたファイルを解凍する。
-tar vxf ncbi-blast-2.15.0+-x64-win64.tar.gz
+## Windows
+tar vxf ncbi-blast-2.12.0+-x64-win64.tar.gz
+## Mac
+tar vxf ncbi-blast-2.12.0+-x64-macosx.tar.gz
 ```
@@ 行 95: / 行 93: @@
  https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
- Windowsは「FastQC vX.XX.X (Win/Linux zip file)」をダウンロードする。
  {{:pasted:20221105-180123.png}}
+ Windowsは「FastQC vX.XX.X (Win/Linux zip file)」をダウンロードし、「2023jissyu」フォルダに移した後で、下記のコマンドを実行する。
+```
+Expand-Archive -Path fastqc_v0.12.1.zip -DestinationPath .
+```
+ Macは「FastQC vX.XX.X (Mac DMG image)」をダウンロードし、ダブルクリックしてイメージをマウントしておく。
- 各自OSの機能でzipファイルを解凍する。
 - MEGAN
  http://software-ab.cs.uni-tuebingen.de/download/megan6/welcome.html
- Windowsは「MEGAN6 Community Edition installers」の「`MEGAN_Community_windows-x64_6_XX_X.exe`」をダウンロードする。
+ Windowsは「MEGAN6 Community Edition installers」の「`MEGAN_Community_windows-x64_6_XX_X.exe`」をダウンロードし、ダウンロードしたファイルをクリックorダブルクリックしてインストーラーを起動する。
- ダウンロードしたファイルを実行してインストールを進める。途中で下記の画面で使用するメモリの最大値を設定するところがあるので、少なくとも6,000 MBに上げておく。
+下記の画面が出たら「詳細情報」を開いて
- {{:pasted:20201030-180905.png}}
-- JAVAランタイム（WindowsでこれまでにJAVAランタイムをインストールしていない人のみ）
+{{:pasted:20231107-050256.png?600}}
- https://adoptium.net/temurin/releases/?version=11 から「`OpenJDK11U-jdk_x64_windows_hotspot_11.0.17_8.msi`」をダウンロードしてインストールする。（デフォルトのまま「次へ」を選択していけばOK）
+「実行」をクリックする。
-### 2. データベースのダウンロード
+{{:pasted:20231107-050404.png?600}}
-- NCBI blast database
+インストーラーに従い、「次へ」を押してインストールを完了する。
- https://ftp.ncbi.nlm.nih.gov/blast/db/ から下記のファイルをダウンロードして解凍しておく。
+{{:pasted:20231107-050521.png?600}}
- https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz (バクテリアの16S rRNAが約2万種登録されている。)
+ Macは「`MEGAN_Community_macos_6_XX_X.dmg`」をダウンロードし、ダウンロードしたファイルをダブルクリックしてディスクイメージをマウントし、インストーラーをダブルクリックして起動する。
-```
+{{:pasted:20231107-070534.png?600}}
-#ダウンロードしたファイルを解凍する。
-tar vxf 16S_ribosomal_RNA.tar.gz
-```
-- MitoFish ・・・魚類のミトコンドリアのデータベース。約2万種が登録されている。魚類ミトコンドリア上の16S rRNA、12S rRNAを探す場合に使用する。
+開いて良いか聞かれたら「開く」を押す。
- http://mitofish.aori.u-tokyo.ac.jp/download/ のページにある「the complete + partial mtDNA sequence file」をダウンロードする。
+{{:pasted:20231107-070555.png?600}}
- 直リンクは→ http://mitofish.aori.u-tokyo.ac.jp/species/detail/download/?filename=download%2F/complete_partial_mitogenomes.zip (Chromeだと右クリックして「名前を付けてリンク先を保存」をクリックしないとダウンロードできない。）
+### 2. データベースのダウンロード
- zipファイルを解凍しておく。「mito-all」というファイルが解凍される。
+- 16S rRNA、18S rRNA、ミトコンドリア、葉緑体等のメタバーコーディングで使用される領域をまとめたFASTAファイルをダウンロードして各自OSの機能でzipファイルを解凍し、中身の`silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta`を「2023jissyu」フォルダにコピーしておく。
-- ヒトミトコンドリア配列・・・ヒトの16S, 12Sが混入していることがあるので、それを検出するために用いる。
+[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta.zip]]
- https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=NC_012920&rettype=fasta&retmode=text
+このファイルは、NCBI blast database (ミトコンドリア、葉緑体)、PR2（18S rRNAなど）、SILVA（16S rRNA, 23S rRNA）、MitoFish (MiFish用12S rRNA)をマージして作ったもの。具体的には下記のファイルをマージ。
- 「sequence.fasta」という名前でダウンロードされるはず。
+`https://ftp.ncbi.nlm.nih.gov/blast/db/ から16S_ribosomal_RNA、LSU_prokaryote_rRNA、mito`
-- Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。
+`http://ftp.ncbi.nih.gov/refseq/release/plastid/ からplastid.*.genomic.fna.gz`
- http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/2022nanopore.zip
+`https://github.com/pr2database/pr2database/releases/download/v4.14.0/pr2_version_4.14.0_SSU_taxo_long.fasta.gz`
- zipファイルを解凍しておく。本当は各サンプル2万リードほど読めていたけど、全部blastにかけると時間がかかるので、1000リードずつ抽出している。
+`https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_LSURef_NR99_tax_silva_trunc.fasta.gz`
- - eDNA解析: y2022-groupX-fish-12S-xxx.fqのファイルを使用
+`https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz`
- - 品種判別（食品）: y2022-groupX-fish-16S.fqのファイルを使用
- - メタゲノム解析（水・食品）: y2022-groupX-bacteria-16S-xxx.fqのファイルを使用
+`http://mitofish.aori.u-tokyo.ac.jp/species/detail/download/?filename=download%2F/complete_partial_mitogenomes.zip`
+- Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。
+ [[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/2023nanopore.zip]]
+ zipファイルを解凍し、中身のgroupX_XXX.fqファイルを「2023jissyu」フォルダにコピーしておく。
+ ・ eDNA解析: groupX-fish-water.fqのファイルを使用
+ ・ メタゲノム解析（水・食品）: groupX-bacteria-xxxx.fqのファイルを使用
 ## B. クオリティチェック
 FastQCは主にIllumina用のクオリティチェックツールなので、Nanoporeのデータに対しては適切な評価ができておらず、評価値の〇×は気にしなくてよいです。
 ### FASTQCを実行するには…
@@ 行 218: / 行 224: @@
 ```
-./seqkit fq2fa ./2023nanopore/input_file.fastq -o output_file.fasta
+./seqkit fq2fa input_file.fastq -o output_file.fasta
 ```
 ```input_file.fastq```, ```output_file.fasta```は適当に変更すること。
 ### コマンド入力時の便利キー
@@ 行 231: / 行 238: @@
 ### 2. BLASTデータベース作成
-MitoFishデータベースのFASTAファイルから、makeblastdbコマンドによってBLASTのデータベースを作成します。ターミナルで下記のように入力します。
+makeblastdbコマンドによってBLASTのデータベースを作成します。ターミナルで下記のように入力します。
 ```
-# MitoFish (魚類用)
-# MitoFishにヒトミトコンドリア配列を追加したファイルを作成する。
-## Windowsの場合
-cmd /C "type .\complete_partial_mitogenomes\mito-all sequence.fasta > mitofish-human.fasta"
-## Mac/Linuxの場合
-cat mito-all sequence.fasta > mitofish-human.fasta
 #Blastデータベースを作成
-./ncbi-blast-2.12.0+/bin/makeblastdb -in mitofish-human.fasta -dbtype nucl
+./ncbi-blast-2.12.0+/bin/makeblastdb -in silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta -dbtype nucl
 ```
@@ 行 255: / 行 254: @@
 ```
-#バクテリア用
+./ncbi-blast-2.12.0+/bin/blastn -db silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta -query input.fasta -num_threads 16 -out input.fasta.blastn
-./ncbi-blast-2.12.0+/bin/blastn -db 16S_ribosomal_RNA -query input.fasta -num_threads 16 -out input.fasta.blastn
-#魚類用
-./ncbi-blast-2.12.0+/bin/blastn -db mitofish-human.fasta -query input.fasta -num_threads 16 -out input.fasta.blastn
 ```
@@ 行 307: / 行 302: @@
 {{:pasted:20201026-182612.png}}
-．「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。
+．「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。「Apply」を押すとファイルを読み込みます。
 {{:pasted:20201026-182626.png}}
@@ 行 363: / 行 358: @@
 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。
 ## F. 明日の内容
-各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成する。班ごとに発表し、発表時間は質疑応答を入れて30分。
+各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成してください。班ごとに発表し、発表時間は質疑応答を入れて30分。
 ```
-班．食品の品種判別 by サンガー
+X班．食品の品種判別 by サンガー
-班．三四郎池のeDNA
+X班．三四郎池のeDNA
-班．発酵食品のメタゲノム、加工食品の品種判別 by ナノポア
+X班．発酵食品のメタゲノム
-班．三四郎池のメタゲノム
+X班．三四郎池のメタゲノム
 ```
 各テーマごとに例えば下記のような項目について考察をすること。インターネットを積極的に使用して調べることを推奨します。また、ある程度調べてもわからないことがあればTA・スタッフに聞いてみてください。
-・1班．食品の品種判別 by サンガー
+・X班．食品の品種判別 by サンガー
 NCBIのデータベースとMitoFishのデータベースを比べて、ヒットした種が同じかどうか調べ、どちらのデータベースのほうが良さそうか考えてみる。
-ヒットした近縁種の配列をGenbankからダウンロードして加え、系統樹を描いてみる。
+ネガティブコントロールでもPCR増幅してしまった理由を考えて、どうすればネガティブコントロールで増幅しないようにできるか、どうやって検証するか考える。
 手法で詳しく説明して欲しい箇所：「DNA抽出」（使用したキットはDNeasy Blood & Tissue Kitsです。）
-・2班．三四郎池のeDNA
+・X班．三四郎池のeDNA
 検出された魚は三四郎池に棲息していそうな魚かどうか。
+二年前の三四郎池のデータとも比較してみてください。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-12S-Sanshiroike1.fq)
 手法で詳しく説明して欲しい箇所：「電気泳動、DNA精製」（使用したキットはFastGene™ Gel/PCRExtractionキットです。）
-・3班．発酵食品のメタゲノム、加工食品の品種判別 by ナノポア
+・X班．発酵食品のメタゲノム
 今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。
@@ 行 398: / 行 396: @@
 手法で詳しく説明して欲しい箇所：「PCR」（使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。）
-・4班．三四郎池のメタゲノム
+・X班．三四郎池のメタゲノム
 検出されたバクテリアは淡水環境で良く検出されているでしょうか？
-去年の三四郎池のデータとも比較してみる。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-16S-Sanshiroike1.fq)
+二年前の三四郎池のデータとも比較してみてください。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-16S-Sanshiroike1.fq)
 手法で詳しく説明して欲しい箇所：「ナノポアシーケンシング」（使用したライブラリー調整キットはSQK-LSK110です。公式マニュアル：http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/amplicons-by-ligation-sqk-lsk110-ACDE_9110_v110_revT_10Nov2020-minion.pdf )
@@ 行 408: / 行 406: @@
 ## G. 課題
-明日のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。
+来週のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。