差分

このページの2つのバージョン間の差分を表示します。

--- 2024-メタゲノム・edna [2024/10/27 15:18] – suikou
+++ 2024-メタゲノム・edna [2024/11/07 05:55] (現在) – yonezawa
@@ 行 43: / 行 43: @@
 班：チーズ
+{{:266684.jpg?400|}}
 ## PCR結果まとめ
-{{:pasted:20231106-123701.png}}
+班：
+{{:pasted:20241029-034439.png}}
+班：
+{{:pasted:20241029-034455.png}}
+班：
+{{:pasted:20241029-034511.png}}
+班：
+{{:pasted:20241029-034528.png}}
+スタッフによる追加実験：
+{{:pasted:20241029-034557.png?600}}
 ## ナノポアシーケンス結果
@@ 行 62: / 行 82: @@
 ### 1. ツールのインストール
-これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードする。とりあえずここではWindowsでダウンロードフォルダの中に「2024jissyu」というフォルダを作ったとします。（注意：今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もし「C:\Users\XXX\Downloads\東大学生実験\2024jissyu」などとパスに日本語が含まれる場合は、「C:\Users\XXX\Downloads\2024jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveでダウンロードフォルダを同期させていると「C:\Users\XXX\ダウンロード」と日本語になっていることもあるので注意。）
+これからダウンロードするファイルを入れるディレクトリを作成し、その中にすべてのファイルをダウンロードします。とりあえずここではダウンロードフォルダの中に「2024jissyu」というフォルダを作り、そこにこれからダウンロードするファイルを全部移動させたことを前提に書いてあります。（注意：今回使用するプログラムはフォルダ名が日本語になっていると正常動作しません。もしWindowsで「C:\Users\XXX\Downloads\東大学生実験\2024jissyu」などとパスに日本語が含まれる場合は、「C:\Users\XXX\Downloads\2024jissyu」など途中に日本語フォルダを挟まないフォルダを作ってその中にダウンロードして下さい。OneDriveでダウンロードフォルダを同期させていると「C:\Users\XXX\ダウンロード」と日本語になっていることもあるので注意。）
-- SeqKit
+#### SeqKit
  https://bioinf.shenwei.me/seqkit/download/
- Windowsは「Windows amd64」の「[[https://github.com/shenwei356/seqkit/releases/download/v2.8.2/seqkit_windows_amd64.exe.tar.gz|seqkit_windows_amd64.exe.tar.gz]]」、Mac (Intel)は「[[https://github.com/shenwei356/seqkit/releases/download/v2.8.2/seqkit_darwin_amd64.tar.gz|seqkit_darwin_amd64.tar.gz]]」、Mac (M1, M2)は「[[https://github.com/shenwei356/seqkit/releases/download/v2.8.2/seqkit_darwin_arm64.tar.gz|seqkit_darwin_arm64.tar.gz]]」をダウンロードする。
+ Windowsは「Windows amd64」の「[[https://github.com/shenwei356/seqkit/releases/download/v2.8.2/seqkit_windows_amd64.exe.tar.gz|seqkit_windows_amd64.exe.tar.gz]]」、Mac (Intel)は「[[https://github.com/shenwei356/seqkit/releases/download/v2.8.2/seqkit_darwin_amd64.tar.gz|seqkit_darwin_amd64.tar.gz]]」、Mac (2020年のM1プロセッサ以降)は「[[https://github.com/shenwei356/seqkit/releases/download/v2.8.2/seqkit_darwin_arm64.tar.gz|seqkit_darwin_arm64.tar.gz]]」をダウンロードする。
  WindowsではスタートメニューからPowerShellを起動してターミナルを開く。MacではLaunchpad→その他→ターミナルを起動する。
@@ 行 78: / 行 98: @@
 cd ~/Downloads/2024jissyu/
-#ダウンロードしたファイルを解凍する。
+#ダウンロードしたファイルを解凍する。（Win）
 tar vxf seqkit_windows_amd64.exe.tar.gz
+#ダウンロードしたファイルを解凍する。（Mac）
+tar vxf seqkit_darwin_*.tar.gz
 ```
-- BLAST
+#### BLAST
  https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.16.0/
@@ 行 97: / 行 119: @@
 ```
-- FastQC
+#### FastQC
  https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
@@ 行 103: / 行 125: @@
  {{:pasted:20221105-180123.png}}
- Windowsは「[[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.12.1.zip|FastQC v0.12.1 (Win/Linux zip file)]]」をダウンロードし、「2024jissyu」フォルダに移した後で、下記のコマンドを実行する。
+ Windowsは「[[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.12.1.zip|FastQC v0.12.1 (Win/Linux zip file)]]」をダウンロードし、上図のように解凍するか、もしくは「2024jissyu」フォルダに移した後で、下記のコマンドを実行する。
 ```
@@ 行 110: / 行 132: @@
  Macは「[[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.12.1.dmg|FastQC v0.12.1 (Mac DMG image)]]」をダウンロードし、ダブルクリックしてイメージをマウントしておく。
+#### Javaランタイム
+ FastQCを実行するのに必要。https://www.java.com/ja/download/manual.jsp より適切なJavaをインストールする。
+ Windowsは「[[https://javadl.oracle.com/webapps/download/AutoDL?BundleId=251408_0d8f12bc927a4e2c9f8568ca567db4ee|jre-8u431-windows-x64.exe]]」, MacはIntel系のCPUは「[[https://javadl.oracle.com/webapps/download/AutoDL?BundleId=251401_0d8f12bc927a4e2c9f8568ca567db4ee|jre-8u431-macosx-x64.dmg]]」を、M1以降のCPUは「[[https://javadl.oracle.com/webapps/download/AutoDL?BundleId=251399_0d8f12bc927a4e2c9f8568ca567db4ee|jre-8u431-macosx-aarch64.dmg]]」のインストーラーをダウンロードし、実行してインストールする。
-- MEGAN
+ {{:pasted:20241029-033133.png}}
+#### MEGAN
  http://software-ab.cs.uni-tuebingen.de/download/megan6/welcome.html
@@ 行 125: / 行 155: @@
 {{:pasted:20231107-050404.png?600}}
-インストーラーに従い、「次へ」を押してインストールを完了する。
+インストーラーに従い、「次へ」等を押してインストールを完了する。
 {{:pasted:20231107-050521.png?600}}
- Macは「`[[https://software-ab.cs.uni-tuebingen.de/download/megan6/MEGAN_Community_macos_6_25_10.dmg|MEGAN_Community_macos_6_25_10.dmg]]`」をダウンロードし、ダウンロードしたファイルをダブルクリックしてディスクイメージをマウントし、インストーラーをダブルクリックして起動する。
+ Macは「[[https://software-ab.cs.uni-tuebingen.de/download/megan6/MEGAN_Community_macos_6_25_10.dmg|MEGAN_Community_macos_6_25_10.dmg]]」をダウンロードし、ダウンロードしたファイルをダブルクリックしてディスクイメージをマウントし、インストーラーをダブルクリックして起動する。
 {{:pasted:20231107-070534.png?600}}
@@ 行 136: / 行 166: @@
 {{:pasted:20231107-070555.png?600}}
+インストーラーに従い、「次へ」等を押してインストールを完了する。
 ### 2. データベースのダウンロード
@@ 行 141: / 行 173: @@
 - 16S rRNA、18S rRNA、ミトコンドリア、葉緑体等のメタバーコーディングで使用される領域をまとめたFASTAファイルをダウンロードして各自OSの機能でzipファイルを解凍し、中身の`silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta`を「2024jissyu」フォルダにコピーしておく。
-[[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta.zip]]
+ [[https://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2023jissyu/silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta.zip]]
-このファイルは、NCBI blast database (ミトコンドリア、葉緑体)、PR2（18S rRNAなど）、SILVA（16S rRNA, 23S rRNA）、MitoFish (MiFish用12S rRNA)をマージして作ったもの。具体的には下記のファイルをマージ。
+ このファイルは、NCBI blast database (ミトコンドリア、葉緑体)、PR2（18S rRNAなど）、SILVA（16S rRNA, 23S rRNA）、MitoFish (MiFish用12S rRNA)をマージして作ったもの。具体的には下記のファイルをマージしたもの。
-`https://ftp.ncbi.nlm.nih.gov/blast/db/ から16S_ribosomal_RNA、LSU_prokaryote_rRNA、mito`
+ `https://ftp.ncbi.nlm.nih.gov/blast/db/ から16S_ribosomal_RNA、LSU_prokaryote_rRNA、mito`
-`http://ftp.ncbi.nih.gov/refseq/release/plastid/ からplastid.*.genomic.fna.gz`
+ `http://ftp.ncbi.nih.gov/refseq/release/plastid/ からplastid.*.genomic.fna.gz`
-`https://github.com/pr2database/pr2database/releases/download/v4.14.0/pr2_version_4.14.0_SSU_taxo_long.fasta.gz`
+ `https://github.com/pr2database/pr2database/releases/download/v4.14.0/pr2_version_4.14.0_SSU_taxo_long.fasta.gz`
-`https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_LSURef_NR99_tax_silva_trunc.fasta.gz`
+ `https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_LSURef_NR99_tax_silva_trunc.fasta.gz`
-`https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz`
+ `https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz`
-`http://mitofish.aori.u-tokyo.ac.jp/species/detail/download/?filename=download%2F/complete_partial_mitogenomes.zip`
+ `http://mitofish.aori.u-tokyo.ac.jp/species/detail/download/?filename=download%2F/complete_partial_mitogenomes.zip`
 - Nanoporeのシーケンスデータ ・・・メタゲノムとeDNAのデータが入っています。
- [[http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2024jissyu/2024nanopore.zip]]
+ [[https://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2024jissyu/2024nanopore.zip]]
- zipファイルを解凍し、中身のgroupX_XXX.fqファイルを「2024jissyu」フォルダにコピーしておく。
+ zipファイルを解凍し、中身の`X_XXX_1st.fq`, `X_XXX_2nd.fq`ファイルを「2024jissyu」フォルダにコピーしておく。`_1st`は三年生の皆さんがPCRしてナノポアシーケンスしたデータ、`_2nd`はデータが少なかったサンプルを研究室のスタッフで追加実験したデータ。
- ・ eDNA解析: groupX-eDNA.fqのファイルを使用
+ ・ eDNA解析: X-eDNA.fqのファイルを使用
- ・ メタゲノム解析（水・食品）: groupX-food-xxxx.fq, groupX-metagenome-xxxx.fqのファイルを使用
+ ・ メタゲノム解析（水・食品）: X-food.fq, X-metagenome.fqのファイルを使用
 ## B. クオリティチェック
@@ 行 183: / 行 215: @@
  {{:pasted:20221105-183402.png}}
- 一度「キャンセル」して、「システム環境設定」を開き、
+ 一度「キャンセル」して、「システム環境設定」を開き、 「プライバシーとセキュリティ」を開き、「このまま開く」をクリックしてFastQCを開く。
- {{:pasted:20221105-183659.png}}
+ {{:pasted:20241029-031323.png}}
- 「セキュリティとプライバシー」を開き、「このまま開く」をクリックしてFastQCを開く。
- {{:pasted:20221105-183737.png}}
 ### FastQCでシーケンスファイルを開く
 {{:pasted:20221105-194846.png}}
+Macでは下記のようにアクセスを許可する必要があるので、許可をする。
+{{:pasted:20241029-033614.png}}
 Ctrlキーを押しながらクリックすれば、複数のファイルを一度に選択できるので、必要なファイルを選択して開く。(ただし一度に複数選択するとメモリーエラーで落ちたりするので、その場合は一つずつ開くこと。）
@@ 行 205: / 行 237: @@
 Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずですが、リード全体のクオリティは比較的正しく計算できるみたいだけど、塩基ごとのクオリティはあまり正確ではなく、実際の塩基精度とは乖離があるようです。(ナノポアでQ20と出ていても、実際はQ12.5程度。https://labs.epi2me.io/quality-scores/)
-リード長の分布が想定される長さになっているかなども確認すること。 (バクテリア16S全長は1.5 kbp程度、魚類ミトコンドリア16Sは600 bp程度、魚類ミトコンドリア12S MiFishは200 bp強)
+リード長の分布が想定される長さになっているかなども確認すること。 (バクテリア16S全長は1.5 kbp程度、魚類ミトコンドリア12S MiFishは200 bp強)
 ## C. BLAST
@@ 行 224: / 行 256: @@
 ```
-./seqkit fq2fa input_file.fastq -o output_file.fasta
+./seqkit fq2fa -o 1-metagehome_1st.fasta 1-metagehome_1st.fq
 ```
-```input_file.fastq```, ```output_file.fasta```は適当に変更すること。
+```1-metagehome_1st.fq```, ```1-metagehome_1st.fasta```は適当に変更すること。
+もしリード数が多い場合は、後のblast検索で時間がかかるので、例えば500リードなどにダウンサンプリングしておく。（特にfood, metagenomeサンプルはリード長が長く、blast検索に時間がかかるのでリード数を減らしておくことを推奨）
+```
+#例
+./seqkit sample -n 500 -o 1-metagehome_1st_500.fasta 1-metagehome_1st.fasta
+```
 ### コマンド入力時の便利キー
@@ 行 254: / 行 293: @@
 ```
-./ncbi-blast-2.16.0+/bin/blastn -db silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta -query input.fasta -num_threads 16 -out input.fasta.blastn
+./ncbi-blast-2.16.0+/bin/blastn -db silva-SSU-LSU_PR2_NCBI-16S-mito-plastid_2023-04-18_rename_mitofish-2023-11-07.fasta -query 1-metagehome_1st_500.fasta -num_threads 16 -out 1-metagehome_1st_500.fasta.blastn
 ```
@@ 行 271: / 行 310: @@
 ```
 ## Windows (PowerShell)の場合
-Get-Content -head 30 input.fasta.blastn
+Get-Content -head 30 1-metagehome_1st_500.fasta.blastn
 ## Mac/Linuxの場合
-head -n 30 input.fasta.blastn
+head -n 30 1-metagehome_1st_500.fasta.blastn
-# input.fasta.blastn は適当なファイル名に変更します。
+# 1-metagehome_1st_500.fasta.blastn は適当なファイル名に変更します。
 ```
@@ 行 302: / 行 341: @@
 {{:pasted:20201026-182612.png}}
-．「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類16Sではリード長が600bp程度なので300、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。「Apply」を押すとファイルを読み込みます。
+．「LCA Params」タブを開いて、Top Percent: の値を0.5に変更しておきます。このパラメータは、BLASTの結果の中で最もスコアの高いトップヒットからどの程度離れたヒットまで使用するかの閾値になります。ナノポアではシーケンス精度が悪く、無関係な生物も似たようなスコアでヒットしてしまうため、ほぼトップヒットしか使わないように厳しめに閾値を設定しておきます。それから、Min Score: の値をバクテリア16Sではリード長が1500bp程度なので1000、魚類12Sではリード長が200bp程度なので100などと指定し、スコアの低いリードをトリミングします。「Apply」を押すとファイルを読み込みます。
 {{:pasted:20201026-182626.png}}
@@ 行 360: / 行 399: @@
 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたりするのが通常の解析の流れになるかと思います。
-## F. 最終日のプレゼンテーションの内容
-各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成してください。班ごとに発表し、発表時間は質疑応答を入れて30分です。
-```
-X班．食品の品種判別 by サンガー
-X班．三四郎池のeDNA
-X班．発酵食品のメタゲノム
-X班．三四郎池のメタゲノム
-```
-各テーマごとに例えば下記のような項目について考察をすること。インターネットを積極的に使用して調べることを推奨します。また、ある程度調べてもわからないことがあればTA・スタッフに聞いてみてください。
-・X班．食品の品種判別 by サンガー
-NCBIのデータベースとMitoFishのデータベースを比べて、ヒットした種が同じかどうか調べ、どちらのデータベースのほうが良さそうか考えてみる。
-ネガティブコントロールでもPCR増幅してしまった理由を考えて、どうすればネガティブコントロールで増幅しないようにできるか、どうやって検証するか考える。
-手法で詳しく説明して欲しい箇所：「DNA抽出」（使用したキットはDNeasy Blood & Tissue Kitsです。）
-・X班．三四郎池のeDNA
-検出された魚は三四郎池に棲息していそうな魚かどうか。
-三年前の三四郎池のデータとも比較してみてください。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-12S-Sanshiroike1.fq)
-手法で詳しく説明して欲しい箇所：「電気泳動、DNA精製」（使用したキットはFastGene™ Gel/PCRExtractionキットです。）
-・X班．発酵食品のメタゲノム
-今回発酵食品で検出されるバクテリアはほぼ1種類だと思うので、精度の悪いナノポアのリードの精度を向上させる方法を実践してみてください。具体的にはGeneiousでマルチプルアライメントを作成して、コンセンサス配列を作ることで、NCBIのBlastで一致率99%程度のヒットが得られるようになることを確認し、ナノポアのリードはどのような間違いが多いのか考察してみてください。
-加工食品から検出された魚は妥当でしょうか。No Hitのリードを抜き出して、NCBIのBLASTにかけてみると何がヒットしますか？（リードを抜き出す例： `./seqkit grep -rp "1e2f600e-220b-4144-93b0-75ccd2c537de:35:1568:-1:bac-27F-BC05:bac-1492R" ./2022nanopore/y2022-group1-bacteria-16S-Sanshiro.fq`）
-手法で詳しく説明して欲しい箇所：「PCR」（使用したDNAポリメラーゼはrepliQa HiFi ToughMixです。AmpliTaq GoldやEx Taqといった他の酵素と比較して、どういった特徴があるでしょうか。）
-・X班．三四郎池のメタゲノム
-検出されたバクテリアは淡水環境で良く検出されているでしょうか？
-二年前の三四郎池のデータとも比較してみてください。http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip (group2-16S-Sanshiroike1.fq)
-手法で詳しく説明して欲しい箇所：「ナノポアシーケンシング」（使用したライブラリー調整キットはSQK-LSK110です。公式マニュアル：http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2022jissyu/amplicons-by-ligation-sqk-lsk110-ACDE_9110_v110_revT_10Nov2020-minion.pdf )
-## G. 課題
-来週のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。