差分

このページの2つのバージョン間の差分を表示します。

--- 2025 [2025/11/02 17:44] – suikou
+++ 2025 [2025/11/07 15:08] (現在) – [4. コンセンサス配列の生物種名を調べる] suikou
@@ 行 17: / 行 17: @@
 {{:pasted:20251102-021916.png?600}}
+## 実験のまとめ（水のサンプリング～DNAシーケンシング)
+### サンプル
-## 実際に行われた実験の紹介（水のサンプリング～DNAシーケンシング)
+三四郎池で採水した場所
-### 三四郎池で採水した場所
 {{:pasted:20251102-174358.png?600}}
-### また、チーズ、ヨーグルト、ぬか漬け、塩辛といったバクテリアによる発酵食品からDNAを抽出し、バクテリアDNAを増幅するためのPCR、シーケンスを行った。
+また、バクテリアによる発酵食品からDNAを抽出した。
-{{:pasted:20250901-070736.png?200}} {{:pasted:20250901-070659.png?200}} {{:pasted:20250910-221023.png?200}} {{:pasted:20250910-221050.png?200}}
+班 キムチ、2班 ぬかづけ、3班 塩辛、4班 ヨーグルト
-## PCR結果の紹介
+### PCR結果
-### PCR増幅したサンプルの種類
+PCR増幅したプライマーの種類
-|サンプル|プライマー領域|対象生物|(アダプターの付いた)PCR断片長|
+|サンプル|プライマー名、配列|増幅する領域|対象生物|PCR断片長|
-|三四郎池の水|ミトコンドリア12S rRNA|魚|200 bp強|
+|三四郎池の水|MiFish-U-F: GTCGGTAAAACTCGTGCCAGC, MiFish-U-R: CATAGTGGGGTATCTAATCCCAGTTTG|ミトコンドリア12S rRNA|魚|プライマーを入れると200 bp強、プライマー部分を削ると170 bp程度（300 bp強にバクテリア由来の非特異的なバンドも増えることが多い）|
-|三四郎池の水|バクテリア16S rRNA|バクテリア|1,500 bp程度|
+|三四郎池の水|27F: AGAGTTTGATCMTGGCTCAG, 1492R: GGTTACCTTGTTACGACTT|バクテリア16S rRNA全長|バクテリア|1,500 bp程度|
-|発酵食品|バクテリア16S rRNA|バクテリア|1,500 bp程度|
+|発酵食品|27F: AGAGTTTGATCMTGGCTCAG, 1492R: GGTTACCTTGTTACGACTT|バクテリア16S rRNA全長|バクテリア|1,500 bp程度|
-### PCR結果
+皆さんが実際に使用したのは、上記のプライマーの配列にサンプルを区別するためのバーコード配列がついたものを使用しています。この後配布するシーケンスデータは、上記のプライマーやバーコード部分をトリミング（削除）してあります。
+---
 班
@@ 行 53: / 行 56: @@
 班
-{{:pasted:20251102-174258.png?400}}
+{{:pasted:20251102-174258.png?600}}
+### シーケンス結果（上限を10万リードにダウンサンプリングしてあります）
+|ファイル名|リード数|平均リード長 (bp)|
+|1-Bacteria16S-metagenome.fasta|100000|1460.8|
+|1-Mito12S-eDNA.fasta|34172|168.9|
+|2-Bacteria16S-food.fasta|209|1414.3|
+|2-Bacteria16S-metagenome.fasta|58183|1440.2|
+|2-Mito12S-eDNA.fasta|99755|169.7|
+|3-Bacteria16S-metagenome.fasta|73932|1442.8|
+|3-Mito12S-eDNA.fasta|99822|169.3|
+|4-Bacteria16S-food.fasta|1216|1483|
+|4-Bacteria16S-metagenome.fasta|542|1448|
+|4-Mito12S-eDNA.fasta|99|170.4|
+## 前提知識
-## リボソームについて
+### リボソームについて
 {{rrna.png?500}}
@@ 行 62: / 行 80: @@
 |  出典：http://ajan.ciceros.co|
-リボソームはRNAとタンパク質の複合体であり、原核生物の場合、大きく50Sと30Sのサブユニットに分かれる。30S複合体の中には16S rRNAが含まれる。
+リボソームはリボソームRNA (rRNA)とタンパク質の複合体であり、原核生物の場合、大きく50Sと30Sのサブユニットに分かれる。30S複合体の中には16S rRNAが含まれる。
 {{rrna-30s.jpg}}
@@ 行 88: / 行 106: @@
 |真核生物 (核)|18S rRNA|28S rRNA|
 |真核生物 (ミトコンドリア)|12S rRNA|16S rRNA|アルファプロテオバクテリア由来|
-|真核生物 (葉緑体)|16S rRNA|23S rRNA|シアノバクテリア由来|
+|真核生物 (葉緑体)|16S rRNA|23S rRNA|シアノバクテリア由来、バクテリアの16S, 23Sとかなり似ている|
 ### ミトコンドリアの12S rRNAとバクテリアの16S rRNA
@@ 行 105: / 行 123: @@
 |  出典：https://academic.oup.com/hmg/article/23/4/949/635888|
-### 使用したプライマー
-- バクテリア16S全長 プライマー部分を除くと1,400-1,500 bp程度のDNA断片
-|プライマーの名前|配列|
-|バクテリア16S全長 Forward (27F)|AGAGTTTGATCMTGGCTCAG|
-|バクテリア16S全長 Reverse (1492R)|GGTTACCTTGTTACGACTT|
-- ミトコンドリア12S MiFish プライマー部分を除くと170 bp程度のDNA断片
-|プライマーの名前|配列|
-|ミトコンドリア12S MiFish Forward (MiFish-U-F)|GTCGGTAAAACTCGTGCCAGC|
-|ミトコンドリア12S MiFish Reverse (MiFish-U-R)|CATAGTGGGGTATCTAATCCCAGTTTG|
-皆さんに配布するシーケンスデータはナノポアのアダプターや上記のプライマー部分をトリミング（削除）してあります。
 ### 同種、同属、同科での配列の一致率の閾値
@@ 行 128: / 行 132: @@
 出典：https://journals.plos.org/plosone/article?id=10.1371%2Fjournal.pone.0266720 https://elifesciences.org/articles/85795 https://academic.oup.com/ismecommun/article/1/1/16/7462888
 ## 解析の概要
@@ 行 214: / 行 219: @@
 https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm
+TGTTACGGとTGCTAAGGのアライメントを考える。
 {{:pasted:20241018-082033.png}}
+最良のアライメント結果は
+```
+TGTTACGG
+||X||X||
+TGCTAAGG
+```
 ## 相同性検索を高速に行うBLASTプログラム
@@ 行 242: / 行 257: @@
 BLASTの出力でE-valueは、指数表記で表されるので注意。例えば、「10<sup>-4</sup>」は「1.0e-4」と表記される。相同性のあるなしに関しての目安としては、（私は）DNAの場合E-valueが1e-10以下、タンパク質の場合1e-5以下であれば相同性がある（かもと思っている）。BLASTではE-valueが1e-150あたりよりも小さくなると「0」として丸めて表示される。
-メタゲノム解析ではE-valueよりも一致率のほうが直感的であり、16S rRNAの場合に一般的には98%以上の一致率で同種であると言われる。ただし、分類群によっては属が違っても一致率100%ということがありうる。
+BLASTの結果では通常E-valueを見るが、メタゲノム解析ではE-valueよりも一致率のほうが直感的であり、16S rRNAの場合に一般的には98%以上の一致率で同種であると言われる。ただし、分類群によっては属が違っても一致率100%ということがありうる。
 ### BLASTより高速な相同性検索ツール
@@ 行 305: / 行 320: @@
 {{:pasted:20251102-102055.png}}
 ### シーケンスデータのクオリティを確認する方法
@@ 行 320: / 行 336: @@
 ```
-> @reads/1-Bacteria16S-metagenome.fasta はナノポアのシーケンスデータです。リード名の行にqs:f:で始まる項目があり、そのリードのクオリティが書かれています。個のシーケンスデータのリード長vsクオリティの図を書いてください。ツールは自動でインストールしてください。
+> reads/1-Mito12S-eDNA.fasta はナノポアのシーケンスデータです。リード名の行にqs:f:で始まる項目があり、そのリードのクオリティが書かれています。このシーケンスデータのリード長vsクオリティの図を描くスクリプトを作って。リード長とクオリティのヒストグラムもつけて。不足しているツールは自動でインストールし、作成したスクリプトの使い方を説明して。
-```
-```
--eDNA_1st.fastaはナノポアの1サンプル分のデータで、sequencing_summary.txtは全サンプル分のシーケンス 情報です。このサンプル分のみのリードのクオリティとリード長の関係をシーケンス情報から抜き出してプロットしてください。必要なPythonのライブラリーは自動でインストールして。
 ```
 {{:pasted:20251102-102511.png}}
-下記のようにファイルを保存してよいか、コマンドを実行してよいか尋ねてくるのでYesを押す。Yesを押すのが面倒になったら「Ctrl-y」を押すと承認不要で自動で進めてくれる。
+下記のようにファイルを保存してよいか、コマンドを実行してよいか尋ねてくるのでYesを押す。Yesを押すのが面倒になったら「Ctrl-y」を押すと承認不要で自動で進めてくれるYOLOモードに変更できる。（ただし、スクリプト作成完了後に不要な提案をして自動で実行しようとすることがあるので、適当なところで止めたほうが良いことも…）
 {{:pasted:20251102-102539.png}}
@@ 行 335: / 行 347: @@
 ## 2. クラスタリング
-a. まずeDNA、メタゲノムごとにシーケンスデータをひとつのファイルにまとめる
+最初に…
+```
+pip3 install pandas
+```
+a. まずeDNA、メタゲノムごとにシーケンスデータをひとつのファイルにまとめる。ここではeDNAの場合を説明する。
 Windows
@@ 行 349: / 行 367: @@
 ```
-b. まとめたデータをクラスタリングする
+メタゲノムの場合は、`*eDNA.fasta`を`*metagenome.fasta`もしくは`*food.fasta`に変更し、`all-eDNA.fasta`も`all-metagenome.fasta`, `all-food.fasta`などと適当に変更すること。
+b. まとめたデータをVSEARCHでクラスタリングする
 `--cluster_fast`：入力された塩基配列を長さ順にソートしてクラスタリングを行う。クラスターの代表配列としてリード長の長いリードが出力される。
@@ 行 369: / 行 389: @@
 ```
-d. コンセンサス配列を再度クラスタリングすることで、シーケンスエラーをさらに除去
+d. コンセンサス配列を再度VSEARCHでクラスタリングすることで、シーケンスエラーをさらに除去
 `--cluster_size`：クラスターの大きさ順にソートしてからクラスタリング。クラスターサイズの大きい配列が出力される。
@@ 行 383: / 行 403: @@
 ## 3. サンプルごとのクラスターサイズ集計
-a. コンセンサス配列にシーケンスデータをマッピングし、各リードがどのクラスター由来なのか調べる
+a. コンセンサス配列にシーケンスデータをVSEARCHでマッピングし、各リードがどのクラスター由来なのか調べる
 `--usearch_global`, `--db`：dbで指定したファイルに対して相同性検索を行う。
@@ 行 414: / 行 434: @@
 ```
 vsearch --usearch_global consensus2.fa --db MiFish_DB_v50_jap.fasta --id 0.9 --blast6out consensus2.fa.bl6
+```
+上記は魚の12S rRNA配列のデータベースで、元千葉県立中央博物館の宮博士、佐土博士らによってメンテナンスされているデータベース。メタゲノムの場合は下記の通りSILVAのデータベースを使用する。
+Windows
+```
+cmd /c "vsearch --usearch_global consensus2.fa --db silva_v138.2.fasta --id 0.9 --blast6out consensus2.fa.bl6 2> warning.txt"
+```
+Mac
+```
+vsearch --usearch_global consensus2.fa --db silva_v138.2.fasta --id 0.9 --blast6out consensus2.fa.bl6
 ```
@@ 行 435: / 行 469: @@
 python3 deduplicate_abundance.py abundance_normalized.tsv
 ```
+その他調べてみてほしいこととして、最初のシーケンスデータのリード数を確認したり、クラスタリング等を行うたびにどのくらいの数の配列に集約されていったのかを調べてみてほしい。また、可能ならコンセンサス配列のもとになったナノポアのシーケンスデータを抽出して、コンセンサス配列とすることでシーケンスエラーが除去できている様子をマルチプルアライメントを作成して確認してみて。
 ### コマンド入力時の便利キー
@@ 行 443: / 行 479: @@
 |Ctrl+C|コマンド強制終了(blastを実行中に止めたい場合など)|
-## E. データの転送、Excelでの解析
+## 6. Excelでの解析
-ExportしたファイルをExcelで開くには、Excelを起動しておき、ExportしたファイルをExcel上にドラッグアンドドロップすれば良いです。
+ExportしたファイルをExcelで開くには、WindowsではExcelを起動しておき、`abundance_deduplicated.tsv`をExcel上にドラッグアンドドロップすれば良い。
 {{:pasted:20201026-182902.png}}
+Macの場合は、直接ファイルを開くと文字化けするので、いったんテキストエディットなどで開いてから、中身のテキストをExcelにコピー＆ペーストすると良い。
 Excelでデータの概要を把握するのに役立つテクニックとして、条件付き書式を設定することで、データの大小を一目でわかるようにできたりします。
@@ 行 455: / 行 493: @@
 そのほか、「データ」→「フィルター」を使ってみたり、グラフを描いてみたり、Excelの機能で各サンプルでリード数の多い順番に生物種名を並び替えてみるなど。
-## 課題
+## 来週の内容
+各班で下記のテーマを1つ選択し、目的、方法、結果、考察を明確に区別し、15分程度のプレゼンテーション資料を準備する。班ごとに発表し、発表時間は質疑応答を入れて30分程度を予定。
+- 制限酵素処理
+  手法： 特に「制限酵素処理、電気泳動」を詳しく説明
+- 魚肉から魚の品種判別
+  手法： 特に「DNA抽出」を詳しく説明
+- 発酵食品、三四郎池のメタゲノム解析
+  手法： 特に「PCR、切り出し精製」を詳しく説明
+- 三四郎池の環境DNA解析
-- 12SMiFishの結果をすべてマージしたExcelファイルを作成し、学務課へ提出すること。
+  手法： 特に「ナノポアシーケンシング」を詳しく説明
-- 12SMiFishの結果から、三四郎池にはどういう魚がいましたか？和名で答えてください。
+実験方法については、ステップごとにその操作の意味を説明しながら丁寧に行うこと。どういう原理なのか、試薬の組成を調べてみるなど。
+プレゼンテーション資料は、パワーポイントで作成し、Utokyo LMSで提出する。