差分

このページの2つのバージョン間の差分を表示します。

--- 2025 [2025/11/03 00:42] – [各Small Sub Unit (SSU)とLarge Sub Unit (LSU)の名前] suikou
+++ 2025 [2025/11/07 15:08] (現在) – [4. コンセンサス配列の生物種名を調べる] suikou
@@ 行 25: / 行 25: @@
 {{:pasted:20251102-174358.png?600}}
-また、チーズ、ヨーグルト、ぬか漬け、塩辛といったバクテリアによる発酵食品からDNAを抽出し、バクテリアDNAを増幅するためのPCR、シーケンスを行った。
+また、バクテリアによる発酵食品からDNAを抽出した。
+班 キムチ、2班 ぬかづけ、3班 塩辛、4班 ヨーグルト
 ### PCR結果
@@ 行 31: / 行 33: @@
 PCR増幅したプライマーの種類
-|サンプル|プライマー領域|対象生物|アダプターの付いたPCR断片長|
+|サンプル|プライマー名、配列|増幅する領域|対象生物|PCR断片長|
-|三四郎池の水|ミトコンドリア12S rRNA|魚|200 bp強（300 bp強にバクテリア由来の非特異的なバンドも増えることが多い）|
+|三四郎池の水|MiFish-U-F: GTCGGTAAAACTCGTGCCAGC, MiFish-U-R: CATAGTGGGGTATCTAATCCCAGTTTG|ミトコンドリア12S rRNA|魚|プライマーを入れると200 bp強、プライマー部分を削ると170 bp程度（300 bp強にバクテリア由来の非特異的なバンドも増えることが多い）|
-|三四郎池の水|バクテリア16S rRNA|バクテリア|1,500 bp程度|
+|三四郎池の水|27F: AGAGTTTGATCMTGGCTCAG, 1492R: GGTTACCTTGTTACGACTT|バクテリア16S rRNA全長|バクテリア|1,500 bp程度|
-|発酵食品|バクテリア16S rRNA|バクテリア|1,500 bp程度|
+|発酵食品|27F: AGAGTTTGATCMTGGCTCAG, 1492R: GGTTACCTTGTTACGACTT|バクテリア16S rRNA全長|バクテリア|1,500 bp程度|
+皆さんが実際に使用したのは、上記のプライマーの配列にサンプルを区別するためのバーコード配列がついたものを使用しています。この後配布するシーケンスデータは、上記のプライマーやバーコード部分をトリミング（削除）してあります。
 ---
@@ 行 54: / 行 58: @@
 {{:pasted:20251102-174258.png?600}}
-### シーケンス結果
+### シーケンス結果（上限を10万リードにダウンサンプリングしてあります）
 |ファイル名|リード数|平均リード長 (bp)|
@@ 行 119: / 行 123: @@
 |  出典：https://academic.oup.com/hmg/article/23/4/949/635888|
-### 使用したプライマー
-- バクテリア16S全長 プライマー部分を除くと1,400-1,500 bp程度のDNA断片
-|プライマーの名前|配列|
-|バクテリア16S全長 Forward (27F)|AGAGTTTGATCMTGGCTCAG|
-|バクテリア16S全長 Reverse (1492R)|GGTTACCTTGTTACGACTT|
-- ミトコンドリア12S MiFish プライマー部分を除くと170 bp程度のDNA断片
-|プライマーの名前|配列|
-|ミトコンドリア12S MiFish Forward (MiFish-U-F)|GTCGGTAAAACTCGTGCCAGC|
-|ミトコンドリア12S MiFish Reverse (MiFish-U-R)|CATAGTGGGGTATCTAATCCCAGTTTG|
-皆さんに配布するシーケンスデータはナノポアのアダプターや上記のプライマー部分をトリミング（削除）してあります。
 ### 同種、同属、同科での配列の一致率の閾値
@@ 行 229: / 行 219: @@
 https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm
+TGTTACGGとTGCTAAGGのアライメントを考える。
 {{:pasted:20241018-082033.png}}
+最良のアライメント結果は
+```
+TGTTACGG
+||X||X||
+TGCTAAGG
+```
 ## 相同性検索を高速に行うBLASTプログラム
@@ 行 257: / 行 257: @@
 BLASTの出力でE-valueは、指数表記で表されるので注意。例えば、「10<sup>-4</sup>」は「1.0e-4」と表記される。相同性のあるなしに関しての目安としては、（私は）DNAの場合E-valueが1e-10以下、タンパク質の場合1e-5以下であれば相同性がある（かもと思っている）。BLASTではE-valueが1e-150あたりよりも小さくなると「0」として丸めて表示される。
-メタゲノム解析ではE-valueよりも一致率のほうが直感的であり、16S rRNAの場合に一般的には98%以上の一致率で同種であると言われる。ただし、分類群によっては属が違っても一致率100%ということがありうる。
+BLASTの結果では通常E-valueを見るが、メタゲノム解析ではE-valueよりも一致率のほうが直感的であり、16S rRNAの場合に一般的には98%以上の一致率で同種であると言われる。ただし、分類群によっては属が違っても一致率100%ということがありうる。
 ### BLASTより高速な相同性検索ツール
@@ 行 346: / 行 346: @@
 ## 2. クラスタリング
+最初に…
+```
+pip3 install pandas
+```
 a. まずeDNA、メタゲノムごとにシーケンスデータをひとつのファイルにまとめる。ここではeDNAの場合を説明する。
@@ 行 363: / 行 369: @@
 メタゲノムの場合は、`*eDNA.fasta`を`*metagenome.fasta`もしくは`*food.fasta`に変更し、`all-eDNA.fasta`も`all-metagenome.fasta`, `all-food.fasta`などと適当に変更すること。
-b. まとめたデータをクラスタリングする
+b. まとめたデータをVSEARCHでクラスタリングする
 `--cluster_fast`：入力された塩基配列を長さ順にソートしてクラスタリングを行う。クラスターの代表配列としてリード長の長いリードが出力される。
@@ 行 383: / 行 389: @@
 ```
-d. コンセンサス配列を再度クラスタリングすることで、シーケンスエラーをさらに除去
+d. コンセンサス配列を再度VSEARCHでクラスタリングすることで、シーケンスエラーをさらに除去
 `--cluster_size`：クラスターの大きさ順にソートしてからクラスタリング。クラスターサイズの大きい配列が出力される。
@@ 行 397: / 行 403: @@
 ## 3. サンプルごとのクラスターサイズ集計
-a. コンセンサス配列にシーケンスデータをマッピングし、各リードがどのクラスター由来なのか調べる
+a. コンセンサス配列にシーケンスデータをVSEARCHでマッピングし、各リードがどのクラスター由来なのか調べる
 `--usearch_global`, `--db`：dbで指定したファイルに対して相同性検索を行う。
@@ 行 430: / 行 436: @@
 ```
-上記は魚の12S rRNA配列のデータベースなので、メタゲノムの場合は下記の通りSILVAのデータベースを使用する。
+上記は魚の12S rRNA配列のデータベースで、元千葉県立中央博物館の宮博士、佐土博士らによってメンテナンスされているデータベース。メタゲノムの場合は下記の通りSILVAのデータベースを使用する。
 Windows
@@ 行 463: / 行 469: @@
 python3 deduplicate_abundance.py abundance_normalized.tsv
 ```
+その他調べてみてほしいこととして、最初のシーケンスデータのリード数を確認したり、クラスタリング等を行うたびにどのくらいの数の配列に集約されていったのかを調べてみてほしい。また、可能ならコンセンサス配列のもとになったナノポアのシーケンスデータを抽出して、コンセンサス配列とすることでシーケンスエラーが除去できている様子をマルチプルアライメントを作成して確認してみて。
 ### コマンド入力時の便利キー
@@ 行 473: / 行 481: @@
 ## 6. Excelでの解析
-ExportしたファイルをExcelで開くには、WindowsではExcelを起動しておき、ExportしたファイルをExcel上にドラッグアンドドロップすれば良い。
+ExportしたファイルをExcelで開くには、WindowsではExcelを起動しておき、`abundance_deduplicated.tsv`をExcel上にドラッグアンドドロップすれば良い。
 {{:pasted:20201026-182902.png}}
@@ 行 487: / 行 495: @@
 ## 来週の内容
-各班次の内容について「目的」、「方法」、「結果」、「考察」の4つのパートを明確に区別してプレゼンテーションを作成してください。班ごとに発表し、発表時間は質疑応答を入れて30分。
+各班で下記のテーマを1つ選択し、目的、方法、結果、考察を明確に区別し、15分程度のプレゼンテーション資料を準備する。班ごとに発表し、発表時間は質疑応答を入れて30分程度を予定。
-```
+- 制限酵素処理
-X班．制限酵素処理
-X班．食品の品種判別 by サンガー
+  手法： 特に「制限酵素処理、電気泳動」を詳しく説明
-X班．三四郎池のeDNA
-X班．三四郎池, 発酵食品のメタゲノム
+- 魚肉から魚の品種判別
-```
+  手法： 特に「DNA抽出」を詳しく説明
+- 発酵食品、三四郎池のメタゲノム解析
+  手法： 特に「PCR、切り出し精製」を詳しく説明
+- 三四郎池の環境DNA解析
-## 課題
+  手法： 特に「ナノポアシーケンシング」を詳しく説明
-来週のプレゼン資料の完成版をファイルに保存して、発表時に提出すること。
+実験方法については、ステップごとにその操作の意味を説明しながら丁寧に行うこと。どういう原理なのか、試薬の組成を調べてみるなど。
+プレゼンテーション資料は、パワーポイントで作成し、Utokyo LMSで提出する。