2025 [講義ノート]

2025

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- 2025 [2025/11/07 02:48] – suikou
+++ 2025 [2025/11/07 15:08] (現在) – [4. コンセンサス配列の生物種名を調べる] suikou
@@ 行 219: / 行 219: @@
 https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm
+TGTTACGGとTGCTAAGGのアライメントを考える。
 {{:pasted:20241018-082033.png}}
+最良のアライメント結果は
+```
+TGTTACGG
+||X||X||
+TGCTAAGG
+```
 ## 相同性検索を高速に行うBLASTプログラム
@@ 行 336: / 行 346: @@
 ## 2. クラスタリング
+最初に…
+```
+pip3 install pandas
+```
 a. まずeDNA、メタゲノムごとにシーケンスデータをひとつのファイルにまとめる。ここではeDNAの場合を説明する。
@@ 行 420: / 行 436: @@
 ```
-上記は魚の12S rRNA配列のデータベースなので、メタゲノムの場合は下記の通りSILVAのデータベースを使用する。
+上記は魚の12S rRNA配列のデータベースで、元千葉県立中央博物館の宮博士、佐土博士らによってメンテナンスされているデータベース。メタゲノムの場合は下記の通りSILVAのデータベースを使用する。
 Windows
@@ 行 453: / 行 469: @@
 python3 deduplicate_abundance.py abundance_normalized.tsv
 ```
+その他調べてみてほしいこととして、最初のシーケンスデータのリード数を確認したり、クラスタリング等を行うたびにどのくらいの数の配列に集約されていったのかを調べてみてほしい。また、可能ならコンセンサス配列のもとになったナノポアのシーケンスデータを抽出して、コンセンサス配列とすることでシーケンスエラーが除去できている様子をマルチプルアライメントを作成して確認してみて。
 ### コマンド入力時の便利キー

2025.1762483730.txt.gz
最終更新: 2025/11/07 02:48
by suikou