差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン 前のリビジョン 次のリビジョン | 前のリビジョン | ||
20210624 [2021/06/24 05:26] – 133.11.144.10 | 20210624 [Unknown date] (現在) – 削除 - 外部編集 (Unknown date) 127.0.0.1 | ||
---|---|---|---|
行 1: | 行 1: | ||
- | ====== 20210624 ====== | ||
- | ====== 内部スクリプトの作成 ====== | ||
- | |||
- | ===== Flashの使い方 ===== | ||
- | |||
- | こちらのページを参考にした。[[https:// | ||
- | |||
- | ==== Flashとは ==== | ||
- | ペアエンドリード間の正確なオーバーラップを検出し、それらをつなぎ合わせてリードを拡張するソフトウェアツール(Paired-end read assembly) | ||
- | |||
- | ==== Paired-end read assemblyとは ==== | ||
- | Paired-end read assemblyというのは、MiFishプライマーで増幅されるのはせいぜい200塩基程度だが、HISeqなどで読むと、片側150塩基のペアエンドデータが得られるので、パラメータによりますが20〜30塩基以上重なる領域があれば、ペアエンドをつなげて一本のシングルエンドにしてしまうこと | ||
- | |||
- | ==== コマンド ==== | ||
- | |||
- | 以下のコマンドを実行することでPaired-end read assemblyが実行できる。 | ||
- | |||
- | flash pair1.fq(.gz) pair2.fq(.gz) | ||
- | |||
- | マージされたシーケンスデータは '' | ||
- | |||
- | また'' | ||
- | |||
- | flash pair1.fq(.gz) pair2.fq(.gz) -d dir/ | ||
- | |||
- | gz圧縮されたファイルもそのまま使用することができるが、出力はfastq形式(解凍された状態)になる。 | ||
- | |||
- | ==== オーバーラップのサイズのパラメータの設定 ==== | ||
- | |||
- | '' | ||
- | |||
- | MiFishプライマーで増幅されるのはせいぜい200塩基程度、HISeqなどで読むと、片側150塩基のペアエンドデータが得られることからオーバーラップは100塩基程度と想定される。 | ||
- | |||
- | 今回はMinのオーバーラップのサイズはデフォルトの10塩基、Maxのオーバーラップのサイズは300塩基で指定した。 | ||
- | |||
- | flash pair1.fq(.gz) pair2.fq(.gz) -d dir/ -M 300 | ||
- | |||
- | ===== Fastqファイル⇒Fastaファイルへの変換 ===== | ||
- | |||
- | こちらのページを参照[[https:// | ||
- | |||
- | awk '(NR - 1) % 4 < 2' test.fq | sed ' | ||
- | |||
- | ===== BLAST検索 ===== | ||
- | |||
- | 変換したFastaファイルをntデータベースとMitoFishデータベースに対してBLAST検索を行う。 | ||
- | |||
- | ntデータベースは''/ | ||
- | |||
- | MitoFishデータベースは自分でダウンロードする必要がある。 | ||
- | |||
- | ===== inputファイル作成 ===== | ||
- | |||
- | blastの検索結果から、各リードでトップヒットしたアセッションIDを集計していく。 | ||
- | |||
- | このアセッションIDに対応する生物種を ''/ | ||
- | |||
- | 対応するタクソノミーを ''/ | ||
- | |||
- | これらの情報を元にInputファイルを作成。 | ||
- | |||
- | このスクリプトは吉武先生が作成。 |