**文書の過去の版を表示しています。**
20210729
ntデータベースにBLAST検索した時に魚類以外にヒットする問題に関して
- ntデータベースにBLAST検索をかけて作成したInputファイルの上位にオオカミ(Canis lupus),サンショウウオ(Desmognathus folkertsi),クロテン(Martes zibellina),ジャノメドリ(Eurypyga helias)が現れることが多々発生した。
- 可能性として、アダプタープライマーがシーケンスで読まれており、同じアダプターを使用したサンプルはntデータベース上でヒットしている可能性がある。
アダプタープライマー配列へのBLAST検索
MiFishの論文(https://royalsocietypublishing.org/doi/10.1098/rsos.150088#d3e799)にあるプライマーの配列とIlluminaのアダプター配列データベースから取得した配列(https://raw.githubusercontent.com/NCBI-Hackathons/OnlineAdapterDatabase/master/datasources/sequencing_adapters.fa)をマージしたFastaファイルからBLASTデータベースを作成し、魚類以外にヒットしたリードをBLAST検索した。
BLASTデータベース作成
makeblastdb -in adapters.fa -dbtype nucl
魚類以外にヒットしたリードからヒットした配列のみを抽出する方法
1.魚類以外にヒットしたリードからヒットしたリード名とヒットした場所を調べる。
cat /suikou/files/m768b/ito.takumi/work/mitosearch/create_input/tmp/DRR159194/blast.nt.result |grep Canis
上記コマンドから1列目(Ex.DRR159194.100)と9列目、10列目(Ex.23 50)を調べる。
2.samtoolsを使って、ヒット箇所の配列を取得。
samtools faidx /suikou/files/m768b/ito.takumi/work/mitosearch/create_input/tmp/DRR159194/out.extendedFrags.fasta DRR159194.100:23-50 > input/DRR159194.112.fa