**文書の過去の版を表示しています。**
20210729
ntデータベースにBLAST検索した時に魚類以外にヒットする問題に関して
- ntデータベースにBLAST検索をかけて作成したInputファイルの上位にオオカミ(Canis lupus),サンショウウオ(Desmognathus folkertsi),クロテン(Martes zibellina),ジャノメドリ(Eurypyga helias)が現れることが多々発生した。
- 可能性として、アダプタープライマーがシーケンスで読まれており、同じアダプターを使用したサンプルはntデータベース上でヒットしている可能性がある。
アダプタープライマー配列へのBLAST検索
MiFishの論文(https://royalsocietypublishing.org/doi/10.1098/rsos.150088#d3e799)にあるプライマーの配列とIlluminaのアダプター配列データベースから取得した配列(https://raw.githubusercontent.com/NCBI-Hackathons/OnlineAdapterDatabase/master/datasources/sequencing_adapters.fa)をマージしたFastaファイルからBLASTデータベースを作成し、魚類以外にヒットしたリードをBLAST検索した。
BLASTデータベース作成
makeblastdb -in adapters.fa -dbtype nucl
魚類以外にヒットしたリードからヒットした配列のみを抽出する方法
1.魚類以外にヒットしたリードからヒットしたリード名とヒットした場所を調べる。
cat /suikou/files/m768b/ito.takumi/work/mitosearch/create_input/tmp/DRR159194/blast.nt.result |grep Canis
上記コマンドから1列目(Ex.DRR159194.100)と9列目、10列目(Ex.23 50)を調べる。
2.samtoolsを使って、ヒット箇所の配列を取得。
samtools faidx /suikou/files/m768b/ito.takumi/work/mitosearch/create_input/tmp/DRR159194/out.extendedFrags.fasta DRR159194.100:23-50 > input/DRR159194.112.fa
3.BLAST検索
blastn -query input/DRR159194.112.fa -db db/adapters.fa -out result/DRR159194.112.result
Canis lupusで3read、Martesで2readに対して検索を行ったが、アダプター配列と相同性は見られなかった。
マージ後のリード数とヒットする生物の関係
ntデータベースへのBlast検索から作成したInputファイルについて、Inputファイルの上位に出現する生物種とその生物種へのヒットの仕方をBLASTの結果ファイルから確認した。
やり方は以下の通り。
1.Inputファイルの上位4種を抽出
cat DRR159194.nt.input |head -n 5
2.ブラウザで生物種を確認。
3.ntデータベースへのBlast検索の結果を確認。
cat /suikou/files/m768b/ito.takumi/work/mitosearch/create_input/tmp/DRR205394/blast.nt.result |grep Enneapterygiu|less
これにより以下のことが分かった。
- 魚類にヒットしているリードについてはマージ後のリードの塩基数は200塩基程度のものがほとんどであった。(確認した範囲でそれ以外の長さのリードは見られなかった。)
- 魚類以外にヒットしたリードについてはマージ後のリードの塩基数は50塩基程度のものが多かったが、一部200塩基程度のものも見られた。
そのためマージしたリードのうち、50塩基程度の短いリードについては全て除去しても問題ないと考えられる。しかし200塩基程度のリードの中にも魚類以外にヒットするリードが一部存在するため、これを除去する必要がある。