blast結果のidからdbにマッチする行を再検索

blast結果のidからデータベース内で該当する行を再検索

nr等にblastした場合、通常の設定だとresultとして得られるのは遺伝子のアクセッションIDのみ。結局ヒットした遺伝子の生物種など詳細な情報が知りたいので、アクセッションIDでDB内を再検索する必要がある。nr等の巨大なDBでgrepするのは例え-mに1を加えても効率が悪すぎるため、ソートしたDBのヘッダー行を用いて二分探索を行う。これにより計算時間がlog2に減少する。

while read line; do look $(echo $line | sed -e 's/\..\+$//g') ~/work/DBforBLAST/prot/headerNR.sortedTR; done < <(cut -f2 DIDNOTHIT.bothToZ_nr.blast) > res_NRblast/NRres.getSpecies
 
#DIDNOTHIT.bothToZ_nr.blastの2列目を1行ずつクエリーとする
#アクセッションIDの末尾の.以下はバージョンにより違うので削除する(sedの部分)
#lookで二分探索
  • blast結果のidからdbにマッチする行を再検索.1531129070.txt.gz
  • 最終更新: 2018/07/09 09:37
  • by 133.11.222.89