**文書の過去の版を表示しています。**
AccessionIDからTaxonomy Pathへの変換
AccessionID⇒Taxonomy IDへの変換、Taxonomy ID⇒Taxonomy Pathへの変換の2段階で変換を行う。
AccessionID⇒Taxonomy IDへの変換
データのダウンロード
ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/ からnucl_gb.accession2taxid.gz
をダウンロード
研究室のサーバを使用する場合は
/suikou/db/ncbi/2021-08-10accession2taxid/nuclgb.accession2taxid.gz
にあるファイルを使用すればよい。
変換
echo $accessionID | awk -v accessionID=${accessionID} '{if($1==accessionID){print $0}}' nucl_gb.accession2taxid |cut -f 3
nucl_gb.accession2taxid は以下のようなファイル。
1行目がAccessionID、3行目がTaxonomyIDである。awkで1行目が該当AccessionIDと一致する行を取得し、cutコマンドでTaxonomyIDを取得する。
Taxonomy ID->Taxonomy PATHの変換
データのダウンロード
ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz からダウンロード
研究室のサーバを使用する場合は、
/suikou/db/ncbi/2021-06-01_taxdump/names.dmp.sname.path
を使用すればよい。
変換
awk -v taxID=$(cat) '{if($1==taxID){print $0}}' names.dmp.sname.path |cut -f 2
※AccessionID⇒TaxonomyIDの変換スクリプトとパイプでつないでいるものとする。
names.dmp.sname.pathは以下のようなファイル
1行目が該当TaxonomyIDと一致する行を取得し、2行目のTaxonomy PATHを取得する。
ワンライナーで変換
実際に使用したスクリプトはこちら。
taxonomyPath=$(echo $accessionID | awk -v accessionID=${accessionID} '{if($1==accessionID){print $0}}' /suikou/files/m768b/ito.takumi/work/20210810_nucl_gb.accession2taxid/nucl_gb.accession2taxid |cut -f 3 |awk -v taxID=$(cat) '{if($1==taxID){print $0}}' /suikou/db/ncbi/2021-06-01_taxdump/names.dmp.sname.path |cut -f 2 )