20210728

20210728

・SRR5877065が未終了。Blastが動作しており、書き込みが続いていることを確認。

・リード数がペアエンド間で異なるシーケンスデータに関しては、片側のみを用いるように変更。

・5readのシーケンスデータを用いて、ntデータベースにBlast検索を行う。1readあたりの時間を算出。

以下概算

blast 10:52~11:05 15min/5read

3min/read

シーケンスデータ数 1798 ≒ 1800

1sample辺り 1万リード (1.8 * 10^3) * (1 * 10^4)read * 3min/read = 5.4 * 10^7 min = 54000000 = 5400万 min = 90万 h = 3.75万 日 = (10CPU: 3750日) = (30台:100日)

1sample辺り nリード (1.8 * 10^3) * n read * 3min/read = 5400n min = 90n hour = 3.75n days

mitoFishのデータベースの場合、人のDNAがコンタミしていた場合でも、サメの12Sの配列と認識してしまう可能性があり、一致率を検討してあげる必要がある。

以下の2点について調べる。

・ntデータベースとMitoFishデータベースによるinputファイルの違い。

・Blast結果ファイルに記述されているIndentityの値など。

以下のスクリプトを実行した。

run_gridcompute.sh

#sample data(Ex:/suikou/files/m208/ito.takumi/work/mitosearch/create_input/sample.txt)
sample=$1

#run grid engine
for prefix in `cat ${sample}` ;do runGE-8cpu-128gb-512gb-machine bash /suikou/files/m208/ito.takumi/work/mitosearch/test_data/compare/script/create_input_ver3.sh ${prefix} ;done
  • 20210728.1627456534.txt.gz
  • 最終更新: 2021/07/28 07:15
  • by 133.11.144.10