2021_11_16

20211116

リモートアクセス

ssh -l accountname ipaddress

「time」コマンドを用いて、コマンド実行にかかる時間、メモリを表示する。↓はメモリ表示の追加コマンド

alias time='/usr/bin/time -f "real time: %E (%e s)\nsystem time: %S s\nuser time:%U s\nmax memory: %M KB"'

SILVAデータベースのダウンロード

 wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz
 

学生実験nanoporeデータのダウンロード

  wget http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip

nanopore.zipの展開

unzip 2021nanopore

SILVAデータベースの展開

gzip -d SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz

SILVAデータベースのmakeblastdb

makeblastdb -in SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta -dbtype nucl

nanoporeフォルダへの移動

cd 2021nanopore/

fatsqファイルのfastaファイルへの変換

awk 'NR%4==1{print ">"substr($1,2)} NR%4==2{print $0}' group2-16S-Sanshiroike1.fq > group2-16S-Sanshiroike1.fasta

vsearchフォルダへの移動

cd ../

Blast検索

time blastn -db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta -query 2021nanopore/group2-16S-Sanshiroike1.fasta -num_threads 16 -out 2021nanopore/group2-16S-Sanshiroike1.fasta.blastn

^Creal time: 3:59.38 (239.38 s)
system time: 45.88 s
user time:3402.65 s
max memory: 332916 KB

nanoporeフォルダへの移動

cd 2021nanopore/

group4-16Sデータのfasta変換

awk 'NR%4==1{print ">"substr($1,2)} NR%4==2{print $0}' group4-16S-Sanshiroike2.fq > group4-16S-Sanshiroike2.fasta

Blast検索

time blastn -db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta -query 2021nanopore/group4-16S-Sanshiroike2.fasta -num_threads 1 -out 2021nanopore/group4-16S-Sanshiroike2.fasta.blastn
real time: 3:42.29 (222.29 s)
system time: 0.11 s
user time:221.29 s
max memory: 254756 KB

同じファイルをvsearch(一致率90%以上)

time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta --id 0.9 --alnout group4-16S

 vsearch v2.18.0_linux_x86_64, 48.0GB RAM, 16 cores
 https://github.com/torognes/vsearch
 Reading file SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta 100%
 744168630 nt in 510508 seqs, min 900, max 3718, avg 1458
 Masking 100%
 Counting k-mers 100%
 Creating k-mer index 100%
 Searching 100%
 Matching unique query sequences: 18 of 40 (45.00%)
 real time: 0:33.37 (33.37 s)
 system time: 0.63 s
 user time:201.71 s
 max memory: 2912392 KB

リモートアクセスの終了

exit

リモートサーバから自分のサーバへのファイル送信

scp -r mizobata@192.168.251.65:/home/mizobata/vsearch/group4-16S desktop

→Blast解析結果とvsearch結果を送信し、エクセル上で「重複除去」などを用いて精度を確認する。

vsearchの一致率90%検索では全リードに対して候補を得られなかったため、70%に落として再検索

time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta --id 0.7 --blast6out group4-16S

vsearch v2.18.0linuxx8664, 48.0GB RAM, 16 cores https://github.com/torognes/vsearch Reading file SILVA138.1SSURefNR99taxsilva_trunc.fasta 100%

744168630 nt in 510508 seqs, min 900, max 3718, avg 1458
Masking 100%
Counting k-mers 100%
Creating k-mer index 100%
Searching 100%
Matching unique query sequences: 40 of 40 (100.00%)
real    0m32.963s
user    3m20.277s
sys     0m0.567s

vsearchでは毎回index作成(makeblastdbのようなもの)するため、何度も検索をかける場合は先にDBを構築しておく方が効率的である↓

time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta --id 0.7 --blast6out group4-16S

vsearch v2.18.0_linux_x86_64, 48.0GB RAM, 16 cores
https://github.com/torognes/vsearch
Reading file SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta 100%
744168630 nt in 510508 seqs, min 900, max 3718, avg 1458
Masking 84%^C
real    0m10.570s
user    2m30.415s
sys     0m0.219s

これにより、vsearchの所要時間が3分半から7秒に短縮された。↓

time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.udb --id 0.7 --blast6out group4-16S
vsearch v2.18.0_linux_x86_64, 48.0GB RAM, 16 cores
https://github.com/torognes/vsearch
Reading UDB file SILVA_138.1_SSURef_NR99_tax_silva_trunc.udb 100%
Reorganizing data in memory 100%
Creating bitmaps 100%
Parsing abundances 100%
744168630 nt in 510508 seqs, min 900, max 3718, avg 1458
Searching 100%
Matching unique query sequences: 40 of 40 (100.00%)
real    0m7.234s
user    0m4.321s
sys     0m1.216s
  • 2021_11_16.1637069182.txt.gz
  • 最終更新: 2021/11/16 13:26
  • by 133.11.222.89