**文書の過去の版を表示しています。**
20211116
リモートアクセス
ssh -l accountname ipaddress
「time」コマンドを用いて、コマンド実行にかかる時間、メモリを表示する。↓はメモリ表示の追加コマンド
alias time='/usr/bin/time -f "real time: %E (%e s)\nsystem time: %S s\nuser time:%U s\nmax memory: %M KB"'
SILVAデータベースのダウンロード
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz
学生実験nanoporeデータのダウンロード
wget http://suikou.fs.a.u-tokyo.ac.jp/yosh_data/2021jissyu/2021nanopore.zip
nanopore.zipの展開
unzip 2021nanopore
SILVAデータベースの展開
gzip -d SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta.gz
SILVAデータベースのmakeblastdb
makeblastdb -in SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta -dbtype nucl
nanoporeフォルダへの移動
cd 2021nanopore/
fatsqファイルのfastaファイルへの変換
awk 'NR%4==1{print ">"substr($1,2)} NR%4==2{print $0}' group2-16S-Sanshiroike1.fq > group2-16S-Sanshiroike1.fasta
vsearchフォルダへの移動
cd ../
Blast検索
time blastn -db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta -query 2021nanopore/group2-16S-Sanshiroike1.fasta -num_threads 16 -out 2021nanopore/group2-16S-Sanshiroike1.fasta.blastn ^Creal time: 3:59.38 (239.38 s) system time: 45.88 s user time:3402.65 s max memory: 332916 KB
nanoporeフォルダへの移動
cd 2021nanopore/
group4-16Sデータのfasta変換
awk 'NR%4==1{print ">"substr($1,2)} NR%4==2{print $0}' group4-16S-Sanshiroike2.fq > group4-16S-Sanshiroike2.fasta
Blast検索
time blastn -db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta -query 2021nanopore/group4-16S-Sanshiroike2.fasta -num_threads 1 -out 2021nanopore/group4-16S-Sanshiroike2.fasta.blastn
real time: 3:42.29 (222.29 s) system time: 0.11 s user time:221.29 s max memory: 254756 KB
同じファイルをvsearch(一致率90%以上)
time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta --id 0.9 --alnout group4-16S vsearch v2.18.0_linux_x86_64, 48.0GB RAM, 16 cores https://github.com/torognes/vsearch Reading file SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta 100% 744168630 nt in 510508 seqs, min 900, max 3718, avg 1458 Masking 100% Counting k-mers 100% Creating k-mer index 100% Searching 100% Matching unique query sequences: 18 of 40 (45.00%) real time: 0:33.37 (33.37 s) system time: 0.63 s user time:201.71 s max memory: 2912392 KB
リモートアクセスの終了
exit
リモートサーバから自分のサーバへのファイル送信
scp -r mizobata@192.168.251.65:/home/mizobata/vsearch/group4-16S desktop
→Blast解析結果とvsearch結果を送信し、エクセル上で「重複除去」などを用いて精度を確認する。
vsearchの一致率90%検索では全リードに対して候補を得られなかったため、70%に落として再検索
time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta --id 0.7 --blast6out group4-16S
vsearch v2.18.0linuxx8664, 48.0GB RAM, 16 cores https://github.com/torognes/vsearch Reading file SILVA138.1SSURefNR99taxsilva_trunc.fasta 100%
744168630 nt in 510508 seqs, min 900, max 3718, avg 1458 Masking 100% Counting k-mers 100% Creating k-mer index 100% Searching 100% Matching unique query sequences: 40 of 40 (100.00%) real 0m32.963s user 3m20.277s sys 0m0.567s
vsearchでは毎回index作成(makeblastdbのようなもの)するため、何度も検索をかける場合は先にDBを構築しておく方が効率的である↓
time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta --id 0.7 --blast6out group4-16S vsearch v2.18.0_linux_x86_64, 48.0GB RAM, 16 cores https://github.com/torognes/vsearch Reading file SILVA_138.1_SSURef_NR99_tax_silva_trunc.fasta 100% 744168630 nt in 510508 seqs, min 900, max 3718, avg 1458 Masking 84%^C real 0m10.570s user 2m30.415s sys 0m0.219s
これにより、vsearchの所要時間が3分半から7秒に短縮された。↓
time vsearch --usearch_global 2021nanopore/group4-16S-Sanshiroike2.fasta --db SILVA_138.1_SSURef_NR99_tax_silva_trunc.udb --id 0.7 --blast6out group4-16S
vsearch v2.18.0_linux_x86_64, 48.0GB RAM, 16 cores https://github.com/torognes/vsearch Reading UDB file SILVA_138.1_SSURef_NR99_tax_silva_trunc.udb 100% Reorganizing data in memory 100% Creating bitmaps 100% Parsing abundances 100% 744168630 nt in 510508 seqs, min 900, max 3718, avg 1458 Searching 100% Matching unique query sequences: 40 of 40 (100.00%) real 0m7.234s user 0m4.321s sys 0m1.216s