de novo RNA-seqについて

Portable Pipelineで一連の解析が自動で実行されますが、中身を説明すると次のようなツールが使われています。

Trinityでトランスクリプトームアセンブル https://github.com/trinityrnaseq/trinityrnaseq/wiki
kallistoでマッピングおよび発現量定量 https://pachterlab.github.io/kallisto/
Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
blastnでNCBI NTデータベースを検索してアノテーション
DESeq2, edgeR, sleuthによる二群間比較検定 https://bioconductor.org/packages/release/bioc/html/DESeq2.html

サーバにログインする。データ量にも依るがメモリ90GB以上のサーバを選ぶほうが無難。windowsから, macから
「work」フォルダ以下に適当なフォルダを作り(例：mkdir ~/work/test-denovo)、その中にinput1などと適当にFASTQを入れるディレクトリを作る（例：mkdir ~/work/test-denovo/input1）。そしてIlluminaペアエンドシーケンスファイルを置く。FASTQファイルもしくはgz圧縮されたFASTQファイル(fastq.gz)に対応。singularityやdockerを内部で使っていますが、その際にコマンドを実行しているフォルダ以下しか使えないので、FASTQなどは今いるフォルダの下にコピーしておく必要があります。
適当にsample.txtなどというファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集はgeditを使うと楽かも) sample.txt
ターミナルを開いて、ファイルを置いたフォルダに移動する(例：cd ~/work/test-denovo)。
IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。 /suikou/tool9/yoshitake/pp/pp RNA-seq~Trinity-kallisto-sleuth input_1 sample.txt もしもSRAなどのデータを使うとき、strand specificかわからない場合は、 /suikou/tool9/yoshitake/pp/pp RNA-seq~Trinity-kallisto-sleuth -t "" -k "" input_1 sample.txt でよい。
数日～数週間待つと次のような結果ファイルが得られる。 0_result.html
結果ファイルを開くには、自分のPCにダウンロードしても良いし、サーバ上でfirefox 0_result.htmlと入力しても良い。
アセンブルしたコンティグのN50などを計算したい場合は、TrinityStats.pl Trinity.fastaを実行する。
マッピング状況をゲノムブラウザで可視化したい場合は、IGVの使い方を参照。

Trinityでトランスクリプトームアセンブル https://github.com/trinityrnaseq/trinityrnaseq/wiki
kallistoでマッピングおよび発現量定量 https://pachterlab.github.io/kallisto/
Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
blastnでNCBI NTデータベースを検索してアノテーション
DESeq2による二群間比較検定 https://bioconductor.org/packages/release/bioc/html/DESeq2.html

サーバにログインする。データ量にも依るがメモリ90GB以上のサーバを選ぶほうが無難。windowsから, macから
「work」フォルダ以下に適当なフォルダを作り(例：mkdir ~/work/test-denovo)、その中にIlluminaペアエンドシーケンスファイルを置く(gz圧縮されたFASTQファイルであること)。
次のファイルと同じファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集はgeditを使うと楽かも) sample.txt
ターミナルを開いて、ファイルを置いたフォルダに移動する(例：cd ~/work/test-denovo)。
IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。 script-RNAseq-denovo-pairedend.sh RF もしもSRAなどのデータを使うとき、strand specificかわからない場合は、単に script-RNAseq-denovo-pairedend.sh でよい。
数週間待つと次のような結果ファイルが得られる。 0_index.html
結果ファイルを開くには、自分のPCにダウンロードしても良いし、サーバ上でfirefox 0_index.htmlと入力しても良い。

実行されたスクリプト本体は、フォルダの中にscript-RNAseq-denovo-strandspecific-pairedend-main.shとしてコピーされている。
FASTQCを実行したい場合は、ファイルを入れたフォルダに移動して、run-multi-fastqc.shを実行すれば、次のような結果ファイルが得られる。 index.html
アセンブルしたコンティグのN50などを計算したい場合は、abyss-fac Trinity.fastaを実行する。
マッピング状況をゲノムブラウザで可視化したい場合は、IGVの使い方を参照。