**文書の過去の版を表示しています。**
de novo RNA-seqについて
Portable Pipelineで一連の解析が自動で実行されますが、中身を説明すると次のようなツールが使われています。
解析の流れとしては、下記のとおり。
- Trinityでトランスクリプトームアセンブル https://github.com/trinityrnaseq/trinityrnaseq/wiki
- kallistoでマッピングおよび発現量定量 https://pachterlab.github.io/kallisto/
- Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
- blastnでNCBI NTデータベースを検索してアノテーション
- DESeq2, edgeR, sleuthによる二群間比較検定 https://bioconductor.org/packages/release/bioc/html/DESeq2.html
使い方
- 「work」フォルダ以下に適当なフォルダを作り(例:mkdir ~/work/test-denovo)、その中にinput1などと適当にFASTQを入れるディレクトリを作る(例:mkdir ~/work/test-denovo/input1)。そしてIlluminaペアエンドシーケンスファイルを置く。FASTQファイルもしくはgz圧縮されたFASTQファイル(fastq.gz)に対応。singularityやdockerを内部で使っていますが、その際にコマンドを実行しているフォルダ以下しか使えないので、FASTQなどは今いるフォルダの下にコピーしておく必要があります。
- 適当にsample.txtなどというファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集は
gedit
を使うと楽かも) sample.txt - ターミナルを開いて、ファイルを置いたフォルダに移動する(例:cd ~/work/test-denovo)。
- IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。
/suikou/tool/yoshitake/pp/RNA-seq~Trinity-kallisto-sleuth input_1 sample.txt
もしもSRAなどのデータを使うとき、strand specificかわからない場合は、/suikou/tool/yoshitake/pp/RNA-seq~Trinity-kallisto-sleuth -t "" -k "" input_1 sample.txt
でよい。 - 数日~数週間待つと次のような結果ファイルが得られる。 0_result.html
- 結果ファイルを開くには、自分のPCにダウンロードしても良いし、サーバ上で
firefox 0_result.html
と入力しても良い。 - アセンブルしたコンティグのN50などを計算したい場合は、
TrinityStats.pl Trinity.fasta
を実行する。 - マッピング状況をゲノムブラウザで可視化したい場合は、IGVの使い方を参照。
以下は古いバージョン
解析の流れとしては、下記のとおり。
- Trinityでトランスクリプトームアセンブル https://github.com/trinityrnaseq/trinityrnaseq/wiki
- kallistoでマッピングおよび発現量定量 https://pachterlab.github.io/kallisto/
- Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
- blastnでNCBI NTデータベースを検索してアノテーション
- DESeq2による二群間比較検定 https://bioconductor.org/packages/release/bioc/html/DESeq2.html
使い方
- 「work」フォルダ以下に適当なフォルダを作り(例:mkdir ~/work/test-denovo)、その中にIlluminaペアエンドシーケンスファイルを置く(gz圧縮されたFASTQファイルであること)。
- 次のファイルと同じファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集は
gedit
を使うと楽かも) sample.txt - ターミナルを開いて、ファイルを置いたフォルダに移動する(例:cd ~/work/test-denovo)。
- IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。
script-RNAseq-denovo-pairedend.sh RF
もしもSRAなどのデータを使うとき、strand specificかわからない場合は、単にscript-RNAseq-denovo-pairedend.sh
でよい。 - 数週間待つと次のような結果ファイルが得られる。 0_index.html
- 結果ファイルを開くには、自分のPCにダウンロードしても良いし、サーバ上で
firefox 0_index.html
と入力しても良い。
おまけ
- 実行されたスクリプト本体は、フォルダの中にscript-RNAseq-denovo-strandspecific-pairedend-main.shとしてコピーされている。
- FASTQCを実行したい場合は、ファイルを入れたフォルダに移動して、
run-multi-fastqc.sh
を実行すれば、次のような結果ファイルが得られる。 index.html - アセンブルしたコンティグのN50などを計算したい場合は、
abyss-fac Trinity.fasta
を実行する。 - マッピング状況をゲノムブラウザで可視化したい場合は、IGVの使い方を参照。