**文書の過去の版を表示しています。**
参照配列ありの場合のRNA-seqについて
解析の流れとしては、下記のとおり。
- HISAT2でスプライスサイトを考慮してゲノムにマッピング https://ccb.jhu.edu/software/hisat2/index.shtml
- Cufflinksでゲノム中の転写領域を抽出 http://cole-trapnell-lab.github.io/cufflinks/
- 未知のtranscriptもあり得るので、Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
- blastnでNCBI NTデータベースを検索してアノテーション
- Cuffquant (in Cufflinks package)でgene, transcript単位での発現量算出。
- Cuffdiff (in Cufflinks package)で二群間の比較定量。
使い方
- 「work」フォルダ以下に適当なフォルダを作り(例:mkdir ~/work/test-withref)、その中にIlluminaペアエンドシーケンスファイルを置く(gz圧縮されたFASTQファイルであること)。
- 次のファイルと同じファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集は
gedit
を使うと楽かも) sample.txt - リファレンスゲノム配列(FASTA形式)をシーケンスデータと同じフォルダに置く(gz圧縮されたFASTAでも、未圧縮のFASTAでも可能)
- リファレンスゲノムのアノテーションファイル(GTF形式(推奨)、GFF形式)をシーケンスデータと同じフォルダに置く。(gz圧縮不可。もし圧縮されている場合は、
gzip -d annotation.gtf.gz
などとやって解凍しておくこと。また、FASTAファイルと染色体の名前が一致していることを確認すること。例えばFASTAファイルでは染色体1→ chr1となっていて、GTFでは染色体1→ 1という場合は、変換する必要がある。) - ターミナルを開いて、ファイルを置いたフォルダに移動する(例:cd ~/work/test-withref)。
- IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。
script-RNAseq-with-reference-pairedend.sh fr-firststrand
もしもSRAなどのデータを使うとき、strand specificかわからない場合は、単にscript-RNAseq-with-reference-pairedend.sh
でよい。 - 数週間待つと次のような結果ファイルが得られる。 0_index_isoform.html (transcript単位で集計) 0_index_gene.html (gene単位にまとめて集計)
おまけ
- FASTQCを実行したい場合は、ファイルを入れたフォルダに移動して、
run-multi-fastqc.sh
を実行すれば、次のような結果ファイルが得られる。 index.html