参照配列ありの場合のRNA-seqについて

サーバにリモートデスクトップ、もしくはsshに-Xオプションをつけてログインする。その後、https://github.com/c2997108/OpenPortablePipeline/releases から最新版のPortable PipelineのLinuxバイナリをダウンロードして解凍する。

#ver 1.3.1の時の例
wget https://github.com/c2997108/OpenPortablePipeline/releases/download/v1.3.1/PortablePipeline-linux-v1.3.1.tar.gz
tar vxf PortablePipeline-linux-v1.3.1.tar.gz

解凍されたPortablePipeline.shを実行し、設定で「Linux」を選択し、解析メニューで「RNA-seq~HISAT2-StringTie-DEGanalysis」を選択する。

まだ説明ページを作れていないけど、下記のパイプラインをサーバ上で実行すればよい。

pp RNA-seq~HISAT2-StringTie-DEGanalysis -c 16 -g ref.gtf -s sample.txt path/to/fastq_dir/ ref.fasta

HISAT2でスプライスサイトを考慮してゲノムにマッピング https://ccb.jhu.edu/software/hisat2/index.shtml
Cufflinksでゲノム中の転写領域を抽出 http://cole-trapnell-lab.github.io/cufflinks/
未知のtranscriptもあり得るので、Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
blastnでNCBI NTデータベースを検索してアノテーション
Cuffquant (in Cufflinks package)でgene, transcript単位での発現量算出。
Cuffdiff (in Cufflinks package)で二群間の比較定量。

サーバにログインする。データ量にも依るがメモリ90GB以上のサーバを選ぶほうが無難。windowsから, macから
「work」フォルダ以下に適当なフォルダを作り(例：mkdir ~/work/test-withref)、その中にIlluminaペアエンドシーケンスファイルを置く(gz圧縮されたFASTQファイルであること)。
次のファイルと同じファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集はgeditを使うと楽かも) sample.txt
リファレンスゲノム配列(FASTA形式)をシーケンスデータと同じフォルダに置く(gz圧縮されたFASTAでも、未圧縮のFASTAでも可能)
リファレンスゲノムのアノテーションファイル(GTF形式(推奨)、GFF形式)をシーケンスデータと同じフォルダに置く。(gz圧縮不可。もし圧縮されている場合は、gzip -d annotation.gtf.gzなどとやって解凍しておくこと。また、FASTAファイルと染色体の名前が一致していることを確認すること。例えばFASTAファイルでは染色体1→ chr1となっていて、GTFでは染色体1→ 1という場合は、変換する必要がある。)
ターミナルを開いて、ファイルを置いたフォルダに移動する(例：cd ~/work/test-withref)。
IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。 script-RNAseq-with-reference-pairedend.sh fr-firststrand
もしもSRAなどのデータを使うとき、strand specificかわからない場合は、単に script-RNAseq-with-reference-pairedend.sh でよい。
数週間待つと次のような結果ファイルが得られる。 0_index_isoform.html (transcript単位で集計) 0_index_gene.html (gene単位にまとめて集計)
結果ファイルを開くには、自分のPCにダウンロードしても良いし、サーバ上でfirefox 0_index_isoform.html, firefox 0_index_gene.htmlと入力しても良い。

実行されたスクリプト本体は、フォルダの中にscript-RNAseq-with-reference-pairedend-main.shとしてコピーされている。
FASTQCを実行したい場合は、ファイルを入れたフォルダに移動して、run-multi-fastqc.shを実行すれば、次のような結果ファイルが得られる。 index.html
マッピング状況をゲノムブラウザで可視化したい場合は、IGVの使い方を参照。