参照配列ありrna-seq

参照配列ありの場合のRNA-seqについて

  1. HISAT2でスプライスサイトを考慮してゲノムにマッピング https://ccb.jhu.edu/software/hisat2/index.shtml
  2. Cufflinksでゲノム中の転写領域を抽出 http://cole-trapnell-lab.github.io/cufflinks/
  3. 未知のtranscriptもあり得るので、Trinotateでアノテーション (Uniprotへのblastx, GOアノテーション、シグナルペプチド予測、膜タンパク質予測、rRNA予測) http://trinotate.github.io/
  4. blastnでNCBI NTデータベースを検索してアノテーション
  5. Cuffquant (in Cufflinks package)でgene, transcript単位での発現量算出。
  6. Cuffdiff (in Cufflinks package)で二群間の比較定量。
  1. サーバにログインする。データ量にも依るがメモリ90GB以上のサーバを選ぶほうが無難。windowsから, macから
  2. 「work」フォルダ以下に適当なフォルダを作り(例:mkdir ~/work/test-withref)、その中にIlluminaペアエンドシーケンスファイルを置く(gz圧縮されたFASTQファイルであること)。
  3. 次のファイルと同じファイル名のタブ区切りテキストファイルを作成する。内容は、フォワード側のシーケンスファイル名を列挙し、各ファイルの条件をタブ区切りで記入する。(linuxでのテキストファイル編集はgeditを使うと楽かも) sample.txt
  4. リファレンスゲノム配列(FASTA形式)をシーケンスデータと同じフォルダに置く(gz圧縮されたFASTAでも、未圧縮のFASTAでも可能)
  5. リファレンスゲノムのアノテーションファイル(GTF形式(推奨)、GFF形式)をシーケンスデータと同じフォルダに置く。(gz圧縮不可。もし圧縮されている場合は、gzip -d annotation.gtf.gzなどとやって解凍しておくこと。また、FASTAファイルと染色体の名前が一致していることを確認すること。例えばFASTAファイルでは染色体1→ chr1となっていて、GTFでは染色体1→ 1という場合は、変換する必要がある。)
  6. ターミナルを開いて、ファイルを置いたフォルダに移動する(例:cd ~/work/test-withref)。
  7. IlluminaのTruSeq stranded sample prep kitsでサンプル調整した場合は、次のコマンドを入力する。 script-RNAseq-with-reference-pairedend.sh fr-firststrand
    もしもSRAなどのデータを使うとき、strand specificかわからない場合は、単に script-RNAseq-with-reference-pairedend.sh でよい。
  8. 数週間待つと次のような結果ファイルが得られる。 0_index_isoform.html (transcript単位で集計) 0_index_gene.html (gene単位にまとめて集計)
  9. 結果ファイルを開くには、自分のPCにダウンロードしても良いし、サーバ上でfirefox 0_index_isoform.html, firefox 0_index_gene.htmlと入力しても良い。
  • FASTQCを実行したい場合は、ファイルを入れたフォルダに移動して、run-multi-fastqc.shを実行すれば、次のような結果ファイルが得られる。 index.html
  • 参照配列ありrna-seq.1506731446.txt.gz
  • 最終更新: 2017/09/30 00:30
  • by suikou