rna-seqデータからsnp解析

RNA-seqデータからSNP解析

基本的に2014/3/6に公開されたGATKの解析フローに基づく。 https://software.broadinstitute.org/gatk/documentation/article.php?id=3891

  1. STARの2passマッピングを使ってゲノムにRNA-seqデータをマッピング https://github.com/alexdobin/STAR
  2. GATK HaplotypeCallerでSNP抽出 https://software.broadinstitute.org/gatk/
  3. 全サンプルで共通するSNPを使ってサンプル間距離をクラスタリング
  1. サーバにログインする。データ量にも依るがメモリ40GB以上のサーバを選ぶほうが無難。windowsから, macから
  2. 「work」フォルダ以下に適当なフォルダを作り(例:mkdir ~/work/test-snp)、その中にIlluminaペアエンドシーケンスファイルを置く(未圧縮のFASTQのみ可。gz圧縮されたFASTQファイルは不可)。
  3. リファレンスゲノム配列(FASTA形式)を同じフォルダに置く。(未圧縮のFASTAのみ可)
  4. ターミナルを開いて、ファイルを置いたフォルダに移動する(例:cd ~/work/test-snp)。
  5. script-RNAseq-SNPcall-singleend.shと入力する。
  6. 結果として、サンプル間距離を表すsample-relation.pdfと、SNPリストとしてoutput.xlsxが得られる。
  • rna-seqデータからsnp解析.1506772691.txt.gz
  • 最終更新: 2017/09/30 11:58
  • by 118.240.79.26