差分

このページの2つのバージョン間の差分を表示します。

--- 茨城大学2019 [2019/09/22 12:42] – [第4回 Excelファイル後のデータ解析] suikou
+++ 茨城大学2019 [2019/09/26 09:11] (現在) – [第7回メタゲノム解析] suikou
@@ 行 17: / 行 17: @@
 * [[http://suikou.fs.a.u-tokyo.ac.jp/ibaragi/osanai-rna-seq-snp-100k/Bomo_gene_models.withnote.plus.NC_002355.gff3.gz|カイコ遺伝子モデル2017 注釈付き]]
-* ファイル名がDRRXXXXXとなっていて、サンプル情報がわからないので、[[https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA003068|DDBJ]]のHPから入手する。
+* ファイル名がDRRXXXXXとなっていて、サンプル情報がわからないので、[[https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA003068|DDBJ]]のSequence Read Archive (SRA)から入手する。SRAデータベースの構造は[[https://www.ddbj.nig.ac.jp/dra/submission.html|こちら]]を参照。
-* [[http://suikou.fs.a.u-tokyo.ac.jp/ibaragi/osanai-rna-seq-snp-100k/dmel-all-gene-r6.29.fasta|遺伝子アノテーション用にショウジョウバエの遺伝子配列(FASTA)]]
+* [[http://suikou.fs.a.u-tokyo.ac.jp/ibaragi/osanai-rna-seq-snp-100k/dmel-all-translation-r6.29.fasta.gz|遺伝子アノテーション用にショウジョウバエの遺伝子のアミノ酸配列(FASTA)]]
+* [[http://suikou.fs.a.u-tokyo.ac.jp/ibaragi/hisat-index/hisat2_index.zip|カイコゲノムのHISAT2のインデックスファイル(メモリが15GB以上あるPCなら自分で作れるから不要)]]
 RNA-seqの解析の流れは、参照ゲノム・遺伝子モデルがあるかどうかで大きく手法が分かれる。
@@ 行 103: / 行 105: @@
  RNA-seq~SNPcall-STAR-GATK
+ 今回はこのRNAseqからの解析を行ってみたいところだが、メモリが20GB以上必要そうなので、簡略化して次のように行う。
+．mapping-illumina~HISAT2 (第2回RNA-seq解析の結果をそのまま使うので実行する必要はない）
+．SNPcall~bcftools-mpileup (時間がかかるので１番染色体だけのSNPを解析するため-r Bomo_Chr1をbcftools mpileup optionに追加する)
+．graph~VCFtoTree (データ数が少ないので、閾値を下げて数を増やすため、GQ thresholdを0に変更する)
 ## 第4回 Excelファイル後のデータ解析
@@ 行 119: / 行 129: @@
 * エンリッチメント解析を行うためのExcelでの下準備
+ [[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh/lib/exe/fetch.php?media=result.edger.isoforms.count_table.c108.p50t.txt.c108.down.p50t.up.txt.blastx.xlsx|前日までの解析でExcelファイルを作れなかった人向けのテストデータ]]
  データ解析を行うときにプログラミングスキルは必須ではなく、目的の処理を行うツール名を知っているか、ツールのインストールが出来るか、オプションを間違えずに設定できるか、必要なデータベースにアクセスできるか、ウェットの実験と同じく目的のデータだけ使わずにコントロールとして別のデータで検証する姿勢があるかといったことのほうが圧倒的に大事だと感じているが、そうは言ってもちょっとした一回限りのフォーマット変換や、集計などは頻繁に行うため、簡単なプログラミングは知っておいたほうが便利である。
@@ 行 133: / 行 145: @@
-## 第5回 IGV、Geneiousを使用したデータ解析
+## 第5回 IGV、Geneiousを使用したデータ解析 + Maserの利用方法紹介
-私が良く使う可視化ツールの紹介。
+### 私が良く使う可視化ツールの紹介。
 * [[https://software.broadinstitute.org/software/igv/|Integrative Genomics Viewer (IGV)]]
@@ 行 146: / 行 158: @@
  マルチプルアライメントを表示するときに便利。アンプリコンメタゲノム解析でOTUごとの違いを可視化したいときに使える。系統樹も簡単に作れるけど、プロの人たち(?)はモデル選択をバリバリ使ったりするので、そういう人はアライメントの後は[[https://www.megasoftware.net/|MEGA]]を使うみたい。
+### Maserの利用方法
+あらかじめアカウントを取得していると思うので、https://cell-innovation.nig.ac.jp/members/maser3/ にログインするところから説明する。基本的な流れは、プロジェクトを作成し、プロジェクトページにデータ(FASTQやFASTA等)をアップロードし、
+. 上部メニューの「Project」を選択し、「Create New Project」で新しいプロジェクトを作成する。この時、「Name」の項目は記入が必要。
+. 作成したプロジェクトを開いたら、ページ中央の「Upload My Data」からデータをアップロードする。今回はWEBブラウザだけで完結する「Upload via HTTPS」を使った方法を紹介するが、たくさんのデータをアップロードする場合は、SFTPを使ったほうが便利。
+ 「Data Label」にデータを識別するための名前を入力する。
+ 「Data Type」にデータの種類を指定するが、注意事項として、Portable Pipelineにも登録されている比較的最近のデータ解析パイプライン用にデータをアップロードする場合、「Data Type」にはかなり下のほうまでスクロールして「multi fastq (paired-end) : This dataset type can contain 1 - 1000 fastq files.」を指定する。これは一つのデータセットに複数のFASTQファイルを含むデータセット。古めのパイプライン(数は多い)を利用する場合は、「fastq (paired-end)」や「fastq (single-end)」を選ぶ。こちらは1つのデータセットに1組のペアエンドのFASTQか、1つのシングルエンドのFASTQのみアップロード可能。また、FASTA形式は、塩基配列なのか、アミノ酸配列なのかでデータセットが異なり、DNAの場合は「fasta (nucleotide)」を選択する。サンプル情報(サンプル毎の実験条件が書かれたファイルで統計解析の際に使用される)を記入したテキストファイルは「SampleList」形式を選択する。目的の形式を探すときは、Ctrl-Fを押してブラウザのページ内検索機能を使うと便利。
+ 「Data File:」には適宜「Add file」ボタンを押しながら、「ファイルを選択」ボタンから必要なファイルをすべて選択する。選択し終えたら「Upload」ボタンを押す。
+. Uploadが終わったらプロジェクトページをリロードして更新すると、アップロードしたデータのアイコンが見えるようになる。必要なデータセットを全てアップロードしたら、ひとまず「multi fastq (paired-end)」を選択して、「f(x)」と書かれたボタンを押してみる。そうすると、「multi fastq (paired-end)」のデータセットタイプで使用可能な解析メニューが表示される。(恐らく現在は「HISAT2->StringTie」と「Trinity->kallisto」パイプラインのみ表示される。)
+. 解析したいパイプラインを選んで「Analysis」ボタンを押し、不足しているデータセットがあれば適宜選択し、「Set option and run」をクリックしてオプションを確認し、必要があれば適宜変更してから「Run」ボタンを押す。
+. ページ上部の「Analysis Status」タブをクリックすると、ジョブの実行状態が確認できる。ジョブが終了していれば、プロジェクトページに結果が表示されるので、解析結果のデータセットのアイコンをクリックすると表示されるダウンロードボタン「↓」をクリックすると結果が表示される。
 ## 第6回 NGSを使うようになって分かってきた研究成果
@@ 行 164: / 行 196: @@
  また、WindowsやMacでほかにも手軽に解析する方法がある。[[2018|ナノポアで読んだ食品のメタゲノムデータからの食品当てクイズ]]参照。
+ 使用するデータは、[[http://suikou.fs.a.u-tokyo.ac.jp/ibaragi/foodmeta/foodmeta.zip|こちら]]
 * ショットガンメタゲノム解析
- ショットガンメタゲノム解析は得られる情報量は多いが、1TB程度のメモリのサーバが必要になったりする等解析コストが非常に高く、また解析フローが共通化されてお決まりのパターンがあるとは言い難い。解析フローの一例を挙げると、MEGAHITでアセンブルを行い、Metabinでメタゲノムの中から個別のバクテリアゲノムを分離し、Metaxaでバクテリアゲノムのアノテーション(種同定)を行う。個人的な感想としては、20年後くらいに環境の違いを議論するときのために現在はデータを取っておくフェーズなのかなという印象。既知遺伝子の新しいバリエーションを探すには有効だと思われる（例：CRISPR/Cas探索など）。
+ ショットガンメタゲノム解析は得られる情報量は多いが、1TB程度のメモリのサーバが必要になったりする等解析コストが非常に高く、また解析フローが共通化されてお決まりのパターンがあるとは言い難い。解析フローの一例を挙げると、MEGAHITでアセンブルを行い、MetaBATでメタゲノムの中から個別のバクテリアゲノムを分離し、Metaxaでバクテリアゲノムのアノテーション(種同定)を行う。個人的な感想としては、20年後くらいに環境の違いを議論するときのために現在はデータを取っておくフェーズなのかなという印象。既知遺伝子の新しいバリエーションを探すには有効だと思われる（例：CRISPR/Cas探索など）。
+データ解析が終わっていない人は、[[http://www.suikou.fs.a.u-tokyo.ac.jp/yosh/lib/exe/fetch.php?media=result.zip]]からダウンロードしてください。
 ## 第8回 NGSを使った研究実例紹介