目次

茨城大学集中講義2019

第1回 NGSのシーケンサー原理紹介

第2回 RNA-seqデータ解析

最初に手元のコンピュータだけでも解析できるPortable Pipelineという私が開発中のソフトウェアを使って解析を行い、その後Maserも使ってみる。事前準備として、このリンク先のページに従ってWindowsならばWSL、MacであればDockerのインストールを済ませておく。

今回使用するデータ

RNA-seqの解析の流れは、参照ゲノム・遺伝子モデルがあるかどうかで大きく手法が分かれる。

参照ゲノム・遺伝子モデルがある場合でも、さらに既存の遺伝子モデルのみを使うのか、新規の遺伝子モデルを使うのかでも手法が異なる。

第3回 SNP解析

SNP解析は基本的にはGATKのベストプラクティスワークフローを参照するのが無難。10万人規模のヒトゲノム解析にはこのツールが使われている。

https://software.broadinstitute.org/gatk/best-practices/

データの種類によって異なる3つの解析ツールがある。

第4回 Excelファイル後のデータ解析

統計的な解析はやはりRを使ったほうが便利だけど、そういった解析が終わった後でデータを俯瞰するにはやっぱりExcelが便利。Excelで良く使う機能としては、フィルター機能、条件付き書式、グラフ作成あたりか。TXTファイルをExcelで開くときの注意点などはこちら

第5回 IGV、Geneiousを使用したデータ解析 + Maserの利用方法紹介

私が良く使う可視化ツールの紹介。

Maserの利用方法

あらかじめアカウントを取得していると思うので、https://cell-innovation.nig.ac.jp/members/maser3/ にログインするところから説明する。基本的な流れは、プロジェクトを作成し、プロジェクトページにデータ(FASTQやFASTA等)をアップロードし、

  1. 上部メニューの「Project」を選択し、「Create New Project」で新しいプロジェクトを作成する。この時、「Name」の項目は記入が必要。
  2. 作成したプロジェクトを開いたら、ページ中央の「Upload My Data」からデータをアップロードする。今回はWEBブラウザだけで完結する「Upload via HTTPS」を使った方法を紹介するが、たくさんのデータをアップロードする場合は、SFTPを使ったほうが便利。

    「Data Label」にデータを識別するための名前を入力する。

    「Data Type」にデータの種類を指定するが、注意事項として、Portable Pipelineにも登録されている比較的最近のデータ解析パイプライン用にデータをアップロードする場合、「Data Type」にはかなり下のほうまでスクロールして「multi fastq (paired-end) : This dataset type can contain 1 - 1000 fastq files.」を指定する。これは一つのデータセットに複数のFASTQファイルを含むデータセット。古めのパイプライン(数は多い)を利用する場合は、「fastq (paired-end)」や「fastq (single-end)」を選ぶ。こちらは1つのデータセットに1組のペアエンドのFASTQか、1つのシングルエンドのFASTQのみアップロード可能。また、FASTA形式は、塩基配列なのか、アミノ酸配列なのかでデータセットが異なり、DNAの場合は「fasta (nucleotide)」を選択する。サンプル情報(サンプル毎の実験条件が書かれたファイルで統計解析の際に使用される)を記入したテキストファイルは「SampleList」形式を選択する。目的の形式を探すときは、Ctrl-Fを押してブラウザのページ内検索機能を使うと便利。

    「Data File:」には適宜「Add file」ボタンを押しながら、「ファイルを選択」ボタンから必要なファイルをすべて選択する。選択し終えたら「Upload」ボタンを押す。

  3. Uploadが終わったらプロジェクトページをリロードして更新すると、アップロードしたデータのアイコンが見えるようになる。必要なデータセットを全てアップロードしたら、ひとまず「multi fastq (paired-end)」を選択して、「f(x)」と書かれたボタンを押してみる。そうすると、「multi fastq (paired-end)」のデータセットタイプで使用可能な解析メニューが表示される。(恐らく現在は「HISAT2→StringTie」と「Trinity→kallisto」パイプラインのみ表示される。)
  4. 解析したいパイプラインを選んで「Analysis」ボタンを押し、不足しているデータセットがあれば適宜選択し、「Set option and run」をクリックしてオプションを確認し、必要があれば適宜変更してから「Run」ボタンを押す。
  5. ページ上部の「Analysis Status」タブをクリックすると、ジョブの実行状態が確認できる。ジョブが終了していれば、プロジェクトページに結果が表示されるので、解析結果のデータセットのアイコンをクリックすると表示されるダウンロードボタン「↓」をクリックすると結果が表示される。

第6回 NGSを使うようになって分かってきた研究成果

第7回 メタゲノム解析

メタゲノム解析は16S rDNAや特定の遺伝子領域のみシーケンスするアンプリコンメタゲノム解析と、採取したDNAをそのまま全部読むショットガンメタゲノム解析に分かれる。

データ解析が終わっていない人は、http://www.suikou.fs.a.u-tokyo.ac.jp/yosh/lib/exe/fetch.php?media=result.zipからダウンロードしてください。

第8回 NGSを使った研究実例紹介