2017

2017年 水圏生物科学実験III

次世代シーケンサーから得られるデータの解析を行う。データはOxford Nanoporeから得られた16S rDNAのアンプリコンメタゲノムデータである。

データ解析の概要としては、rDNAのデータベースであるSILVA databaseに対して、Nanoporeのデータの相同性検索を行い、検索した結果をMEGANというツールで統合し、可視化する。

MACでログインしたら、デスクトップに「ダウンロード」フォルダ等の適当なフォルダを作り、その中に下記のファイルをすべてダウンロードする。

  • FASTQファイルとは
  1. FASTQCのインストール

    fastqc_v0.11.5.dmgを開いて、FastQC.appをデスクトップにコピーする。

    2007jissyu_1_.jpg

  2. FASTX-Toolkitのインストール

    fastxtoolkit0.0.13binariesMacOSX.10.5.8_i386.tar.bz2をダブルクリックすると解凍されるので、解凍された「bin」フォルダをデスクトップに移動し、「fastxtoolkit」というフォルダ名に変更する。

    2007jissyu_2_.jpg

  3. BLASTのインストール

    ncbi-blast-2.6.0+-x64-macosx.tar.gzをダブルクリックすると解凍されるので、解凍された「ncbi-blast-2.6.0+」フォルダをデスクトップに移動する。

    2007jissyu_3_.jpg

  4. SILVA databaseの解凍

    SILVA128SSURefNr99taxsilva.fasta.gzをダブルクリックすると解凍されるので、解凍された「SILVA128SSURefNr99taxsilva.fasta」ファイルをデスクトップに移動する。

    2007jissyu_4_.jpg

  5. 各班のシーケンスデータの配置

    ダウンロードしたシーケンスデータを全てデスクトップに移動する。

    2007jissyu_5_.jpg

  6. MEGANのインストール

    MEGANCommunitymacos610_0.dmgをダブルクリックすると、インストーラが表示されるので、インストーラをダブルクリックして起動する。

    2007jissyu_6_.jpg

    インストーラの指示に従って進めていく

    2007jissyu_7_.jpg

    2007jissyu_8_.jpg

    インストール先は、自分のデスクトップにすること!

    2007jissyu_9_.jpg

    2007jissyu_10_.jpg

    2007jissyu_11_.jpg

    2007jissyu_12_.jpg

    メモリの割り当てを4GBに増やしておく。(デフォルトのままでも今回は問題ない。)

    2007jissyu_13_.jpg

    2007jissyu_14_.jpg

    いったんMEGANを終了する。

    2007jissyu_15_.jpg

解析手順の概要は、まずFASTQCでシーケンスデータを確認してから、FASTQをFASTAファイルに変換し、SILVAデータベースに対してBLASTを実行する。そして、BLASTの結果ファイルをMEGANで読み込む。

  1. FASTQC

    FASTQCを実行し、シーケンスデータを開く。

    2007jissyu_16_.jpg

    2007jissyu_17_.jpg

    FASTQCは主にIllumina用のクオリティチェックツールであり、Nanoporeのデータに対しては適切な評価ができないので、評価値の〇×は気にしなくてよい。下記はシーケンスデータのクオリティスコアに関する、平均値等の情報。クオリティスコアに関する説明はこちら。Nanoporeのデータだとクオリティスコア10強(精度90%強)となるはずである。

    2007jissyu_18_.jpg

    リード長の分布。

    2007jissyu_19_.jpg

  2. FASTQ→FASTA変換

    まずはFinderからターミナルを開く。

    2007jissyu_20_.jpg

    ターミナルを開いたら、cd Desktopと入力して、ターミナル内のディレクトリをデスクトップに移す。 2007jissyu_21_.jpg

    よく使用するコマンドの説明は下記の通り

    ls : 現在のディレクトリ内のファイルを一覧表示。

    cd [ディレクトリ名] : 指定したディレクトリに移動する。

    less [ファイル名] : 指定したファイルの中身を表示する。表示をやめるときは「q」を押す。

    ターミナルで「Desktop」に移動したら、下記のコマンドを入力し、FASTQファイルからクオリティを除去したFASTAファイルへと変換する。

    ./fastxtoolkit/fastq_to_fasta -Q33 -i data2017-1.fastq -o data2017-1.fasta

    -Q33オプションはクオリティスコアの種類を示すオプションで、おまじないと思ってとりあえず書いておくこと。

    -i は入力のFASTQファイル、-o は出力のFASTAファイルの名前を書く。

  3. BLASTデータベース作成

    次にSILVAのrDNAの配列がすべて含まれるFASTAファイルから、BLASTのデータベースを作成する。

    ./ncbi-blast-2.6.0+/bin/makeblastdb -in SILVA_128_SSURef_Nr99_tax_silva.fasta -dbtype nucl

    -in には入力となるFASTAファイルを指定する。

    -dbtype はFASTAファイルがDNA配列であれば「nucl」、アミノ酸配列であれば「prot」を指定する。

  4. BLAST検索

    FASTA形式に変換したシーケンスデータをクエリーとして、SILVAデータベースに塩基配列の相同性検索を行う。

    ./ncbi-blast-2.6.0+/bin/blastn -db SILVA_128_SSURef_Nr99_tax_silva.fasta -query data2017-1.fasta -num_threads 4 > data2017-1.fasta.blastn

    -db には、BLASTデータベースファイルを作成したFASTAファイルを指定する。

    -query にはデータベースに対して相同性検索を行いたい配列が含まれるFASTAファイルを指定する。ここではFASTAファイルに変換したシーケンスデータを指定する。

    -num_threads には並列計算時に使用するCPUの数を指定する。ECCSでは1台当たり4コアあるので、4を指定。

    > の後ろには出力ファイルの名前を書く。(拡張子はMEGANに読み込ませるために「.blastn」とすること)

  5. MEGANによる結果表示

    MEGANではLowest Common Ancestor (LCA)法によって最もらしい元配列を推測している。LCA法の説明はこちら

    2007jissyu_22_.jpg

    2007jissyu_23_.jpg

    2007jissyu_24_.jpg

    2007jissyu_25_.jpg

    2007jissyu_26_.jpg

    2007jissyu_27_.jpg

    2007jissyu_28_.jpg

  • 2017.1508973819.txt.gz
  • 最終更新: 2019/07/15 02:46
  • (外部編集)