clcの使い方

CLCの使い方

1.m1536.sもしくはm768c.sにリモートデスクトップ接続でログインします。(次の接続方法参照 Windows, Mac )

2.デスクトップにある「CLC for m1536」もしくは「CLC for m768c」というアイコンをダブルクリックします。

3.いくつかライセンスの切れたプラグインの警告が出たり、ライセンスのない最新版へバージョンアップするかなどのダイアログが出ますが、すべてスキップしてください。

4.今回は例としてバクテリアゲノムのIlluminaシーケンスデータをアセンブルしてみたいと思います。真核生物でも同じ手順です。通常はデータは手元にあると思いますが、今回はFirefoxというウェブブラウザを起動して公開されているシーケンスデータを探しに行きます。

余談ですが、以前Firefoxを起動したときにクラッシュしたなどが原因で、他のFirefoxが起動しているため起動できないというエラーが出た場合は、「アプリケーション」→「ターミナルエミュレータ」を起動して、下記のコマンドを入力すれば手っ取り早くFirefoxが起動できるようになります。ただし、Firefoxの履歴などは全部消えます。

rm -rf ~/.mozilla/firefox

5.FirefoxでDDBJのDRASearchというサイトを開く。https://ddbj.nig.ac.jp/DRASearch/

6.例えば、Organism: Escherichia coli(大腸菌), StudyType: Whole Genome Sequencing, Platform: Illuminaを指定して検索してみる。

7.検索結果の中のDRP001687などをクリックすると、各プロジェクトの詳細を見ることができ、右のほうにFASTQファイルのリンクがある。

8.FASTQをダウンロードしようとすると、ファイルを保存するかどうか聞かれるので、「ファイルを保存する」を選択してOKを押す。2021年4月はちょうどFTPプロトコルが廃止されたばかりで、たぶん手元のPCのChromeなどでFASTQをダウンロードしようとしてもChromeやEdgeではダウンロードできない。いずれFTPではなくHTTPにDDBJ側が移行すると思われるけど、今はサーバにインストールされている古いFirefoxを使うほうが無難。Firefoxも近い将来FTPを廃止する予定。

保存先は出来れば、ホームフォルダの下の「work」フォルダにしてほしい。研究室のサーバではホームフォルダはm32sというサーバのホームフォルダを共有しているけど、「work」フォルダは各サーバに固有の(通常大容量の)「/data」フォルダにリンクされているので、共有のホームフォルダを消費しないで済む。

Forward reads (_1.fastq)と、Reverse reads (_2.fastq)を両方ダウンロードする。Illuminaは通常ペアエンドでシーケンスされる。Nanoporeなど別のシーケンサーによっては一つだけの場合もあるし、Illuminaでもシングルエンドだけ読む場合もある。

9.本当は大腸菌のアセンブルくらいやってみたいのだけど、大腸菌ではまだまだ時間がかかるので、上記の大腸菌のデータは忘れて、今流行りのコロナウイルスをアセンブルしてみることにする。手元のChromeなどでも良いので、適当なWEBブラウザでhttps://www.ncbi.nlm.nih.gov/sra/を開いて、検索窓にcovid 19などと入力してみる。検索結果の絞り込みで、画面左側の「DNA」、「Illumina」、「Genome」などにチェックを入れて、コロナウイルスのゲノムデータに絞り込む。

10.適当に開いてみる。例えばERX5412718を開くと次のような画面になる。

11.上でERRで始まるIDを覚えておく。そして、リモートデスクトップで「アプリケーション」→「ターミナルエミュレータ」からターミナルを起動する。

12.下記のコマンドをターミナルに入力する。リモートデスクトップ越しにコピペも可能なはず。ターミナルに貼り付ける場合、Ctrl-Vは貼り付けではなく別の意味になってしまうので、右クリックして貼り付けを選択するか、Ctrl-Shift-Vを押す。最初はマウス右クリックでコピペするほうが無難。

cd work #ディスク容量の大きなworkフォルダに移動しておく
fastq-dump --split-files --gzip ERR5697277 #NCBIのサーバからシーケンスデータをダウンロードする
rm ~/ncbi/public/sra/ERR5697277.sra #なぜかfastq-dumpはこっそり元ファイルをホームフォルダ以下に保存してしまうため、削除しておく。

13.以上で~/workフォルダにERR5697277_1.fastq.gzと、ERR5697277_2.fastq.gzが出来たはず。lsコマンドなどで確かめてみましょう。

14.CLC Genomics Workbenchを開いて、「Import」→「Illumina」を選択する。CLCはgzip, bzip2圧縮に対応しているので、ダウンロードしたファイルをそのままインポート可能。

15.先ほどダウンロードした2つのファイルを選択し、ペアエンドであれば「Paired reads」にチェックを入れる。ペアリード間の距離を入力する必要があるが、通常200 - 800 bp程度なので、その程度の値を書いておけば十分。もしかしたらアセンブル時に scaffoldingするステップで多少Nの長さに影響するかもしれないけど、あまり気にしなくて良いと思う。

16.あとは適当にNextを押しておけばよい。

17.新しいフォルダーを作っておいて、そこに保存したほうが後々わかりやすいかも。選んだら「Finish」を押す。

18.画面左下のToolboxから「De Novo Assembly」をダブルクリックする。

19.アセンブルを行いたいデータが右側のリストに入っている状態にし、Nextを押す。

20.アセンブルのパラメータ画面1はそのままでNext。

21.アセンブルのパラメータ画面2は「Create simple contig sequences (fast)」を選ぶ。マッピングして補正する下のほうを選んだ方が良さそうだけど、いまだにエラー無く完了したことがない。

22.あとは、NextやFinishを押せばOK。

23.assembly summary reportを開くと、N50などの情報を見ることが出来る。

24.ともかく、アセンブルしてできたコンティグに元のリードをマッピングしてみて、ゲノムブラウザで見てみる。ゲノムブラウザでマッピング結果を見てみると何か気が付くことも多い。そこで、Toolboxの中から「Map Reads to Contigs」を選択する。

25.まずはマッピングするリード(FASTQ)のデータを選択する。

26.「Contigs used as Reference」にはアセンブルした結果ファイル「XXXX contig list」を選択する。

27.その他のオプションはとりあえずそのままでNext, Finishを押せばOK。(でも本当はこのあたりのマッピングオプションは奥が深い。特に複数個所に同一スコアでマッピングされた場合:Non-specific match handlingをどうするかは、本当は目的によって考えるところ。)

28.マッピング結果を開いてみる。

デプスが3000x以上なので、全部のリードを表示できていないけど、上側の線1つ1つが1リード。下側の山のグラフがデプス。

29.CLCのゲノムブラウザは細かいところで使い勝手が悪いので、IGVで見たい場合の手順。IGVの使い方は[igvの使い方]を参照。IGVに必要なアセンブルしたコンティグファイル、マッピング結果ファイルをExportする必要がある。

まず、アセンブル結果を右クリックして、「Export」をクリック。

30.export formatはFastaを選択。

31.Exportしたいコンティグリストを選択。

32.Output file nameはそのままだとスペースが入ったコマンドラインでは扱いづらい名前になってしまうので、適当に変更しておく。

33.Exportする場所はwork以下の適当な場所にする。

34.同様にマッピング結果ファイルも右クリックしてExportを開き、export formatとしては「BAM」を選択する。

35.Output file nameの拡張子は「.bam」となるようにする。

36.BAMファイルをIGVで開くためにはインデックスを作っておかないと開けない。そこで、ターミナルに下記のコマンドを入力する。

samtools index covid.ERR5697277.mapped.bam

37.

OS入れ替え前の古いファイルを見たい場合

m1536.s, m768c.sにログインするときに、

ID: suikou

パスワード: suikou

でログインしてください。

このユーザで「CLC for m1536」もしくは「CLC for m768c」を実行すると、古いデータが見えます。

  • clcの使い方.1618848754.txt.gz
  • 最終更新: 2021/04/19 16:12
  • by 118.240.79.152