CLCの使い方

1．m1536.sもしくはm768c.sにリモートデスクトップ接続でログインします。(次の接続方法参照 Windows, Mac )

2．デスクトップにある「CLC for m1536」もしくは「CLC for m768c」というアイコンをダブルクリックします。

3．いくつかライセンスの切れたプラグインの警告が出たり、ライセンスのない最新版へバージョンアップするかなどのダイアログが出ますが、すべてスキップしてください。

4．今回は例としてバクテリアゲノムのIlluminaシーケンスデータをアセンブルしてみたいと思います。真核生物でも同じ手順です。通常はデータは手元にあると思いますが、今回はFirefoxというウェブブラウザを起動して公開されているシーケンスデータを探しに行きます。

余談ですが、以前Firefoxを起動したときにクラッシュしたなどが原因で、他のFirefoxが起動しているため起動できないというエラーが出た場合は、「アプリケーション」→「ターミナルエミュレータ」を起動して、下記のコマンドを入力すれば手っ取り早くFirefoxが起動できるようになります。ただし、Firefoxの履歴などは全部消えます。

rm -rf ~/.mozilla/firefox

5．FirefoxでDDBJのDRASearchというサイトを開く。https://ddbj.nig.ac.jp/DRASearch/

6．例えば、Organism: Escherichia coli（大腸菌）, StudyType: Whole Genome Sequencing, Platform: Illuminaを指定して検索してみる。

7．検索結果の中のDRP001687などをクリックすると、各プロジェクトの詳細を見ることができ、右のほうにFASTQファイルのリンクがある。

8．FASTQをダウンロードしようとすると、ファイルを保存するかどうか聞かれるので、「ファイルを保存する」を選択してOKを押す。2021年4月はちょうどFTPプロトコルが廃止されたばかりで、たぶん手元のPCのChromeなどでFASTQをダウンロードしようとしてもChromeやEdgeではダウンロードできない。いずれFTPではなくHTTPにDDBJ側が移行すると思われるけど、今はサーバにインストールされている古いFirefoxを使うほうが無難。Firefoxも近い将来FTPを廃止する予定。

保存先は出来れば、ホームフォルダの下の「work」フォルダにしてほしい。研究室のサーバではホームフォルダはm32sというサーバのホームフォルダを共有しているけど、「work」フォルダは各サーバに固有の（通常大容量の）「/data」フォルダにリンクされているので、共有のホームフォルダを消費しないで済む。

Forward reads (_1.fastq)と、Reverse reads (_2.fastq)を両方ダウンロードする。Illuminaは通常ペアエンドでシーケンスされる。Nanoporeなど別のシーケンサーによっては一つだけの場合もあるし、Illuminaでもシングルエンドだけ読む場合もある。

9．CLC Genomics Workbenchを開いて、「Import」→「Illumina」を選択する。CLCはgzip, bzip2圧縮に対応しているので、ダウンロードしたファイルをそのままインポート可能。

10．先ほどダウンロードした2つのファイルを選択し、ペアエンドであれば「Paired reads」にチェックを入れる。ペアリード間の距離を入力する必要があるが、通常200 - 800 bp程度なので、その程度の値を書いておけば十分。アセンブル時にscaffoldingするステップで多少Nの長さに影響するが、あまり気にしなくても良いと思う。