Rで高効率なコードを書く
RやPythonは遅いと言われますが、コーディングの初心者にとっては言語自体の特性よりも書いたコードの非効率性の方が問題になることが多いです。今回は系統樹を探索するコードを例に、R言語を用いてどのように効率の良いプログラ … 続きを読む
東京大学大学院 農学生命科学研究科 水圏生物科学専攻
RやPythonは遅いと言われますが、コーディングの初心者にとっては言語自体の特性よりも書いたコードの非効率性の方が問題になることが多いです。今回は系統樹を探索するコードを例に、R言語を用いてどのように効率の良いプログラ … 続きを読む
アドベントカレンダーは頓挫しましたが備忘録として投稿します。 ggplotでjitterプロットなどを描いたとき、各点の透過度を調整することでデータの分布をビジュアルで示すことができます。 ここでは3つのパラメータに基づ … 続きを読む
今回はHISAT2について調べてみる。HISAT2は最もよく使われるRNA-seqのマッピングツールなのではないかと思う。 インデックスの作成は、 のようにすれば良いのだけど、ちゃんとしたインデックスを作るために、 &# … 続きを読む
GATK ver3時代にRNA-seqのデータからSNPをコールする際にSTARの2-passを使っていたときは、インデックスを2回作らないといけなかったのだけど、今マニュアルを見ていたら2.4.1a以降はマッピング時の … 続きを読む
ブックマークレットやUserScriptってご存知でしょうか。利用者が書いたJavaScriptでWEBサイトをカスタマイズできてしまうあれです。 今回は、下記のMaserのプロジェクトページをアレンジするスクリプトの紹 … 続きを読む
私がバイオインフォの分野に入ったときにお世話になったプロジェクトで、今でも続いているのですが、どこにも日本語で紹介ページが無いようなので、今更ながら作ってみようかなと思いました。 どんな感じか、まずはスクリーンショットで … 続きを読む
今日は積み上げグラフを描いてみます。メタゲノム解析で検出された細菌種を示すときとかに使われるのを見ますね。データはAirPassengersという既存のデータセットを使います。 このAirPassengersデータは時系 … 続きを読む
こんにちは。あと20日以上も書くことがあるのか途方に暮れています。善処します。今回はヒストグラムの書き方です。せっかくなのでirisを使わず、データを作ってみましょう。 以下のスクリプトでは平均が1から10の正規分布につ … 続きを読む