aiを使ったデータ解析入門2025

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン 前のリビジョン
次のリビジョン
前のリビジョン
aiを使ったデータ解析入門2025 [2025/09/24 03:40] suikouaiを使ったデータ解析入門2025 [2025/10/10 02:38] (現在) suikou
行 45: 行 45:
 - 1.正解のわかっているデータを既知の解析フローで処理させて、正解と同じ結果が得られるかどうかを見る。正解と違う結果が出た場合、正解を具体的に教えて解析フローのバグを直すように伝えると、ほとんどの場合完全自動で解析フローを再現してくれます。(なるべく具体的な解析フローや生の結果が出ている論文を選ぶのが良い。つまり、パイプラインを作ったというような論文をWEB版のChatGPTで検索して、そのパイプラインをセットアップして、パイプラインのテストデータで解析を実行して、と頼む感じ。) - 1.正解のわかっているデータを既知の解析フローで処理させて、正解と同じ結果が得られるかどうかを見る。正解と違う結果が出た場合、正解を具体的に教えて解析フローのバグを直すように伝えると、ほとんどの場合完全自動で解析フローを再現してくれます。(なるべく具体的な解析フローや生の結果が出ている論文を選ぶのが良い。つまり、パイプラインを作ったというような論文をWEB版のChatGPTで検索して、そのパイプラインをセットアップして、パイプラインのテストデータで解析を実行して、と頼む感じ。)
  
-- 2.そもそも解析フロや解析プログラム新規に作る必要がって、完全には正解がわからない場合。新規に作る場合は、なるべくシンプルに誤解なくAIに伝られるように、何をしてほしいのプログラムの中身を丁寧に日本語で説明すること。プログラミングをない人には本当の意味でピン来ないかもしれないけど、プログラムというのは普通は書いたとおりにしか動ません例えば塩基配列相同性検索をして、という場合、相補鎖はどうするのか、ACGT以外のNとか縮重塩基表記が来た場合はどうしたいのか、などなど、少なくとも自分が入力するデある例外パターンはすべて書いてあげないとなくとも現時点では不十分な装になることが多いです。これも来年はかなり考慮してくれるようになっているのかもしれませんが。。完全な正解がわからなくても、別の解析ツールで一部解析した結果が有ったり、部分的には手作業正解データが作れる場合は、(色々と指示を出した後で)そような結果になるように解析プログラムを作ってとうの手っ取り早いと思われます。+- 2.単一のツとりあえず動かしいとき。セットアップ&READMEに書いてある内容のまま実行で良ければほぼ問題なく実してくれる。ここまでの1,2の使かた中心です。
  
-- 3.正しい結果いうのが全く分からない場合。Codex CLI自身しい結果なのかをわかりやすく示すためサマリーや図作らせる。解析フ具体的イメージがほとんどな状態で始め解析のパターンりがち。上の1,2の例ではAIテスト、デバッグま自動でやってくれる可能性があるのだけど方法テスト工程(結果が正しいかどうかを人間が判断てフィドバックする)を人間が行う必要があ人間側対応コストが高い。ただりあえず何か結果っぽいものを出してくれるので「とりあえずれらFASTQファイルRNA-seqの解析をして。生物種はゼブラフィッシュンプ対応はs1+vs s3+4」みたいなを書いてけば実行してくれるので私もよく使います。場合、結局大丈夫かどうかを判定でなくて自分の知っているパイプラインで処理しなおした結果を使ことにる感じです。もしくは、Codex CLIでしか出せかった結果有ったらその部分だけ解析方法を調べパイプライン追加しています+- 3.ちょっした解析プログラムを新規に作る必要あって、完には正解がわからない場合。なるべく誤解なくAI伝えるために、何をしてほしいのかプログラム中身具体的に丁寧に説明すことグラミングをしていない人には本当意味でピンと来いかもしれないけど、プログラムいうのは書いたとおりにしか動きませ。例えば「塩基配列の相同性検索をして」とう場合、相補鎖はどうするのか、ACGT以外のNとか縮重塩基表記が来場合どうしたいか、などなど、自分が入力するデータの中にある例外パターンはすべて書いてあげいと、少なくとも現時点では不十分な実装になること多いす。これも来年はかなり考慮してくれるようになっているのかもしれませんが。。。完全な正解がわからなくても解析ツールで一部解析した結果が有ったり、部分的には手作業で解データが作れる場合は、色々と指示を出つつ、そのような結果になるように解析プログラムを作ってというのが手っ取り早いと思われます。(1.と同じですが、とにくテストデータ作ること!) 
 + 
 +- 4.正い結果(テストデタ)がわかっておらず、ぼんやりと期待するイメージがある状態で2個以上ツールを組み合わせて結果を出した場合(例:このFASTQファイルを使ってRNA-seq解析をて!とか) 結構よさげな結果を出してくれるけどやはどこかに問題がとが多い。また結果がよさげに見えるので、なおさら何が問題なか気が付きにくい。対応としては、なるべく解析を小分けにして問題ないか確認できるようにする…ことだけど、そもそも全部の解析が終わらないと気が付かないことも多いそれでも、1ステップずつ検証用データを出力させて検証すべきだと思う。例えばRNA-seq解析をするなら、ステップ1:フィルタリングステップ2:マッピグ、ステッ3:発現量算出、ステップ4:統計検定、といった解析が通常行われる。ここで、こ例ならステップ1:フィルタリングで除去されたリード数割合、ステップ2:マッピングされリード数割合、などをきちんと(あとからでも良ので)出力させる。例えば、マッピングされたリード数が10%しかい、判明した場合、やはり何かおかしと思っ調べてみる感性が大事。codexは適切に聞けば教えてくれたり考慮して解析してくれることが多いけど、「なぜマップ率が10%しかないのですか?」みたいなぼんやりした質問では正解にたどり着けるか微妙な感じマッピングされないリードというのはどういう可能性を考えているの具体化してそれ検証させるべ。例えばコンタミがあってマップ率が低と思うならコンタミの調査を命令。もっと具体的にコンタミていそう生物名わかるなういう情報も与えおく。ほかもマップ率が低い原因として、ゲノムの完成度が低く欠損が多、シーケンスデータとマッピングツールの組み合わせが悪い、などなど具体的に挙げてあげるとより正確に調査が進む
  
 ## Codex CLIの練習問題 ## Codex CLIの練習問題
行 59: 行 61:
 指示(プロンプト)の例:「このフォルダにあるfqファイルはバクテリアの16S rRNAアンプリコンシーケンスデータです。ナノポアでシーケンスしています。これらをSILVAのメタゲノムデータベースを使って解析してください。」 指示(プロンプト)の例:「このフォルダにあるfqファイルはバクテリアの16S rRNAアンプリコンシーケンスデータです。ナノポアでシーケンスしています。これらをSILVAのメタゲノムデータベースを使って解析してください。」
  
-この例はAIにとっても簡単なようで、ナノポアに適切な閾値で解析フローを組んでくれると思います。ただ、AIは指示に対して再現性があるわけではないので、皆さんがどのような結果を見ることになるのかはわかりません。。。+この例はAIにとっても簡単なようで、ある程度ナノポアに適切なツールや閾値で解析フローを組んでくれると思います。ただ、AIは指示に対して再現性があるわけではないので、皆さんがどのような結果を見ることになるのかはわかりません。。。
  
 {{:pasted:20250918-175606.png}} {{:pasted:20250918-175606.png}}
行 102: 行 104:
 ### より賢くする ### より賢くする
  
-Codexが解析に行き詰ってきたら、思考モードをmediumからhighに変更する(プロンプトで/modelと入力してから選択)と乗り越えられることがあるかもしれません。私は回答精度が上がっているかはよくわかりませんでしたが、英語で回答すはなくなり毎回日本語回答しくれようにはなりました。+Codexが解析に行き詰ってきたら、思考モードをmediumからhighに変更する(プロンプトで/modelと入力してから選択)と乗り越えられることがあるかもしれません。私は回答精度が上がっているかはよくわかりませんでしたが、highが良いと言ってい、mediumのほう十分だと言っちがいます
  
 {{:pasted:20250918-161952.png}} {{:pasted:20250918-161952.png}}
  
 +### リモートデスクトップで日本語入力をする
 +
 +画面右上に「あ」、「_A」といったアイコンが表示されているか確認する。表示されていないと日本語入力できないので表示されていない人は教えてください。
 +
 +{{:pasted:20251010-023249.png}}
 +
 +日本語入力切替はCtrl-Space, Ctrl-j, 半角/全角キーのいずれかで可能です。
  • aiを使ったデータ解析入門2025.1758685206.txt.gz
  • 最終更新: 2025/09/24 03:40
  • by suikou