ブログ更新せずに、2年経ったけど・・・

色々と忙しいのと、若干AIに飽きたのでブログの記事を書いてなかったけど、2年経って興味深い技術が出てきたので、もう一度技術に触れてみようと思った。

特に、ロボット分野(Embodied AI)、推論モデル(ChatGPT o3やo4など)、動画生成AI、AIエージェント(AI-Scientistなど)、SLMで新しい技術が出始めたので、技術に追従していこうと思った。

AI-Scientistに関しては、Phi-4やQWENなどのSLMで実行することを目指したが、トークン量の制約(SLMの扱えるトークン量が少なすぎると論文を作るのに十分でなく、トークン量が多すぎるとVRAM不足になる)で謎の実験データのみを有するPDFが生成されて、うまくいってない。まともな形の論文が生成できたら、ブログの記事にしたい。

ICLR2025のワークショップの査読に通過できるレベルの論文が書けるv2が公開されたので、v2でやりたいが、v1がA6000どころかA100でも論文がうまく生成できなかったので、SLM用のサーバーをバックグラウンドで動かしつつAI Scientistも動かすのは、PaperspaceのFree GPUではVRAM的に厳しいかもしれない。

SakanaAI/AI-Scientist-v2: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

ChatGPT 5は、o3のような推論モデルと、ChatGPT4.5みたいな非推論モデルを統合したものと聞いて楽しみにしていたが、延期されたみたい。

OpenAI、「o3」「o4-mini」を数週間以内にリリースへ 「GPT-5は数カ月以内」 “モデル統合”は延期

Embodied AIは、Diffusion PolicyACTπ0Gemini Roboticsなどにみられる模倣学習も良いのだが、二足歩行ロボットにおいて強力なツールとなったsim2realと強化学習の技術の発展が気になるところである。

コメント

タイトルとURLをコピーしました