LLMエージェント
要約済み 4
-
arxiv-cs-ai 7時間前 3LLMで地下流動シミュレーションを自動化、専門知識不要にAutoSurrogate: An LLM-Driven Multi-Agent Framework for Autonomous Construction of Deep Learning Surrogate Models in Subsurface Flow
AutoSurrogateは自然言語指示のみで深層学習代替モデルを自律構築するLLM駆動の4エージェントシステム。 計算コストの高い地下流動シミュレーションを高精度な代替モデルで効率化する。 ML専門知識を持たないドメイン科学者でも活用可能にし、科学分野へのAI普及を加速。
解説 AutoSurrogateは、地下流動(石油・地下水・CO2貯留等)の高忠実度数値シミュレーションを代替する深層学習モデルを自動構築するLLM駆動フレームワークである。地下流動シミュレーションは不確実性定量化(UQ)やデータ同化(DA)のような多クエリタスクで膨大な計算資源を要するが、DLサロゲートはその高速化に有効である。しかし、アーキテクチャ設計からハイパーパラメータ調整まで高度なML専門知識が必要であり、地質・石油工学分野の研究者には利用障壁となっていた。本フレームワークでは4つの専門エージェントが連携し、データ分析・モデル選択・学習実行・評価を自律的に実施する。ユーザーはシミュレーションデータと自然言語での好みを入力するだけでよい。既存手法との比較では、手動設計や汎用AutoMLツールに対して、ドメイン特化の知識をLLMに内包することで精度・効率の両面で優位性を示している。実用上の意義は大きく、地質学・環境工学・エネルギー分野においてMLエキスパートなしにサロゲートモデルを活用できる民主化を実現する点が新規性の核心である。 -
hf-papers 1日前 4新ベンチマークCocoaBench、最強エージェントでも成功率45%止まりCocoaBench: Evaluating Unified Digital Agents in the Wild
視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。 最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。 現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。
解説 CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚(GUI操作)・検索(Web情報収集)・コーディング(プログラム実行)の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。 実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド(Codex、Claude Code)が元々の用途を超えて汎用的に機能することも判明した。 失敗分析では、推論・計画エラー(54%)、ツール実行エラー(17%)、視覚的グラウンディングエラー(29%)の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。 -
arxiv-cs-ai 1日前 3LLMでアルファ因子を自動発見するフレームワーク「Hubble」登場Hubble: An LLM-Driven Agentic Framework for Safe and Automated Alpha Factor Discovery
研究チームが、LLMを活用した定量金融向けアルファ因子自動探索フレームワーク「Hubble」を発表した。 ASTベースのサンドボックスと独自演算子言語で安全性を担保しつつ、RankIC・情報比などで候補因子を厳密評価する。 クォンツ運用の自動化・高度化に向け、LLMの金融実務応用を大きく前進させる可能性がある。
解説 Hubbleは定量金融分野のアルファ因子(株価予測に使う統計的シグナル)発見を自動化するLLM駆動のフレームワークです。従来の遺伝的プログラミング手法は解釈困難な複雑数式を生成しやすく、過学習(データへの過度な適合)が問題でした。Hubbleはこれを克服するため、LLMをインテリジェントな探索ヒューリスティクスとして活用し、ドメイン固有の演算子言語とAST(抽象構文木)ベースの実行サンドボックスで安全かつ制御された因子生成を実現します。評価パイプラインではクロスセクショナルRankIC(順位情報係数:予測と実績の順位相関)、年率化情報比(リスク調整後リターン指標)、ポートフォリオ回転率を用いて候補因子を厳格に審査。成績上位因子と構造化されたエラー診断をLLMにフィードバックする進化的メカニズムにより、複数世代にわたる反復改善を実現します。既存の遺伝的プログラミングと比較してより解釈可能で汎化性の高い因子を生成できる点が実用上の強みです。金融クオンツ開発者や資産運用の研究者にとって、人手によるファクター設計を大幅に効率化できる実用的な手法として注目されます。 -
arxiv-cs-ai 2日前 4研究者ら、複数ユーザーによるLLMエージェント利用を初めて理論化Multi-User Large Language Model Agents
LLMエージェントを複数ユーザーが同時利用する状況を多主体意思決定問題として初めて形式化した研究が登場。 役割・権限・プライバシーが異なるユーザー間の利益相反や情報非対称性を分析し、既存の単一ユーザー最適化モデルの限界を指摘。 組織・チームでのAIエージェント導入が加速する中、現実的な多ユーザー対応の設計指針を提供する枠組みとして注目される。
解説 本論文は、LLMエージェントが単一ユーザーではなく複数ユーザーに同時対応する「マルチユーザー・マルチプリンシパル」設定を初めて体系的に研究したものです。従来のGPT-4oやClaudeなどのLLMシステムは、1人の主体(ユーザーまたはオペレーター)の指示を唯一の権威として扱う単一プリンシパルパラダイムで設計されていますが、チームや組織のツールとして統合される現実では、異なる役割・権限・目的を持つ複数のユーザーが同一エージェントを利用するケースが増加しています。本研究では、この状況を多主体意思決定問題(multi-principal decision problem)として数学的に定式化し、権限の階層構造・利益相反・情報の非対称性・プライバシー制約をどう扱うかを議論します。実験では既存LLMがこのマルチユーザー設定でどのような失敗を犯すかを示し、特定ユーザーへの過度な忖度や情報漏洩リスクを明らかにしています。実用面では、企業内ワークフロー・医療チーム・法務組織など複数の意思決定者が関わる場面への応用が見込まれ、「誰の指示を優先するか」という根本的な設計問題に対する理論的基盤を提供する点で重要な貢献です。