マルチエージェント

hf-papers 2時間前 3

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

研究者らが推論特化型LLMをマルチエージェント交渉シミュレーションに用いると人間行動の再現性が低下することを実証した。「最適解探索」に最適化された推論モデルは「人間的行動のサンプリング」と目的が相反し、通常LLMより非人間的な挙動を示す。社会科学シミュレーションや交渉AIの設計において、モデル選定の重要性を再考させる知見として注目される。

解説本論文は、o1やDeepSeek-R1などの推論強化型LLM（Reasoning Model）をマルチエージェント交渉シミュレーションに用いると、人間の行動再現精度が低下するという逆説的な現象を体系的に分析する。著者らはこの問題を「Solver-Sampler Mismatch（ソルバー・サンプラー不一致）」と命名する。推論モデルは数学・論理パズルに見られる「唯一の最適解を求める」タスク（Solver）に最適化されているが、交渉シミュレーションでは「人間が示す多様な行動分布を忠実に再現する」（Sampler）ことが求められる。この二つの目的は根本的に相容れない。実験では、GPT-4oやClaudeなどの標準的LLMに比べ、推論モデルは交渉エージェントとして一辺倒な妥協点収束や非人間的な意思決定パターンを示した。また、人間被験者データとの行動分布比較でも推論モデルの乖離が顕著だった。この知見は、社会科学シミュレーション・経済実験・ゲーム理論研究においてLLMエージェントを使う際のモデル選択に重要な指針を与える。単に「賢い」モデルが良いシミュレーターになるとは限らないという設計上の示唆は、マルチエージェントシステム構築者にとって実用的価値が高い。

マルチエージェント交渉シミュレーション推論モデル LLM評価

arxiv-cs-ai 7時間前 3

推論特化LLM、交渉シミュレーションで人間らしさ失う——研究が警鐘

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

研究者らが推論強化LLMはマルチエージェント交渉シミュレーションで行動模倣精度が低下すると報告。戦略的最適化を優先するあまり、人間らしい妥協的行動が再現できなくなる「ソルバー・サンプラー不一致」を3環境で実証。社会科学シミュレーションや交渉AIの設計において、推論モデルの使い分けが重要な課題となる。

解説この論文は、LLMをエージェントとして社会・経済・政策シミュレーションに活用する際の根本的な問題を指摘する。従来「推論能力が高いモデルほど現実的なシミュレーションに優れる」と仮定されてきたが、本研究はこれを覆す。人間は完全合理的ではなく「限定合理性（boundedly rational）」に基づいて行動するため、推論強化モデルが戦略的に優位な行動を過度に選択することで、人間らしい妥協・折衷的行動が消失する「ソルバー・サンプラー不一致」が発生する。また、個々の選択には多様性が残るが最終的な交渉結果のパターンが現実から乖離する「多様性なき忠実度」現象も確認された。研究では曖昧な権限分散・統一反対の取引制限シナリオと電力グリッド緊急削減という3つのマルチエージェント交渉環境で実験を行い、o1系やDeepSeek等の推論強化モデルが一貫してこの問題を示すことを実証した。社会シミュレーション設計者は、タスクの目的が「問題を解く」ことか「人間行動を模倣する」ことかによってモデルを適切に選択すべきという実践的指針を提供する。

マルチエージェント交渉シミュレーション推論モデル行動経済学エージェントAI

arxiv-cs-ai 7時間前 3

LLMで地下流動シミュレーションを自動化、専門知識不要に

AutoSurrogate: An LLM-Driven Multi-Agent Framework for Autonomous Construction of Deep Learning Surrogate Models in Subsurface Flow

AutoSurrogateは自然言語指示のみで深層学習代替モデルを自律構築するLLM駆動の4エージェントシステム。計算コストの高い地下流動シミュレーションを高精度な代替モデルで効率化する。 ML専門知識を持たないドメイン科学者でも活用可能にし、科学分野へのAI普及を加速。

解説 AutoSurrogateは、地下流動（石油・地下水・CO2貯留等）の高忠実度数値シミュレーションを代替する深層学習モデルを自動構築するLLM駆動フレームワークである。地下流動シミュレーションは不確実性定量化（UQ）やデータ同化（DA）のような多クエリタスクで膨大な計算資源を要するが、DLサロゲートはその高速化に有効である。しかし、アーキテクチャ設計からハイパーパラメータ調整まで高度なML専門知識が必要であり、地質・石油工学分野の研究者には利用障壁となっていた。本フレームワークでは4つの専門エージェントが連携し、データ分析・モデル選択・学習実行・評価を自律的に実施する。ユーザーはシミュレーションデータと自然言語での好みを入力するだけでよい。既存手法との比較では、手動設計や汎用AutoMLツールに対して、ドメイン特化の知識をLLMに内包することで精度・効率の両面で優位性を示している。実用上の意義は大きく、地質学・環境工学・エネルギー分野においてMLエキスパートなしにサロゲートモデルを活用できる民主化を実現する点が新規性の核心である。

マルチエージェント AutoML 地下流動科学シミュレーション LLMエージェント

hf-papers 8時間前 4

AI自律エージェントが数日かけてML研究を自動実行、SOTAを達成

Toward Autonomous Long-Horizon Engineering for ML Research

ML研究の論文再現・実験改善を数日間にわたり自律実行するAiScientistが提案された。 File-as-Busプロトコルで状態を永続ファイルに蓄積し、PaperBench+11点・MLE-Bench Lite 81.82%を記録。 AI研究の自動化・長時間エージェント設計に向けた重要な一歩となる成果。

解説 AiScientistは、ML論文の再現実装や競技形式の実験改善を数時間〜数日にわたり自律的に実行するシステム。設計の核心は「薄い制御・厚い状態（thin control over thick state）」：最上位のOrchestratorは簡潔なサマリとワークスペースマップだけで制御を維持し、詳細な論文解析・コード・実験ログはFile-as-Busプロトコルにより共有ファイルとして永続化する。論文理解・優先順位付け・実装・実験の各専門Tier-1エージェントが階層的に協調し、会話的な引き継ぎではなく永続的なアーティファクトを介して進捗を積み上げる。PaperBench（論文ゼロからの再現）では最良ベースライン比＋11.15ポイントの33.73点を記録し、MLPhD人間ベースライン41%に肉薄。MLE-Bench Lite（競技形式ML改善）ではAny Medal%で81.82%を達成し、AIDE・LoongFlow・ML-Master 2.0を上回る。アブレーション実験でFile-as-Busを除去するとPaperBenchで−6.41点、MLE-Bench Liteで−31.82ポイント低下し、状態継続性が長時間タスクの核心的ボトルネックであることを実証。単なる反復回数の増加ではなく、構造化されたオーケストレーションと永続状態の組み合わせが性能を決定づけると結論づけている。

自律AIエージェント ML研究自動化マルチエージェント長時間タスク

hf-papers 1日前 3

研究者ら、LLM対話のペルソナ崩れを解決する新手法を発表

SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

複数LLMエージェント間の長期対話でペルソナが劣化する問題を解決するフレームワーク「SPASM」が発表された。対話履歴を視点中立形式で保持し各エージェントが自己中心的に参照するECPアーキテクチャを採用。 GPT-4o-mini・DeepSeek・Qwenで45,000会話を生成して有効性を実証、対話データ生成の品質向上に貢献。

解説 SPASMは、LLM同士がロールプレイで長期対話を生成する際に生じる「ペルソナドリフト（役割がずれていく現象）」「ロール混同」「エコーイング（一方のエージェントが相手のスタイルを模倣する現象）」を根本的に抑制するフレームワークである。核心となる技術はECP（Egocentric Context Projection）で、対話履歴をユーザー／アシスタントのような特定のロール名を使わずに「誰が言った」という絶対情報で保持し、各エージェントへ渡す際に「self／partner」に動的変換する。これにより各エージェントが常に自分の視点から履歴を受け取り、役割の混乱を防ぐ。実験ではGPT-4o-mini、DeepSeek-V3.2、Qwen-Plusの9通りの組み合わせで500ペルソナ×10会話＝計45,000会話を生成。アブレーション実験でECPは通常の履歴連結（CONCAT）と比べてペルソナドリフトを有意に低減し、人間評価ではエコーイングをほぼゼロに抑えることを確認。埋め込み空間分析により、レスポンダーモデルの種類が対話の幾何学的構造を支配することも明らかになった。ACL 2026 Findingsに採択済みであり、カウンセリング・教育・感情サポートなどLLM対話データの大規模合成に直接応用可能な実用的貢献である。

対話生成ペルソナマルチエージェント合成データ LLM

hf-papers 1日前 4

研究者ら、LLM後学習データの継承関係を自動解析するAIフレームワークを発表

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

マルチエージェントフレームワークを用いてLLMのポスト学習データセット間の継承関係を自動追跡する手法が発表された。 83シードデータから430ノード・971辺の進化グラフを構築し、データ生態系全体を可視化することに成功。データの隠れた重複やベンチマーク汚染の連鎖伝播を定量的に解明し、LLM開発の透明性向上に貢献する。

解説本論文はLLMのポスト学習（SFT・ファインチューニング等）に使われるデータセット間の継承関係「データリネージ」を自動解析するマルチエージェントフレームワークを提案する。GPT-5.1とGemini-2.5-Flashを役割分担した専門エージェント群がHuggingFaceのREADMEや論文・ブログを収集・解析し、83個のシードデータから430ノード・971エッジの有向進化グラフを構築する。分析から、数学データは深い再帰的改良（平均深度2.92）、汎用データは広い水平集積（深度1.05）という対照的な進化パターンが判明した。さらに17データセットで1%以上の隠れた重複（最大46.48%）と、5ベンチマークにまたがる汚染の連鎖伝播（例：Caco-1.3MはOmni-Mathの37.95%を間接継承）を発見した。応用として系譜グラフのルートノードを起点とするプロベナンスベースサンプリングを提案し、570Kの多様なデータセットが1.2M超の大規模コーパスをVendiスコア等の多様性指標で上回ることを実証した。データ品質の透明性確保と系統的なデータ管理に向けた実践的意義が高い。

データリネージマルチエージェントポスト学習データ品質ベンチマーク汚染

hf-papers 1日前 4

研究者ら、LLMエージェントの複数ユーザー対応に深刻な限界を発見

Multi-User Large Language Model Agents

複数ユーザーの権限・目的を同時処理する「マルチプリンシパル」設定を初めて体系的に研究。 GPT・Claude・Geminiなど19モデルを3シナリオで評価し、最良モデルでも深刻な欠陥を確認。企業導入が進むLLMエージェントのアクセス制御・プライバシー設計に警鐘を鳴らす。

解説本論文はスタンフォード大学・KAUST・MITらの共同研究で、LLMエージェントを複数ユーザーが同時利用する「マルチプリンシパル設定」を経済学のプリンシパル・エージェント理論に基づき形式化した初の体系的研究。現行のLLMは単一ユーザー向けチャットテンプレートとSFT/RLHFで学習されており、複数ユーザーの役割・権限・プライバシーをネイティブに扱う機構を持たないという根本問題を指摘。評価ベンチマーク「Muses-Bench」として3シナリオを設計：①複数ユーザーの命令が衝突した際の優先順位判断（F1スコア）と実行忠実度、②機密リソースへのアクセス制御（プライバシー・ユーティリティのトレードオフ）、③部分情報開示下での会議スケジューリング。GPT-5.1、Claude-Sonnet-4.5、Gemini-3-Proら19モデルを比較した結果、Gemini-3-Proが平均85.6で最高性能を記録。しかし全モデルで共通の弱点が判明：ユーザー間衝突時の命令実行精度が大幅低下、多ターン対話でプライバシー保護が段階的に崩壊（4ターンで0.95→0.75以下）、参加者増加に伴い調整成功率が急落。企業向けAIアシスタントやチームワークフロー統合の実用化に向け、ネイティブマルチユーザープロトコルや衝突解決の学習目標設計が必須と示唆する。

マルチエージェント LLMベンチマークプライバシーアクセス制御マルチプリンシパル

arxiv-cs-ai 2日前 4

研究者ら、複数ユーザーによるLLMエージェント利用を初めて理論化

Multi-User Large Language Model Agents

LLMエージェントを複数ユーザーが同時利用する状況を多主体意思決定問題として初めて形式化した研究が登場。役割・権限・プライバシーが異なるユーザー間の利益相反や情報非対称性を分析し、既存の単一ユーザー最適化モデルの限界を指摘。組織・チームでのAIエージェント導入が加速する中、現実的な多ユーザー対応の設計指針を提供する枠組みとして注目される。

解説本論文は、LLMエージェントが単一ユーザーではなく複数ユーザーに同時対応する「マルチユーザー・マルチプリンシパル」設定を初めて体系的に研究したものです。従来のGPT-4oやClaudeなどのLLMシステムは、1人の主体（ユーザーまたはオペレーター）の指示を唯一の権威として扱う単一プリンシパルパラダイムで設計されていますが、チームや組織のツールとして統合される現実では、異なる役割・権限・目的を持つ複数のユーザーが同一エージェントを利用するケースが増加しています。本研究では、この状況を多主体意思決定問題（multi-principal decision problem）として数学的に定式化し、権限の階層構造・利益相反・情報の非対称性・プライバシー制約をどう扱うかを議論します。実験では既存LLMがこのマルチユーザー設定でどのような失敗を犯すかを示し、特定ユーザーへの過度な忖度や情報漏洩リスクを明らかにしています。実用面では、企業内ワークフロー・医療チーム・法務組織など複数の意思決定者が関わる場面への応用が見込まれ、「誰の指示を優先するか」という根本的な設計問題に対する理論的基盤を提供する点で重要な貢献です。

マルチエージェント LLMエージェント多主体意思決定プライバシー組織AI

anthropic-engineering 22日前 4

Anthropic、長時間エージェント開発向けマルチエージェント設計を提案

Harness design for long-running application development

Anthropicが自律コーディングエージェントの品質向上を目的とした生成者・評価者分離アーキテクチャを公開した。 GANにヒントを得た多エージェント構成で自己評価バイアスを排除し、単一エージェント比で大幅な品質向上を実証。フロントエンドからフルスタック開発まで幅広く適用可能で、長時間自律タスクの信頼性向上に貢献する。

Anthropic エージェント設計自律コーディングマルチエージェント

anthropic-engineering 2ヶ月前 4

Anthropic、並列Claude群でCコンパイラを自律構築

Building a C compiler with a team of parallel Claudes

Anthropicが16個のClaude Opus 4.6エージェントを並列稼働させ、約10万行のRust製Cコンパイラをほぼ自律的に構築した。 GCC torture testで約99%合格、Linux・FFmpeg・SQLiteのコンパイルにも成功。開発コストは約2万ドル。 AIによる大規模自律開発の実現可能性を示した一方、モデル能力の限界や未検証コードのリスクも浮き彫りに。

Anthropic Claude 自律エージェントコンパイラマルチエージェント

anthropic-engineering 10ヶ月前 4

Anthropic、マルチエージェント研究システムで性能90%向上を達成

How we built our multi-agent research system

Anthropicがリサーチ機能に採用したオーケストレーター・ワーカー型マルチエージェントシステムの構築手法を公開。複数サブエージェントの並列調査により単一エージェント比で90%超の性能向上、研究時間を最大90%削減。プロンプト設計・評価手法・本番信頼性の実践的教訓はAIエージェント開発者にとって必読の内容。

Anthropic マルチエージェントアーキテクチャ Claude

要約済み 11