研究者らがLLMエージェントの命令階層問題を指摘、全モデルで精度43%止まり

hf-papers 2026-04-15 06:00 ★4

研究者らがLLMエージェントの命令階層問題を指摘、全モデルで精度43%止まり

Many-Tier Instruction Hierarchy in LLM Agents

命令階層エージェント安全ベンチマーク権限管理

要約

研究チームがLLMエージェントの多層命令階層（ManyIH）パラダイムと新インタフェースPPIを提案した。 853サンプルのベンチマークで評価した結果、最先端モデルでも精度は約43%にとどまり全フロンティアモデルが苦手と判明。複数ソースから命令を受けるエージェントの権限管理は未解決の課題であり、安全なAIエージェント設計に警鐘を鳴らす。

解説・分析

LLMエージェントはシステムプロンプト、ユーザー入力、ツール出力など多様なソースから命令を受け取るが、従来のInstruction Hierarchy（IH）は「system > user」のような少数の固定ロールで権限を表現しており、複雑なエージェント環境には不十分だった。本研究が提案するManyIH（Many-Tier Instruction Hierarchy）は、Privilege Prompt Interface（PPI）を介して推論時に各命令へ動的に権限値を付与する仕組みで、整数順序（低値優先）またはスカラー値（高値優先）の2形式をサポートする。評価用ベンチマークManyIH-Benchは853サンプルからなり、最大12権限階層・実世界46エージェントシナリオをカバー。Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6など10モデルを評価した結果、最高精度はGemini 3.1 Proの42.7%と全モデルが低水準にとどまり、階層数増加とともに精度が単調に低下することが示された。特に機能正確性（コード動作）は高く維持されるが、権限に基づくスタイル制約の遵守が主なボトルネックと判明。またPPIの表現形式（序数 vs スカラー）を変えるだけで最大8%超の精度低下が生じ、同じ順序関係でも値の微小変動が個別サンプルの正誤を変えるという脆弱性も明らかになった。LLMエージェントの安全・信頼性向上に向けた重要な未解決課題を提示した研究である。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.09443

← 一覧に戻る

AIフロントライン