LLMベンチマーク
要約済み 2
-
hf-papers 1日前 3量子コード生成LLMを統一評価するベンチマーク登場QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の量子コード生成LLM評価基準「QuanBench+」を発表。 42タスクでPass@kとKLダイバージェンスを用いた確率的評価を実施、フィードバック修復でQiskit正解率83%を達成。 量子プログラミング支援AIの標準評価指標が整備され、実用化に向けた研究加速が期待される。
解説 QuanBench+は、量子プログラミングの三大フレームワーク(Qiskit・PennyLane・Cirq)を横断してLLMの量子コード生成能力を統一評価するベンチマークである。42タスク(量子アルゴリズム・ゲート分解・状態準備)を各フレームワーク向けに整備し、決定論的出力にはPass@k、確率的出力にはKLダイバージェンス(閾値0.05)で正誤を判定する。評価対象にはGemini 3 Pro・GPT-5.1・Claude 3.7 Sonnet・DeepSeek-v3・Llama 4 Maverick等の最前線モデルが含まれる。ワンショット正答率はQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%と一貫した難易度順序を示し、フレームワーク固有のAPI知識の差が性能を大きく左右することが判明した。フィードバックループ(最大5回修復試行)ではQiskit 83.3%・Cirq 76.2%・PennyLane 66.7%へ向上するが、残存エラーの大半は「意味的誤り(論理・量子回路設計の誤解)」であり、表面的な実装ミスの修正だけでは解消できない深い推論課題を抱えていることが示された。実用上は量子ソフトウェア開発支援ツールの評価基盤として機能する一方、真のマルチフレームワーク対応は未解決問題であることを明確に示している。 -
hf-papers 1日前 4研究者ら、LLMエージェントの複数ユーザー対応に深刻な限界を発見Multi-User Large Language Model Agents
複数ユーザーの権限・目的を同時処理する「マルチプリンシパル」設定を初めて体系的に研究。 GPT・Claude・Geminiなど19モデルを3シナリオで評価し、最良モデルでも深刻な欠陥を確認。 企業導入が進むLLMエージェントのアクセス制御・プライバシー設計に警鐘を鳴らす。
解説 本論文はスタンフォード大学・KAUST・MITらの共同研究で、LLMエージェントを複数ユーザーが同時利用する「マルチプリンシパル設定」を経済学のプリンシパル・エージェント理論に基づき形式化した初の体系的研究。現行のLLMは単一ユーザー向けチャットテンプレートとSFT/RLHFで学習されており、複数ユーザーの役割・権限・プライバシーをネイティブに扱う機構を持たないという根本問題を指摘。評価ベンチマーク「Muses-Bench」として3シナリオを設計:①複数ユーザーの命令が衝突した際の優先順位判断(F1スコア)と実行忠実度、②機密リソースへのアクセス制御(プライバシー・ユーティリティのトレードオフ)、③部分情報開示下での会議スケジューリング。GPT-5.1、Claude-Sonnet-4.5、Gemini-3-Proら19モデルを比較した結果、Gemini-3-Proが平均85.6で最高性能を記録。しかし全モデルで共通の弱点が判明:ユーザー間衝突時の命令実行精度が大幅低下、多ターン対話でプライバシー保護が段階的に崩壊(4ターンで0.95→0.75以下)、参加者増加に伴い調整成功率が急落。企業向けAIアシスタントやチームワークフロー統合の実用化に向け、ネイティブマルチユーザープロトコルや衝突解決の学習目標設計が必須と示唆する。