量子コード生成
要約済み 1
-
hf-papers 1日前 3量子コード生成LLMを統一評価するベンチマーク登場QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の量子コード生成LLM評価基準「QuanBench+」を発表。 42タスクでPass@kとKLダイバージェンスを用いた確率的評価を実施、フィードバック修復でQiskit正解率83%を達成。 量子プログラミング支援AIの標準評価指標が整備され、実用化に向けた研究加速が期待される。
解説 QuanBench+は、量子プログラミングの三大フレームワーク(Qiskit・PennyLane・Cirq)を横断してLLMの量子コード生成能力を統一評価するベンチマークである。42タスク(量子アルゴリズム・ゲート分解・状態準備)を各フレームワーク向けに整備し、決定論的出力にはPass@k、確率的出力にはKLダイバージェンス(閾値0.05)で正誤を判定する。評価対象にはGemini 3 Pro・GPT-5.1・Claude 3.7 Sonnet・DeepSeek-v3・Llama 4 Maverick等の最前線モデルが含まれる。ワンショット正答率はQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%と一貫した難易度順序を示し、フレームワーク固有のAPI知識の差が性能を大きく左右することが判明した。フィードバックループ(最大5回修復試行)ではQiskit 83.3%・Cirq 76.2%・PennyLane 66.7%へ向上するが、残存エラーの大半は「意味的誤り(論理・量子回路設計の誤解)」であり、表面的な実装ミスの修正だけでは解消できない深い推論課題を抱えていることが示された。実用上は量子ソフトウェア開発支援ツールの評価基盤として機能する一方、真のマルチフレームワーク対応は未解決問題であることを明確に示している。