量子コード生成LLMの統一ベンチマーク「QuanBench+」登場

arxiv-cs-ai 2026-04-13 04:00 ★3

量子コード生成LLMの統一ベンチマーク「QuanBench+」登場

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

量子コンピュータコード生成ベンチマーク LLM評価 Qiskit

要約

研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。

解説・分析

QuanBench+は、LLMによる量子プログラム生成を評価するための統一ベンチマークフレームワーク。従来の評価は単一フレームワーク（主にQiskit）に限定されており、モデルが「量子アルゴリズムを理解しているのか」「フレームワークの構文に慣れているだけなのか」を区別できない問題があった。本研究はQiskit・PennyLane・Cirqという主要3フレームワークにまたがる42の対応タスクを設計し、量子アルゴリズム実装・ゲート分解・状態準備という3カテゴリをカバーする。評価指標はPass@1（1回で正解する確率）とPass@5（5回試行中少なくとも1回正解する確率）を採用し、確率的出力にはKLダイバージェンス（確率分布間の差異を測る指標）による許容判定を導入している。また、実行エラーや誤答後にモデルが自己修正する「フィードバック修復」後のPass@1も計測。ワンショット最高スコアはQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%で、修復後は83.3%・76.2%・66.7%まで向上。GPT-4oやClaudeなど主要モデルを横断評価しており、フレームワーク間での性能ギャップが明確に示された。量子ソフトウェア開発支援AIの実用化に向けた重要な評価基盤となる。

AIフロントライン

量子コード生成LLMの統一ベンチマーク「QuanBench+」登場

要約

解説・分析

関連する読者