要約
研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。 量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。
公式ソースだけを集めたAIニュースを日本語要約でお届け
QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。 量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。
QuanBench+は、LLMによる量子プログラム生成を評価するための統一ベンチマークフレームワーク。従来の評価は単一フレームワーク(主にQiskit)に限定されており、モデルが「量子アルゴリズムを理解しているのか」「フレームワークの構文に慣れているだけなのか」を区別できない問題があった。本研究はQiskit・PennyLane・Cirqという主要3フレームワークにまたがる42の対応タスクを設計し、量子アルゴリズム実装・ゲート分解・状態準備という3カテゴリをカバーする。評価指標はPass@1(1回で正解する確率)とPass@5(5回試行中少なくとも1回正解する確率)を採用し、確率的出力にはKLダイバージェンス(確率分布間の差異を測る指標)による許容判定を導入している。また、実行エラーや誤答後にモデルが自己修正する「フィードバック修復」後のPass@1も計測。ワンショット最高スコアはQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%で、修復後は83.3%・76.2%・66.7%まで向上。GPT-4oやClaudeなど主要モデルを横断評価しており、フレームワーク間での性能ギャップが明確に示された。量子ソフトウェア開発支援AIの実用化に向けた重要な評価基盤となる。