コード生成
要約済み 2
-
arxiv-cs-ai 2日前 3量子コード生成LLMの統一ベンチマーク「QuanBench+」登場QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。 量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。
解説 QuanBench+は、LLMによる量子プログラム生成を評価するための統一ベンチマークフレームワーク。従来の評価は単一フレームワーク(主にQiskit)に限定されており、モデルが「量子アルゴリズムを理解しているのか」「フレームワークの構文に慣れているだけなのか」を区別できない問題があった。本研究はQiskit・PennyLane・Cirqという主要3フレームワークにまたがる42の対応タスクを設計し、量子アルゴリズム実装・ゲート分解・状態準備という3カテゴリをカバーする。評価指標はPass@1(1回で正解する確率)とPass@5(5回試行中少なくとも1回正解する確率)を採用し、確率的出力にはKLダイバージェンス(確率分布間の差異を測る指標)による許容判定を導入している。また、実行エラーや誤答後にモデルが自己修正する「フィードバック修復」後のPass@1も計測。ワンショット最高スコアはQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%で、修復後は83.3%・76.2%・66.7%まで向上。GPT-4oやClaudeなど主要モデルを横断評価しており、フレームワーク間での性能ギャップが明確に示された。量子ソフトウェア開発支援AIの実用化に向けた重要な評価基盤となる。 -
gh-mistral 1年前 3Mistral、推論ライブラリにMamba対応モデルを追加mistralai/mistral-inference v1.2.0 Add Mamba
Mistralの推論ライブラリ「mistral-inference」v1.2.0がMambaアーキテクチャをサポート。 コード生成特化のCodestral-Mamba 7Bと数学特化のMathstral 7Bが利用可能になった。 pipインストールだけで試せる手軽さから、開発者の採用が加速しそうだ。