コード生成

2件の記事

要約済み 2

arxiv-cs-ai 2日前 3
量子コード生成LLMの統一ベンチマーク「QuanBench+」登場
QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。

解説 QuanBench+は、LLMによる量子プログラム生成を評価するための統一ベンチマークフレームワーク。従来の評価は単一フレームワーク（主にQiskit）に限定されており、モデルが「量子アルゴリズムを理解しているのか」「フレームワークの構文に慣れているだけなのか」を区別できない問題があった。本研究はQiskit・PennyLane・Cirqという主要3フレームワークにまたがる42の対応タスクを設計し、量子アルゴリズム実装・ゲート分解・状態準備という3カテゴリをカバーする。評価指標はPass@1（1回で正解する確率）とPass@5（5回試行中少なくとも1回正解する確率）を採用し、確率的出力にはKLダイバージェンス（確率分布間の差異を測る指標）による許容判定を導入している。また、実行エラーや誤答後にモデルが自己修正する「フィードバック修復」後のPass@1も計測。ワンショット最高スコアはQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%で、修復後は83.3%・76.2%・66.7%まで向上。GPT-4oやClaudeなど主要モデルを横断評価しており、フレームワーク間での性能ギャップが明確に示された。量子ソフトウェア開発支援AIの実用化に向けた重要な評価基盤となる。

量子コンピュータコード生成ベンチマーク LLM評価 Qiskit
gh-mistral 1年前 3
Mistral、推論ライブラリにMamba対応モデルを追加
mistralai/mistral-inference v1.2.0 Add Mamba

Mistralの推論ライブラリ「mistral-inference」v1.2.0がMambaアーキテクチャをサポート。コード生成特化のCodestral-Mamba 7Bと数学特化のMathstral 7Bが利用可能になった。 pipインストールだけで試せる手軽さから、開発者の採用が加速しそうだ。

Mistral Mamba コード生成数学AI OSS