新手法p1、少数プロンプトでプロンプト最適化を刷新

hf-papers 2026-04-13 15:00 ★4

新手法p1、少数プロンプトでプロンプト最適化を刷新

p1: Better Prompt Optimization with Fewer Prompts

プロンプト最適化強化学習数学的推論

要約

プロンプト最適化の性能がシステムプロンプト間の報酬分散に依存することを理論的に解明した研究が発表された。データ増加で最適化シグナルが弱まる逆説を発見し、高分散な少数プロンプトを選別するp1手法でGEPAなど既存手法を大幅に上回る性能を達成。 LLMアプリ開発においてプロンプト最適化の効率化・精度向上に直結する知見として注目される。

解説・分析

本論文は、LLM（大規模言語モデル）のシステムプロンプトを自動最適化する手法の根本的な課題を分析し、シンプルながら効果的な解決策「p1」を提案する研究である。

提案手法の仕組み： 報酬の分散を「応答間分散」（同じプロンプトでも生成のランダム性による変動）と「システムプロンプト間分散」（プロンプト品質の真の差異）に分解する理論的枠組みを構築。プロンプト最適化が成功するにはシステムプロンプト間分散が十分大きい必要があるが、異質なデータを多く使うほどこの分散が低下するという逆説を数学的に証明した。p1はこの洞察に基づき、システムプロンプト間分散が最大となる少数のユーザープロンプト（デフォルト2件）を選別してRL学習に使用するデータフィルタリング手法である。

実験結果： AIME 2024の数学競技問題（30問）から選んだたった2問で最適化したシステムプロンプトが、AIME 2025、HMMT等の未見ベンチマークでも汎化性能を示した。また、Qwen3-4B向けに最適化したプロンプトがより大きなQwen3-30Bにも転移した。

既存手法との比較： 進化的手法GEPAはAIMEでは訓練データの暗記に陥る傾向があったが、p1はより汎用的な推論スタイルを促すプロンプトを獲得した。IFBenchのような均質なタスクでは全データを使うRL/GEPAが優位だが、異質な数学推論では全データ学習が無効でp1が顕著な改善をもたらす。

実用的意義： モデルの重みを変更せずに性能向上が可能であり、少ないデータと計算コストで効果的なシステムプロンプトを発見できる点が産業応用において魅力的である。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.08801

← 一覧に戻る

AIフロントライン