温度パラメータ

1件の記事

要約済み 1

arxiv-cs-ai 2日前 3
温度設定でLLMの推論力が14倍差、研究が明らかに
Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

拡張推論LLMにおける温度設定とプロンプト戦略の相互作用を体系的に分析した研究が公開された。ゼロショットは中間温度(T=0.4〜0.7)で最高59%の精度、CoTは極端な温度で優位になることが判明。拡張推論の効果はT=0.0の6倍からT=1.0では14.3倍に拡大し、温度設定の重要性を示す。

解説本論文は、拡張推論（Extended Reasoning）機能を持つLLMにおいて、サンプリング温度（temperature）とプロンプト戦略を同時に最適化する重要性を実証的に示した研究です。拡張推論とは、回答生成前にモデルが内部で思考ステップを展開するテストタイム計算の手法で、o1やDeepSeek-R1などに代表されます。実験ではGrok-4.1（拡張推論あり）をIMOレベルの数学ベンチマーク「AMO-Bench」39問に対し、温度0.0/0.4/0.7/1.0×ゼロショット/CoT（Chain-of-Thought：思考過程を段階的に示すプロンプト手法）の組み合わせで評価しました。主な発見は三点。第一に、ゼロショットプロンプトは中温度帯（T=0.4・0.7）で59%と最高精度を達成。第二に、CoTは温度の極端値（T=0.0またはT=1.0）で相対的に優位。第三に、拡張推論なしとの比較倍率がT=0.0の6倍からT=1.0で14.3倍へと劇的に増大し、高温域で拡張推論の価値が最も発揮されることが判明。 GPT-4oやClaudeなど非推論モデルとの直接比較は本論文の範囲外ですが、温度を固定してプロンプトだけ最適化する従来の慣行に疑問を呈する実用的な知見であり、推論モデルの運用設定に携わる開発者・研究者に直接役立つ内容です。

プロンプトエンジニアリング推論モデル温度パラメータ数学ベンチマーク Chain-of-Thought