物理推論
要約済み 1
-
hf-papers 1日前 4物理シミュレータとRLでLLMが国際物理オリンピックに挑むSolving Physics Olympiad via Reinforcement Learning on Physics Simulators
物理シミュレータで生成した合成データと強化学習を組み合わせ、LLMの物理推論能力を強化する手法が発表された。 シミュレーション環境のみで訓練したモデルが実世界ベンチマークへのゼロショット転移に成功し、IPhO問題で既存手法比5〜10ポイント向上。 シミュレータを活用した低コストな科学推論トレーニングの可能性を示し、理系分野のAI応用に新たな道を開く。
解説 本論文は、大規模言語モデル(LLM)の物理推論能力を向上させるため、物理シミュレータをスケーラブルなデータ源として活用する手法「Sim2Reason」を提案する。DeepSeek-R1などの推論特化モデルが数学分野で躍進した一方、物理学では大規模なQ&Aデータセットが乏しく、同様のアプローチが困難だった。そこで本研究ではPhysicsエンジン上でランダムシーンを生成し、物理法則に基づく合成Q&Aペアを自動生成、その上で強化学習(RL)によりモデルを訓練する。シミュレーション内でのみ学習したモデルが、実世界の物理ベンチマーク(国際物理オリンピックIPhO等)にゼロショット転移できることを示し、異なるモデルサイズで5〜10ポイントの性能改善を達成。GPT-4oやGemini等の既存モデルに対しても競合または上回る結果を示している。シミュレータをデータジェネレータとして用いることでインターネット上のデータ不足問題を回避できる点が新規性であり、数学以外の自然科学分野へのRL適用に新たな道を開く研究として重要度が高い。