物理推論

1件の記事

要約済み 1

hf-papers 1日前 4
物理シミュレータとRLでLLMが国際物理オリンピックに挑む
Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

物理シミュレータで生成した合成データと強化学習を組み合わせ、LLMの物理推論能力を強化する手法が発表された。シミュレーション環境のみで訓練したモデルが実世界ベンチマークへのゼロショット転移に成功し、IPhO問題で既存手法比5〜10ポイント向上。シミュレータを活用した低コストな科学推論トレーニングの可能性を示し、理系分野のAI応用に新たな道を開く。

解説本論文は、大規模言語モデル（LLM）の物理推論能力を向上させるため、物理シミュレータをスケーラブルなデータ源として活用する手法「Sim2Reason」を提案する。DeepSeek-R1などの推論特化モデルが数学分野で躍進した一方、物理学では大規模なQ&Aデータセットが乏しく、同様のアプローチが困難だった。そこで本研究ではPhysicsエンジン上でランダムシーンを生成し、物理法則に基づく合成Q&Aペアを自動生成、その上で強化学習（RL）によりモデルを訓練する。シミュレーション内でのみ学習したモデルが、実世界の物理ベンチマーク（国際物理オリンピックIPhO等）にゼロショット転移できることを示し、異なるモデルサイズで5〜10ポイントの性能改善を達成。GPT-4oやGemini等の既存モデルに対しても競合または上回る結果を示している。シミュレータをデータジェネレータとして用いることでインターネット上のデータ不足問題を回避できる点が新規性であり、数学以外の自然科学分野へのRL適用に新たな道を開く研究として重要度が高い。

強化学習物理推論 LLM シミュレーション Sim2Real