Planning
要約済み 1
-
arxiv-cs-ai 2日前 4MTPがTransformerの計画能力を引き出す仕組みを理論的に解明How Transformers Learn to Plan via Multi-Token Prediction
研究者らが複数トークン予測(MTP)によりTransformerが推論タスクで優れた計画能力を発揮するメカニズムを実証・理論的に解明した。 2層Transformerの解析でMTPが逆向き推論を誘発し、勾配分離特性によりより明確な学習信号を提供することを証明。 LLMの推論能力向上に向けた学習手法の設計指針として、モデル開発・研究に広く影響を与えると期待される。
解説 本論文は、言語モデルの学習目標として注目されるMTP(Multi-token Prediction:複数トークンを同時に予測する手法)が、なぜ推論・計画タスクでNTP(Next-token Prediction:従来の次トークン予測)を上回るのかを実証・理論の両面から解明した研究です。 実験面では、合成グラフ上のパス探索タスク、数式パズルのCountdown、ブール充足可能性問題(SAT)という多様なベンチマークで一貫してMTPがNTPを上回ることを示しました。 理論面では、スターグラフタスクに対して2層Transformerを数学的に解析し、MTPが「2段階逆向き推論」を誘発することを証明しました。具体的には、モデルがまずゴールノード(終端)に注目し、次に中間ノードを逆向きにトレースしてパスを再構成するという挙動が自然に生まれます。この挙動は、MTPの持つ「勾配分離特性(gradient decoupling)」に起因しており、各予測ヘッドが独立した学習信号を受け取ることでNTPより質の高い勾配が得られます。 GPT-4oやClaudeのような大規模モデルでも推論時の計画能力は課題とされており、本研究はその根本原因を学習目標のレベルで説明し、MTPによる改善の理論的根拠を初めて明確に示した点で重要です。実用上は、次世代言語モデルの事前学習目標の設計指針を与える成果といえます。