推論 - AIフロントライン

arxiv-cs-ai 7時間前 4

How Transformers Learn to Plan via Multi-Token Prediction

研究者らが複数トークン予測（MTP）によりTransformerが推論タスクで優れた計画能力を発揮するメカニズムを実証・理論的に解明した。 2層Transformerの解析でMTPが逆向き推論を誘発し、勾配分離特性によりより明確な学習信号を提供することを証明。 LLMの推論能力向上に向けた学習手法の設計指針として、モデル開発・研究に広く影響を与えると期待される。

解説本論文は、言語モデルの学習目標として注目されるMTP（Multi-token Prediction：複数トークンを同時に予測する手法）が、なぜ推論・計画タスクでNTP（Next-token Prediction：従来の次トークン予測）を上回るのかを実証・理論の両面から解明した研究です。実験面では、合成グラフ上のパス探索タスク、数式パズルのCountdown、ブール充足可能性問題（SAT）という多様なベンチマークで一貫してMTPがNTPを上回ることを示しました。理論面では、スターグラフタスクに対して2層Transformerを数学的に解析し、MTPが「2段階逆向き推論」を誘発することを証明しました。具体的には、モデルがまずゴールノード（終端）に注目し、次に中間ノードを逆向きにトレースしてパスを再構成するという挙動が自然に生まれます。この挙動は、MTPの持つ「勾配分離特性（gradient decoupling）」に起因しており、各予測ヘッドが独立した学習信号を受け取ることでNTPより質の高い勾配が得られます。 GPT-4oやClaudeのような大規模モデルでも推論時の計画能力は課題とされており、本研究はその根本原因を学習目標のレベルで説明し、MTPによる改善の理論的根拠を初めて明確に示した点で重要です。実用上は、次世代言語モデルの事前学習目標の設計指針を与える成果といえます。

Multi-token Prediction Planning Transformer理論推論グラフ探索

hf-papers 1日前 4

新ベンチマークGeneral365、最強LLMでも正答率62%止まり

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

研究チームがLLMの汎用推論能力を測る新ベンチマーク「General365」を発表した。 K-12レベルの知識に限定し専門知識不要の純粋な推論力を評価、26モデルを検証。最高性能のGemini 2.5 Proでも62.8%にとどまり、現行LLMの推論限界を浮き彫りにした。

解説 General365は、LLMの「汎用推論能力」を測定するために設計された新しいベンチマークです。数学・物理などの専門知識に偏りがちな既存ベンチマーク（AIME、GPQAなど）とは異なり、必要な背景知識をK-12（中高校生）レベルに限定することで、知識量ではなく純粋な推論力を分離して評価できる点が最大の特徴です。ベンチマークは365個の手動作成シード問題と1,095個のバリアント問題から構成され、「複雑な制約」「分岐・列挙」「空間・時間推論」「再帰・バックトラッキング」「意味的干渉」「暗黙情報推論」「最適戦略」「確率・不確実性」の8カテゴリを網羅しています。 26モデルを評価した結果、最高性能はGemini-3-Proの62.8%で、大半のモデルは合格ライン（60%）を下回りました。Claude Sonnet 4.5は48.6%、GPT-5-Thinkingは58.6%、DeepSeek-V3.2-Thinkingは54.9%でした。特に「意味的干渉」と「最適戦略」カテゴリが全モデルで最大のボトルネックとなっており、LLMが常識的バイアスや長期的な戦略計画に弱いことが示されました。また、Gemini-3-Proは他の上位モデルより大幅に少ない約14kトークンでSOTA性能を達成しており、推論効率の優位性も確認されています。既存ベンチマーク（BBH、BBEH）が飽和状態にある中、General365はLLMの真の推論限界を浮き彫りにする実用的な評価基盤として貢献します。

ベンチマーク推論 LLM評価汎用AI

arxiv-cs-ai 2日前 4

LLMの数学推論、入力変形で最大100%精度低下と判明

Robust Reasoning Benchmark

研究チームが14種の入力摂動手法でLLMの推論頑健性を評価するベンチマークを公開した。 AIME 2024を改変したテストで8モデルを検証し、オープンウェイト系は平均55%・最大100%の精度崩壊を確認。高精度ベンチマーク結果の信頼性に疑問を投げかけ、堅牢な評価手法の必要性を示した。

解説本論文は、LLM（大規模言語モデル）の数学的推論能力が「標準的なテキストフォーマット」に過剰適合していることを体系的に示す研究です。著者らは14種類の摂動（perturbation）技法—例えば数式の表記変換、記号の置き換え、問題文の言い回し変更など—からなるパイプラインを構築し、AIME 2024データセットに適用してロバストネス評価用ベンチマークを作成しました。評価対象は最先端の8モデル。フロンティアモデル（GPT-4oやClaudeシリーズ等のクローズドモデル）は摂動に対してある程度の耐性を示した一方、7Bから120Bパラメータのオープンウェイト推論モデル群は壊滅的な精度低下（平均55%・一部摂動で100%低下）を記録しました。さらに「ワーキングメモリ容量」の影響を切り離すため、単一コンテキストウィンドウ内で複数の無摂動問題を連続して解かせる実験も実施。これにより、パース失敗（入力の機械的な読み取り誤り）と下流の推論失敗を分離しています。実用上の意義は大きく、オープンソースモデルの実世界展開における脆弱性を定量化し、今後の訓練・評価設計に対して具体的な改善方向性を示している点が重要です。

ベンチマーク推論ロバストネス数学 LLM評価

anthropic-engineering 1年前 4

Anthropic、Claudeに「think」ツールを導入し複雑推論を強化

The \"think\" tool: Enabling Claude to stop and think in complex tool use situations

Anthropicがツール使用中に明示的な思考ステップを挟む「think」ツールをClaudeに導入した。航空会社タスクで54%の精度向上、SWE-benchでも有意な性能改善を確認。エージェント型AIの信頼性向上に直結し、複雑業務への実用展開を後押しする。

Anthropic Claude エージェント推論ツール使用

推論

要約済み 4