LLM

hf-papers 2時間前 3

Accelerating Speculative Decoding with Block Diffusion Draft Trees

研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。

解説本論文はLLMの推論遅延を削減する投機的デコード（Speculative Decoding）の改善手法DDTree（Diffusion Draft Tree）を提案する。投機的デコードとは、軽量なドラフトモデルが複数のトークン候補を先行生成し、大規模ターゲットモデルが並列検証することで高速化する技法である。従来のDFlashはブロック拡散ドラフターを1回のフォワードパスで実行し各位置の周辺分布を得るが、検証する候補軌跡は1本のみだった。DDTreeはこの各位置周辺分布を活用してノード予算B内のドラフトツリーを構築する。提案の核心は「ドラフト分布下での期待受理長を最大化するツリー選択」をサロゲート目的関数として定式化し、上位B確率プレフィックスを選ぶことが最適となることを命題として証明した点にある。ツリー構成はmax-heapを用いた最良優先探索アルゴリズムで効率的（O(B log B)）に実現される。検証はTree Attentionによる1回のターゲットモデルフォワードパスで行う。実験ではQwen3-4B/8B/Coder-30Bに対してAIME・MATH-500・HumanEval等10データセット×2温度の全60設定でDFlashを上回り、Qwen3-8BのMATH-500では5.56倍→7.50倍へと大幅に改善。EAGLE-3等の自己回帰ドラフター系手法と比較しても競争力ある水準を達成している。

推論高速化投機的デコード拡散モデル LLM

hf-papers 5時間前 4

新手法HiVGでSVG生成、GPT-5.2超えを達成

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

研究チームがSVGを幾何命令単位でトークン化する階層的手法「HiVG」を発表。シーケンス長を最大63.8%削減し、3Bモデルで人間評価においてGPT-5.2やGemini-2.5-proを超える品質を実現。 LLMによるベクターグラフィック生成の効率と品質を大幅に向上させ、デザイン自動化分野への応用が期待される。

解説 HiVGはSVG（スケーラブルベクターグラフィックス）の自己回帰生成において、従来の汎用BPEトークナイザーが座標「100」を「1」「0」「0」と個別に分割してしまう問題を根本から解決する手法である。提案する階層的トークン化は2段階で構成される。まず原始SVGコードを構造・コマンド・座標・属性の4カテゴリの「アトミックトークン」に分解し、次にコマンドと対応パラメータをまとめた「セグメントトークン」に圧縮する。このセグメント学習はBPEに類似した頻度ベースの統合アルゴリズムで実施され、シーケンス長を最大63.8%（約2.7倍）削減する。また、新語彙の埋め込み初期化にHMN（階層型平均ノイズ）戦略を採用し、ガウス動径基底関数と多項式特徴を使って座標値の数値的連続性を注入することで空間認識を向上させる。訓練は3段階カリキュラムで複雑度を段階的に増加させ、長シーケンスへの汎化を安定化する。Qwen2.5-VL-3Bをバックボーンに245万サンプルで学習した結果、Image-to-SVGタスクでSSIM 0.896・LPIPS 0.114を達成し、8Bクラスの既存専用モデルを大きく凌駕。さらにAdobeイラストレーターでの専門家評価でも4.06/5点を獲得し、GPT-5.2（3.47点）やGemini-2.5-pro（3.32点）、Claude Sonnet 4.5（非公開）を上回った。トークン化設計がモデルスケール以上に品質を左右することを示す意義深い成果である。

SVG生成ベクターグラフィックストークン化 LLM シーケンス圧縮

hf-papers 5時間前 4

新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。

解説 KnowRLは、RLVR（検証可能報酬による強化学習）の根本的課題「報酬スパース性」を解決するフレームワーク。困難な数学問題ではLLMが全ロールアウトで不正解となり学習勾配がゼロになる問題があった。従来のヒントベースRL手法は長い解法プレフィックスや抽象テンプレートを注入するが、余剰情報が「クロスヒント不整合」を引き起こすという問題があった。 KnowRLはヒント設計を「最小充足ガイダンス問題」として定式化し、解法を原子的な知識点（KP）に分解して最小サブセットを選択する。重要な発見として「枝刈り相互作用パラドックス」があり、単一KPの削除は精度向上に寄与するが、複数KPを同時削除すると精度が低下するという現象を特定。この問題を解決するため、まず候補を絞り込んでから制約付き全域探索を行うCSS（制約付き部分集合探索）を提案した。実験では、OpenMath-Nemotron-1.5BをベースにKnowRL-Nemotron-1.5Bを訓練し、8つの数学ベンチマーク（AIME24/25、MATH-500等）でKPなし推論時に平均70.08（ベースライン比+9.63点）、CSS選択KP付きで74.16を達成し1.5Bスケール新SOTAを確立。JustRLやQuestAなどの既存手法を上回る。平均2.57 KPと少ないトークン数で高効果を実現し、教師モデル不要で訓練可能な点が実用上の強みとなる。

強化学習数学推論 LLM 報酬スパース性ヒント学習

hf-papers 8時間前 4

オフライン蒸留で推論モデルの学習コストを大幅削減

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。

解説本論文はLightning OPD（Offline On-Policy Distillation）と呼ばれる手法を提案し、DeepSeek-R1やQwQのような大規模推論モデル（LRM）の事後学習を大幅に効率化する。従来のオンラインRLベースの推論強化手法は、推論中に学生モデルがサンプリングを繰り返す必要があり、計算コストが極めて高い。一方で純粋なオフライン蒸留では、教師モデルが生成した軌跡と学生モデルの分布のミスマッチ（covariate shift）が問題になる。Lightning OPDはこの両者のトレードオフを克服するため、「オフライン」でありながら「オンポリシー」に近い分布のデータを活用する手法を採用する。具体的には、学生モデルの分布を考慮した軌跡収集や重み付けを行い、蒸留の品質を維持しながら学習コストを大幅に削減する。実験ではMATH、AIME等の数学推論ベンチマークにおいて、オンラインRL手法（GRPO等）と同等以上の精度を達成しつつ、学習時間・GPU消費を数分の一に抑えることが示されている。実用上は、限られた計算資源で強力な推論モデルを構築したい企業・研究者にとって有益な手法である。

LLM 知識蒸留推論モデル事後学習効率化

hf-papers 23時間前 3

記憶強化型報酬形成MEDSでLLM強化学習が進化

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

LLM強化学習における繰り返しエラーを検出・抑制する新手法「MEDS」が提案された。層ごとのロジットを「推論指紋」として保存し、密度ベースクラスタリングで頻出エラーパターンを特定・ペナルティ強化する。既存RL手法を上回る性能を達成し、LLMの訓練効率と探索多様性の向上に貢献する可能性がある。

解説 MEDSは、LLMの強化学習（RL）訓練において「同じ誤りを繰り返す」という失敗モードを解決する記憶強化型報酬整形フレームワークである。従来のエントロピー正則化は現在の方策の確率分布に乱数性を与えるだけで、過去のロールアウト（試行）で繰り返された特定の誤りパターンを明示的に抑制できない。MEDSは各ロールアウト時に中間層のロジット（出力重み）を「推論指紋」として蓄積し、密度ベースクラスタリング（DBSCAN等）で頻出する誤りクラスタを特定する。そのクラスタへの割り当て頻度に応じてペナルティを動的に強化することで、モデルが同じ失敗パターンに陥ることを抑制し、より広い探索空間をカバーさせる。実験では5つのデータセット・3種のベースモデルで評価し、pass@1で最大4.13ポイント、pass@128で最大4.37ポイントの改善を達成した。アーキテクチャ変更不要で既存のRL訓練パイプラインに統合できる点が実用的である。GPT-4oやClaudeとの直接比較は論文中に記載されていないが、ベースモデルに対する一貫した性能向上が示されており、コード生成・数学推論タスクでの適用が期待される。

強化学習報酬形成サンプリング多様性 LLM 探索

hf-papers 1日前 3

研究者ら、LLM対話のペルソナ崩れを解決する新手法を発表

SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

複数LLMエージェント間の長期対話でペルソナが劣化する問題を解決するフレームワーク「SPASM」が発表された。対話履歴を視点中立形式で保持し各エージェントが自己中心的に参照するECPアーキテクチャを採用。 GPT-4o-mini・DeepSeek・Qwenで45,000会話を生成して有効性を実証、対話データ生成の品質向上に貢献。

解説 SPASMは、LLM同士がロールプレイで長期対話を生成する際に生じる「ペルソナドリフト（役割がずれていく現象）」「ロール混同」「エコーイング（一方のエージェントが相手のスタイルを模倣する現象）」を根本的に抑制するフレームワークである。核心となる技術はECP（Egocentric Context Projection）で、対話履歴をユーザー／アシスタントのような特定のロール名を使わずに「誰が言った」という絶対情報で保持し、各エージェントへ渡す際に「self／partner」に動的変換する。これにより各エージェントが常に自分の視点から履歴を受け取り、役割の混乱を防ぐ。実験ではGPT-4o-mini、DeepSeek-V3.2、Qwen-Plusの9通りの組み合わせで500ペルソナ×10会話＝計45,000会話を生成。アブレーション実験でECPは通常の履歴連結（CONCAT）と比べてペルソナドリフトを有意に低減し、人間評価ではエコーイングをほぼゼロに抑えることを確認。埋め込み空間分析により、レスポンダーモデルの種類が対話の幾何学的構造を支配することも明らかになった。ACL 2026 Findingsに採択済みであり、カウンセリング・教育・感情サポートなどLLM対話データの大規模合成に直接応用可能な実用的貢献である。

対話生成ペルソナマルチエージェント合成データ LLM

hf-papers 1日前 4

物理シミュレータとRLでLLMが国際物理オリンピックに挑む

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

物理シミュレータで生成した合成データと強化学習を組み合わせ、LLMの物理推論能力を強化する手法が発表された。シミュレーション環境のみで訓練したモデルが実世界ベンチマークへのゼロショット転移に成功し、IPhO問題で既存手法比5〜10ポイント向上。シミュレータを活用した低コストな科学推論トレーニングの可能性を示し、理系分野のAI応用に新たな道を開く。

解説本論文は、大規模言語モデル（LLM）の物理推論能力を向上させるため、物理シミュレータをスケーラブルなデータ源として活用する手法「Sim2Reason」を提案する。DeepSeek-R1などの推論特化モデルが数学分野で躍進した一方、物理学では大規模なQ&Aデータセットが乏しく、同様のアプローチが困難だった。そこで本研究ではPhysicsエンジン上でランダムシーンを生成し、物理法則に基づく合成Q&Aペアを自動生成、その上で強化学習（RL）によりモデルを訓練する。シミュレーション内でのみ学習したモデルが、実世界の物理ベンチマーク（国際物理オリンピックIPhO等）にゼロショット転移できることを示し、異なるモデルサイズで5〜10ポイントの性能改善を達成。GPT-4oやGemini等の既存モデルに対しても競合または上回る結果を示している。シミュレータをデータジェネレータとして用いることでインターネット上のデータ不足問題を回避できる点が新規性であり、数学以外の自然科学分野へのRL適用に新たな道を開く研究として重要度が高い。

強化学習物理推論 LLM シミュレーション Sim2Real

arxiv-cs-ai 1日前 3

プロアクティブAIエージェント、人間介入後も支援継続

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

大規模クラウドサービス向けに、人間のサポート介入後もAIが能動的に関与し続ける「Vigil」システムが発表された。従来のリアクティブ型と異なり、チケット対応のライフサイクル全体に関与し、未解決ケースから継続学習して品質を向上。オンコール業務の負荷軽減とサポート品質の自律改善を両立する実用システムとして注目される。

解説本論文は、クラウドサービスプラットフォームにおける顧客サポートのオンコール対応を対象とした、プロアクティブAIエージェント「Vigil」を提案する。従来のLLMベースのリアクティブエージェントは、問題が解決できず人間のサポートアナリストにエスカレーションされると処理から離脱してしまう課題があった。Vigilはこの課題を解消し、人間のサポートが既に介入している段階でも対話に統合され、フォローアップ照会の補助・解決進捗の追跡・失敗ケースからの学習を継続的に行う点が特徴的。具体的には、顧客とサポートアナリスト間の対話にリアルタイムで参加し、関連ドキュメントや類似解決事例をサポートアナリストに自動提示する仕組みを持つ。また継続的自己改善（Continuous Self-Improvement）機能により、過去の未解決ケースを蓄積・分析してシステムの知識ベースを自動更新する。実際のクラウドプラットフォームに展開されており、GPT-4oやClaudeなどの既存LLMをベースにしながらも、単純なRAG（検索拡張生成）手法を超えたオンコールライフサイクル全体への関与という新たなアプローチを示している。実用上は、熟練サポートアナリストの負荷軽減と対応品質の均質化に貢献する意義がある。

プロアクティブエージェントオンコール支援クラウドサービス LLM 自己改善

arxiv-cs-ai 1日前 3

OOWM、OOP活用でLLMのロボット計画推論を刷新

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Chain-of-Thoughtの限界を克服する新フレームワーク「OOWM」が発表された。 OOPとUMLで状態空間・オブジェクト階層・因果依存関係を構造的に表現し、既存LLM手法を上回る性能を達成。 LLMによる具現化エージェントの設計指針として、記号的推論の有効性を示す重要な研究成果。

解説本論文は、大規模言語モデル（LLM）をロボット計画などの具現化タスク（embodied task：実環境でのエージェント行動）に適用する際の根本的な問題に取り組む。従来のChain-of-Thought（CoT）は自然言語の連鎖推論でLLMの思考力を高める手法だが、線形テキストでは「どのオブジェクトがどの状態にあるか」「行動によって状態がどう遷移するか」を明示的に表現しにくい。提案手法OOWM（Object-Oriented World Modeling）は、世界モデルをW=⟨S,T⟩というシンボリックなタプルとして定式化する。Sは環境状態（オブジェクトの属性・関係をUMLクラス図で表現）、Tは状態遷移ロジック（行動→新状態）を表し、ソフトウェア工学のオブジェクト指向設計の概念を直接借用する。UML（統一モデリング言語）を使うことで、オブジェクト間の継承・集約・依存関係を構造的に管理できる。 GPT-4o・Claude・Gemini等の最新LLMと比較した実験では、OOWMフレームワークを適用することでタスク達成率や計画の正確性が向上しており、特に長期依存関係が複雑なシナリオで優位性が顕著。記号的・構造的表現が自然言語の曖昧さを補完することを示した点が実用的意義として大きい。

embodied AI world model chain-of-thought robotics LLM

hf-papers 1日前 4

LLM強化学習のクレジット割り当て、47手法を体系化したサーベイ登場

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

LLMの強化学習で「どの行動が結果に貢献したか」を特定するクレジット割り当て問題を包括的に調査したサーベイ論文が公開された。推論RL（最大3万トークン）とエージェントRL（100万トークン超）の2設定を分析し、47手法をトークン/ステップ/ターン粒度×手法論の2次元で分類。実務者向けの手法選択ガイドも提供しており、LLMエージェント開発の信頼性・効率向上に貢献する。

解説本論文は、大規模言語モデル（LLM）の強化学習における「クレジット割り当て（Credit Assignment）」問題を包括的に調査したサーベイ論文である。クレジット割り当てとは、長い行動系列のうちどのステップが最終的な報酬に貢献したかを特定する問題で、スパースな報酬設定で特に困難になる。著者らは47の手法を「割り当て粒度（トークン・セグメント・ステップ・ターン・マルチエージェント）」と「方法論（モンテカルロ・TD・モデルベース・ゲーム理論・情報理論）」の2次元で分類した。代表的手法としてはVinePPO（MC法でトークンレベルの価値を推定しGSM8K等でPPOを大幅に上回る）、SPRO（ステップを除いた場合の性能差でクレジットを計算しGRPO比3.4倍の学習効率）、GiGPO（グループ内グループのアドバンテージ計算でALFWorldにて+12%）などが紹介されている。エージェントRL特有の課題として、確率的環境・部分観測・100ターン超の長いホライズン・異種アクション・検証困難な中間状態が挙げられており、これらがReasoningRL手法の直接適用を困難にしている点を明示。2026年3月に独立して3本の事後分析（ヒンドサイト）系手法が同時発表された点は分野の収束を示す重要なシグナルとして指摘されている。実務者向けの手法選択デシジョンツリーやベンチマークプロトコルも提供されており、実用性が高い。

強化学習 LLM エージェントAI クレジット割り当てサーベイ

hf-papers 1日前 3

LLMで自然言語からDB自動生成するScheMatiQ登場

ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery

研究質問と文書を入力するだけで構造化データベースを自動構築するフレームワーク「ScheMatiQ」が発表された。 LLMによるスキーマ自動発見とHuman-in-the-Loopによる対話的修正を組み合わせ、法律・生物学分野で高精度を実証。専門知識なしに研究データを構造化できるため、科学研究の効率化や再現性向上に貢献が期待される。

解説 ScheMatiQは研究者が持つ自然言語の問いかけ（例：「異なる大統領に任命された連邦判事は移民訴訟でどう判決を下すか？」）と文書コレクションを入力とし、LLMを活用して3段階のパイプラインで構造化データベースを自動構築する。①観察単位（Observation Unit）の発見：質問から分析対象エンティティ（判事・タンパク質等）を特定、②スキーマ発見：文書を逐次処理しながら関連フィールドを反復的に提案・洗練、③値の抽出：スキーマに従い全文書から証跡付きでデータを抽出する。バックボーンLLMにはGemini-2.5ファミリーを使用し、100文書あたり約1米ドルで動作する。評価では法律（89件の移民訴訟判決）・計算生物学（96本の論文）の2ドメインで人手アノテーション済みスキーマと比較し、ScheMatiQが大部分のフィールドを網羅しつつ専門家が「有用」と評価する新規フィールド（生物学：平均4.2/5点、法律：3.6/5点）も提案できることを示した。観察単位の再現率は生物学で87%、法律で74%。質問のみ・文書のみの入力では不十分で、両者の組み合わせが意味あるスキーマ生成に不可欠との知見も得られた。GPT-4oやClaudeを含む複数のLLMプロバイダーに対応し、オープンソースとして公開されている。

情報抽出スキーマ発見 Human-in-the-Loop LLM 構造化データ

arxiv-cs-ai 2日前 3

GNNを審判役にLLMのグラフ学習を強化する新手法

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

研究チームがGNNをラベル品質の審判役として活用し、LLMのグラフ学習を強化する「GNN-as-Judge」を発表。 GNNの構造的バイアスで疑似ラベルのノイズを抑制し、少数ショット半教師あり学習を実現する。ラベル不足環境でのLLMファインチューニングの課題を解決し、実用的なグラフAI応用に貢献。

解説本論文はテキスト属性グラフ（TAG: Text-Attributed Graph）上での少数ショット半教師あり学習という実用的な課題に取り組む。TAGとはノードにテキスト特徴量を持つグラフ構造データで、論文引用ネットワークや商品レコメンドグラフなどが該当する。LLMはノードのテキストを意味的に理解する能力が高い一方、ラベル付きデータが少ない低リソース環境ではファインチューニングが困難であり、特にグラフの複雑な構造パターンを持つ場合は性能が制限される。提案するGNN-as-Judgeフレームワークは、GNNをラベルの質を評価する「審判」として活用し、LLMが生成した疑似ラベルの信頼性を構造的観点からフィルタリングする。GNNはノード間の隣接関係から伝播するメッセージパッシングにより、孤立した局所情報では捉えられないグラフ全体の構造的文脈を把握できる点が強みである。これにより信頼度の高い疑似ラベルのみを選んでLLMを追加学習させ、ラベルノイズによる性能劣化を防ぐ。既存のGPT-4oやGNNベースライン手法と比較した実験では、特にラベルが極端に少ない設定で優位性を示している。実用上の意義として、大量のアノテーションなしでグラフ分類・ノード分類タスクを高精度に解ける可能性があり、医療知識グラフや金融リスク分析など専門ラベルの取得コストが高い分野への応用が期待できる。

グラフニューラルネットワーク LLM 半教師あり学習テキスト属性グラフ few-shot学習

arxiv-cs-ai 2日前 3

LLMで医師間対話を合成生成、プライバシー問題を解決

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

研究チームがLLMを用いて医師間ディスカッションデータを合成生成するフレームワーク「SynDocDis」を発表。匿名化メタデータと構造化プロンプトで臨床的に正確な対話を生成し、医師評価で平均4.4/5を獲得。プライバシー規制で入手困難な医療対話データの不足を補い、医療AIの学習データ問題に貢献。

解説 SynDocDisは、医師同士が患者ケースを議論する「医師間ディスカッション」の合成データを生成するフレームワークである。この種の対話データは臨床知識と推論の宝庫だが、個人情報保護法（HIPAAなど）や倫理規定により実データへのアクセスが極めて困難。既存の合成データ研究は患者-医師間の対話や構造化カルテに偏っており、医師間コミュニケーションの合成は未開拓の領域だった。提案手法では、まず実際の症例記録を匿名化してメタデータ（診断名、検査値、治療経過など）を抽出し、そのメタデータをLLMへの構造化プロンプトに変換することで、個人情報を含まない現実的な医師間対話を生成する。プロンプト設計には役割設定（上級医・研修医など）や対話フロー制御が含まれ、臨床的な妥当性を担保している。評価は腫瘍学5シナリオ・肝臓学4シナリオの計9シナリオで実施され、現役医師5名がコミュニケーションの有効性（平均4.4/5）と医療内容の質の両面で高評価を付与。本論文はGPT-4oやClaudeとの直接比較は示していないが、医師評価という実用的基準を採用している点が特徴的。AIエージェントが医師間カンファレンスを補助・参加するシステムの学習データ生成に応用できる実用的意義がある。

合成データ生成医療AI 臨床対話プライバシー保護 LLM

anthropic-news 1ヶ月前 4

AnthropicがClaude Sonnet 4.6発表、Opus超えの性能を低価格で

Introducing Claude Sonnet 4.6

AnthropicがClaude Sonnet 4.6を発表、1Mトークンコンテキストに対応。コーディング・PC操作・長文推論が大幅向上し、Opus 4.5より59%高い選好率を記録。価格は$3/$15で据え置き、全プラン・主要クラウドで即日利用可能。

Anthropic Claude モデルリリース LLM

anthropic-news 2ヶ月前 5

Anthropic、Claude Opus 4.6を正式発表——エージェント性能が大幅向上

Introducing Claude Opus 4.6

AnthropicがフラッグシップモデルClaude Opus 4.6を発表、API・claude.aiで提供開始。 1Mトークンコンテキスト対応、Terminal-Bench 2.0で業界最高スコアを達成。価格は$5/$25/MTで据え置き、コーディング・自律エージェント用途での採用拡大が見込まれる。

Anthropic Claude LLM モデルリリース

hf-blog 1年前 3

MoE LLMの負荷分散、DeepSeek-V3手法がベストプラクティスに

A Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons

研究者らがMoE LLMにおける負荷分散戦略の歴史的変遷を体系的にレビューした論文を発表。 GShard〜DeepSeek-V3まで各手法を比較し、ルーティング崩壊やトークンドロップの根本原因を分析。 DeepSeek-V3のバイアスベース補助損失フリー手法が最新の設計指針として注目される。

解説本稿はMixture-of-Experts（MoE）型LLMにおける負荷分散戦略の変遷をGShard（2020）からDeepSeek-V3（2025）まで体系的にレビューしたブログ記事。MoEはFFN層を複数の「エキスパート」に分割し、各トークンをゲーティングネットワークが選択的にルーティングするアーキテクチャで、計算効率とパラメータ規模の両立が可能な反面、特定エキスパートへのトークン集中（ルーティング崩壊）や容量超過によるトークンドロップが深刻な問題となる。初期手法（GShard・Switch Transformer）はキャパシティ制約と補助損失（auxiliary loss）でバランスを取ったが、補助損失が過大になると主損失の学習を阻害する副作用があった。Mixtral 8x7BやJetMoEはドロップレス化や疎行列演算で改善を図り、DeepSeek-V3では補助損失を廃してバイアス項の動的更新のみで負荷分散を実現する手法を採用した。これにより主学習目標への干渉を最小化しつつバランスを維持できる。実用上は「キャパシティファクターの調整」「補助損失係数は小さく」「訓練時と推論時で戦略を分ける」などが重要な知見として示される。GPT-4oやClaudeとの直接比較はないが、MoEを採用する次世代モデル設計の指針として研究者・実装者双方に有用な内容。

MoE 負荷分散 LLM DeepSeek ルーティング

gh-mistral 1年前 3

MistralとNVIDIA、12Bモデル「Nemo」を共同リリース

mistralai/mistral-inference v1.3.0 Mistral-Nemo

MistralとNVIDIAが共同開発した12Bパラメータの大規模言語モデル「Mistral Nemo」を正式公開。 mistral-inference v1.3.0で利用可能で、CLIとPython APIの両方に対応し即時利用が可能。中規模モデルとして実用性と性能を両立、オープンなエコシステムへの貢献が期待される。

Mistral NVIDIA オープンモデル LLM

要約済み 17