ルーティング
要約済み 1
-
hf-blog 1年前 3MoE LLMの負荷分散、DeepSeek-V3手法がベストプラクティスにA Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons
研究者らがMoE LLMにおける負荷分散戦略の歴史的変遷を体系的にレビューした論文を発表。 GShard〜DeepSeek-V3まで各手法を比較し、ルーティング崩壊やトークンドロップの根本原因を分析。 DeepSeek-V3のバイアスベース補助損失フリー手法が最新の設計指針として注目される。
解説 本稿はMixture-of-Experts(MoE)型LLMにおける負荷分散戦略の変遷をGShard(2020)からDeepSeek-V3(2025)まで体系的にレビューしたブログ記事。MoEはFFN層を複数の「エキスパート」に分割し、各トークンをゲーティングネットワークが選択的にルーティングするアーキテクチャで、計算効率とパラメータ規模の両立が可能な反面、特定エキスパートへのトークン集中(ルーティング崩壊)や容量超過によるトークンドロップが深刻な問題となる。初期手法(GShard・Switch Transformer)はキャパシティ制約と補助損失(auxiliary loss)でバランスを取ったが、補助損失が過大になると主損失の学習を阻害する副作用があった。Mixtral 8x7BやJetMoEはドロップレス化や疎行列演算で改善を図り、DeepSeek-V3では補助損失を廃してバイアス項の動的更新のみで負荷分散を実現する手法を採用した。これにより主学習目標への干渉を最小化しつつバランスを維持できる。実用上は「キャパシティファクターの調整」「補助損失係数は小さく」「訓練時と推論時で戦略を分ける」などが重要な知見として示される。GPT-4oやClaudeとの直接比較はないが、MoEを採用する次世代モデル設計の指針として研究者・実装者双方に有用な内容。