MoE
要約済み 4
-
arxiv-cs-ai 2日前 3木構造スパースFFN、1B超モデルで有効性実証Dynamic sparsity in tree-structured feed-forward layers at scale
トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。 大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。
解説 本論文は、トランスフォーマーのフィードフォワード(MLP)ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング(木のノードをたどるように経路を選択)によって、トークンごとに必要なユニットのみを動的に活性化します。MoE(Mixture of Experts)のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。 実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。 GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り(auto-pruning)」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用(オンデバイスAI、低レイテンシAPIなど)に向けた有望なアプローチといえます。 -
hf-blog 3日前 4GoogleがGemma 4公開、スマホでも動くマルチモーダルAIWelcome Gemma 4: Frontier multimodal intelligence on device
GoogleがApache 2.0ライセンスのマルチモーダルモデル群「Gemma 4」(2.3B〜31B)を公開。 PLE・共有KVキャッシュなど新アーキテクチャで効率・長文脈処理を大幅改善、画像・音声・動画に対応。 ブラウザやスマホ上でも動作可能な軽量設計で、エッジAI開発の選択肢が一気に広がる。
解説 Gemma 4はオープンソースでありながらLMArenaスコア約1450とフロンティア級の性能を達成。特にMoE版(26B-A4B)は実効4Bパラメータで31B密モデルに迫る性能を示し、エッジデバイス展開の可能性を大きく広げた。GPT-4oやClaude、Geminiといったプロプライエタリモデルに対抗しうるオープンモデルとして、開発者がローカル環境で高性能マルチモーダルAIを活用できる選択肢が増えた点が重要。 -
hf-blog 8ヶ月前 4GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111
研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。
解説 GRPOはDeepSeek等で採用された値モデル不要のRL手法だが、長文やMoEモデルで不安定になる問題があった。DAPOは非対称クリッピング等の工夫で改善し、GSPOはシーケンス単位の重要度比という根本的転換でMoE訓練を安定化させた。QWen3がGSPOを採用しており、Claude・GPT-4o等の大規模モデル訓練にも影響しうる。開発者にとってはRL微調整時の手法選択指針として、研究者にはトークン vs シーケンス粒度の理論的整理として実用価値が高い。 -
hf-blog 1年前 3MoE LLMの負荷分散、DeepSeek-V3手法がベストプラクティスにA Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons
研究者らがMoE LLMにおける負荷分散戦略の歴史的変遷を体系的にレビューした論文を発表。 GShard〜DeepSeek-V3まで各手法を比較し、ルーティング崩壊やトークンドロップの根本原因を分析。 DeepSeek-V3のバイアスベース補助損失フリー手法が最新の設計指針として注目される。
解説 本稿はMixture-of-Experts(MoE)型LLMにおける負荷分散戦略の変遷をGShard(2020)からDeepSeek-V3(2025)まで体系的にレビューしたブログ記事。MoEはFFN層を複数の「エキスパート」に分割し、各トークンをゲーティングネットワークが選択的にルーティングするアーキテクチャで、計算効率とパラメータ規模の両立が可能な反面、特定エキスパートへのトークン集中(ルーティング崩壊)や容量超過によるトークンドロップが深刻な問題となる。初期手法(GShard・Switch Transformer)はキャパシティ制約と補助損失(auxiliary loss)でバランスを取ったが、補助損失が過大になると主損失の学習を阻害する副作用があった。Mixtral 8x7BやJetMoEはドロップレス化や疎行列演算で改善を図り、DeepSeek-V3では補助損失を廃してバイアス項の動的更新のみで負荷分散を実現する手法を採用した。これにより主学習目標への干渉を最小化しつつバランスを維持できる。実用上は「キャパシティファクターの調整」「補助損失係数は小さく」「訓練時と推論時で戦略を分ける」などが重要な知見として示される。GPT-4oやClaudeとの直接比較はないが、MoEを採用する次世代モデル設計の指針として研究者・実装者双方に有用な内容。