木構造スパースFFN、1B超モデルで有効性実証

arxiv-cs-ai 2026-04-13 04:00 ★3

木構造スパースFFN、1B超モデルで有効性実証

Dynamic sparsity in tree-structured feed-forward layers at scale

スパースモデル条件付き計算トランスフォーマー MoE 効率化

要約

トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。

解説・分析

本論文は、トランスフォーマーのフィードフォワード（MLP）ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング（木のノードをたどるように経路を選択）によって、トークンごとに必要なユニットのみを動的に活性化します。MoE（Mixture of Experts）のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。

実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。

GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り（auto-pruning）」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用（オンデバイスAI、低レイテンシAPIなど）に向けた有望なアプローチといえます。

AIフロントライン

木構造スパースFFN、1B超モデルで有効性実証

要約

解説・分析

関連する読者