条件付き計算
要約済み 1
-
arxiv-cs-ai 2日前 3木構造スパースFFN、1B超モデルで有効性実証Dynamic sparsity in tree-structured feed-forward layers at scale
トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。 大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。
解説 本論文は、トランスフォーマーのフィードフォワード(MLP)ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング(木のノードをたどるように経路を選択)によって、トークンごとに必要なユニットのみを動的に活性化します。MoE(Mixture of Experts)のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。 実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。 GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り(auto-pruning)」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用(オンデバイスAI、低レイテンシAPIなど)に向けた有望なアプローチといえます。