公式ソースだけを集めたAIニュースを日本語要約でお届け
この記事はProプラン限定です
公開から48時間以上経過した記事はProプランでお読みいただけます
Dynamic sparsity in tree-structured feed-forward layers at scale
トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。 大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。
本論文は、トランスフォーマーのフィードフォワード(MLP)ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング(木のノードをたどるように経路を選択)によって、トークンごとに必要なユニットのみを動的に活性化します。MoE(Mixture of Experts)のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。
実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。
GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り(auto-pruning)」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用(オンデバイスAI、低レイテンシAPIなど)に向けた有望なアプローチといえます。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
本論文は、トランスフォーマーのフィードフォワード(MLP)ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング(木のノードをたどるように経路を選択)によって、トークンごとに必要なユニットのみを動的に活性化します。MoE(Mixture of Experts)のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。
実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。
GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り(auto-pruning)」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用(オンデバイスAI、低レイテンシAPIなど)に向けた有望なアプローチといえます。