トランスフォーマー

2件の記事

要約済み 2

arxiv-cs-ai 7時間前 3
正規化フリーTransformerの深層学習失敗、理論で解明
Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

LayerNormをtanh系関数で置換した正規化フリーTransformerがなぜ深層で学習困難になるかを理論的に証明した研究が発表された。平均偏ヤコビアンノルム(APJN)という指標を用い、初期化時に信号が伸張指数的に減衰する「臨界未満」状態になることを示した。 Dynamic TanhなどLayerNorm代替アーキテクチャの設計指針に重要な理論的根拠を与える成果。

解説本論文は、トランスフォーマーの初期化時における勾配伝播の挙動を「平均偏ヤコビアンノルム（APJN）」という指標で理論的に解析したものです。APJNは各層を通じた勾配の増幅・減衰を定量化する尺度であり、ニューラルネットワークの学習安定性を評価するために用いられます。著者らは双方向アテンションと置換対称な入力トークン配置を持つトランスフォーマーへAPJN解析を拡張し、活性化統計とAPJNの層間漸化式を導出しました。理論から得られた予測は深層ビジョントランスフォーマーの実測APJNと一致することを確認しています。主な発見は「臨界性（criticality）」の観点から整理されます。残差ネットワークと同様に、LayerNormを前置したアーキテクチャ（pre-LayerNorm）ではAPJNがべき乗則的に成長し臨界的挙動を示すのに対し、LayerNormをtanh系の要素ごと非線形関数（DyT: Dynamic Tanh、Derf: Dynamic erf）に置換したアーキテクチャでは「伸張指数的」な減衰を示し臨界未満（subcritical）であることが明らかになりました。これは正規化フリートランスフォーマーの学習が深層で困難になる理由を理論的に説明するものであり、新しいアーキテクチャ設計時の初期化戦略や深度制約に関する実践的指針を提供します。特定のベンチマークでの性能比較ではなく純粋な理論貢献が中心ですが、設計判断に直結する洞察を持ちます。

理論トランスフォーマー正規化信号伝播
arxiv-cs-ai 2日前 3
木構造スパースFFN、1B超モデルで有効性実証
Dynamic sparsity in tree-structured feed-forward layers at scale

トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。

解説本論文は、トランスフォーマーのフィードフォワード（MLP）ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング（木のノードをたどるように経路を選択）によって、トークンごとに必要なユニットのみを動的に活性化します。MoE（Mixture of Experts）のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。 GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り（auto-pruning）」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用（オンデバイスAI、低レイテンシAPIなど）に向けた有望なアプローチといえます。

スパースモデル条件付き計算トランスフォーマー MoE 効率化