理論
要約済み 1
-
arxiv-cs-ai 2日前 3正規化フリーTransformerの深層学習失敗、理論で解明Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
LayerNormをtanh系関数で置換した正規化フリーTransformerがなぜ深層で学習困難になるかを理論的に証明した研究が発表された。 平均偏ヤコビアンノルム(APJN)という指標を用い、初期化時に信号が伸張指数的に減衰する「臨界未満」状態になることを示した。 Dynamic TanhなどLayerNorm代替アーキテクチャの設計指針に重要な理論的根拠を与える成果。
解説 本論文は、トランスフォーマーの初期化時における勾配伝播の挙動を「平均偏ヤコビアンノルム(APJN)」という指標で理論的に解析したものです。APJNは各層を通じた勾配の増幅・減衰を定量化する尺度であり、ニューラルネットワークの学習安定性を評価するために用いられます。 著者らは双方向アテンションと置換対称な入力トークン配置を持つトランスフォーマーへAPJN解析を拡張し、活性化統計とAPJNの層間漸化式を導出しました。理論から得られた予測は深層ビジョントランスフォーマーの実測APJNと一致することを確認しています。 主な発見は「臨界性(criticality)」の観点から整理されます。残差ネットワークと同様に、LayerNormを前置したアーキテクチャ(pre-LayerNorm)ではAPJNがべき乗則的に成長し臨界的挙動を示すのに対し、LayerNormをtanh系の要素ごと非線形関数(DyT: Dynamic Tanh、Derf: Dynamic erf)に置換したアーキテクチャでは「伸張指数的」な減衰を示し臨界未満(subcritical)であることが明らかになりました。 これは正規化フリートランスフォーマーの学習が深層で困難になる理由を理論的に説明するものであり、新しいアーキテクチャ設計時の初期化戦略や深度制約に関する実践的指針を提供します。特定のベンチマークでの性能比較ではなく純粋な理論貢献が中心ですが、設計判断に直結する洞察を持ちます。