EMA
要約済み 1
-
arxiv-cs-ai 2日前 3研究者ら、EMAだけの文脈圧縮の限界を情報理論で解明EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context
EMA(指数移動平均)のみを用いた循環文脈が言語モデリングに失敗することを実証的に示した基礎研究が発表された。 EMAは時間的構造を捉えられるが、トークン同一性を破壊するためLM損失が改善しないことを情報理論的に証明。 ゲートや内容検索機構の必要性を裏付け、次世代RNN・SSMアーキテクチャ設計に重要な指針を提供する。
解説 本研究は、EMA(指数移動平均)を「制御された探索ツール」として活用し、効率的系列モデル(SSMやRNNなど)が単純な時間平均に対して何を得ているかを体系的に調査した基礎研究です。 EMAはゲーティングも内容参照もない最もシンプルな循環文脈であり、この性質を利用して「固定係数累積が表現できる限界」を測定しています。 実験では2つの対照的な結果が示されました。①文法的役割割り当てタスクでは、多タイムスケールEMAトレースを用いたヘッブ学習(Hebbian)アーキテクチャが、ラベルなしでも教師あり双方向GRUの96%を達成し、構造依存的役割では上回りました。これはEMAが時間的構造を有効にエンコードできることを示します。②一方、1.3億パラメータの言語モデルでEMAのみを文脈として使用すると、C4データセットの困惑度(perplexity)が260に達し、GPT-2の8倍もの悪化となりました。線形予測器を完全なSoftmax Attentionに置き換えても損失は変わらず、ボトルネックが予測器ではなくEMAトレース自体にあることを特定しました。 これは情報理論の「データ処理不等式」により理論的にも裏付けられており、EMAの非可逆・データ非依存な圧縮特性が根本的な制限となっています。GPT-4oやClaudeのような大規模Transformerとは異なり、EMAベースモデルは構文処理には有用ですが、語彙レベルの予測には本質的に不適切であることが明確化されました。SSMやLinear Attention等の設計判断に理論的根拠を提供する研究です。