長系列処理
要約済み 1
-
hf-blog 1年前 3SSMが長系列処理を革新、S4モデルで各タスクSOTA達成Introduction to State Space Models (SSM)
State Space Models(SSM)をディープラーニングに応用するS4モデルの詳細解説が公開。 連続・再帰・畳み込み処理に対応し、HiPPO行列初期化で高速な長系列処理を実現。 音声・時系列・視覚タスクで最高性能を達成、効率的なアプローチを業界に提供。
解説 SSM(状態空間モデル)は制御理論に由来するアーキテクチャで、2021年のS4モデルによって深層学習での実用性が確立された。本記事はS4を題材にSSMの基礎を丁寧に解説する入門ガイドである。SSMの核心は「連続・再帰・畳み込み」の3つの計算ビューを状況に応じて使い分ける点にある。連続ビューは音声や時系列データに自然に適合し、再帰ビューは推論時の定数時間更新を実現し、畳み込みビューは並列学習を可能にする。最大の技術的課題は状態行列Aの初期化であり、ランダム初期化では精度約60%にとどまるが、HiPPO(高次多項式射影演算子)初期化を用いると98%以上を達成する。HiPPOはNPLR行列として効率的に計算できる。実験ではS4が音声認識でConvNetを13%以上上回り、同等性能に85倍のパラメータが必要という結果も示された。16,000トークン超の長距離依存ベンチマーク(Path-X)に初めて成功したモデルでもある。一方テキスト分野ではTransformerのパープレキシティに及ばず、非連続データへの対応が課題として残されている。