自己蒸留
要約済み 1
-
hf-papers 1日前 4ループ型Transformerで視覚生成を1/4のパラメータで実現ELT: Elastic Looped Transformers for Visual Generation
研究チームが「ELT」を発表——ループ構造と自己蒸留を組み合わせた画像・動画生成モデル。 パラメータ数を75%削減しつつImageNetでFID 2.0、UCF-101でFVD 72.8の高精度を達成。 推論時にループ数を動的調整できる「Any-Time推論」により、計算資源に合わせた柔軟な運用が可能に。
解説 ELT(Elastic Looped Transformers)は、重みを共有したトランスフォーマーブロックをL回繰り返す「N×L」構造を採用し、パラメータ数をN層分に抑えながら深いネットワークと同等の表現力を実現する視覚生成モデルです。通常のTransformerが独立した深い層スタックを必要とするのに対し、ELTは物理モデルサイズと計算深度を分離します。学習の核心は「Intra-Loop Self Distillation(ILSD)」で、最大ループ数の出力を内部教師とし、途中ループの出力を生徒として確率的に蒸留します。これにより途中ループでも高品質な出力が得られ、推論時にループ数を自由に変更する「Any-Time推論」が可能になります。実験ではMaskGIT-XL(446M)の1/4以下の111Mパラメータでも同等のFID 2.0を達成。動画生成ではMAGVIT-L(306M)を76MパラメータでFVD 72.8と上回りました。TPU上の推論スループットは最大3.5倍向上し、学習収束も最大2倍高速化。エッジデバイスから高品質クラウド生成まで単一モデルで対応できる柔軟性が実用上の強みです。