適応ステップ生成
要約済み 1
-
hf-papers 2日前 4新AR手法でImageNet画像生成の世界最高精度を更新Generative Refinement Networks for Visual Synthesis
研究チームが精錬型自己回帰ネットワーク(GRN)を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。
解説 GRN(Generative Refinement Networks)はByteDanceが提案する視覚生成の新パラダイムで、拡散モデルとAR(自己回帰)モデルそれぞれの欠点を同時に克服する。核心技術のHBQ(階層的二値量子化)はVAEの連続特徴をM回の二値決定木で離散化し、量子化誤差が2^(-M)で指数減衰するため理論上ほぼ無損失を達成。ImageNetでは連続VAE(rFID 0.87)を上回るrFID 0.56を記録した。生成フェーズでは「全体的精錬機構」を採用。ランダムトークンマップを出発点として、毎ステップで全トークンを予測・更新することで「塗りつぶし・精錬・消去」を一体化。従来ARモデルが抱える誤差蓄積(一度確定したトークンを後から修正できない問題)を根本解決している。アブレーションではマスクベース手法(gFID 18.13)に対しGRNは3.63を達成し精錬機構の効果を定量的に示す。さらにエントロピー誘導型の複雑度適応サンプリングにより、単純な画像には少ないステップ、複雑な画像には多いステップを動的割当て、品質を維持しつつ計算コストを削減する。比較実験では2BモデルでSD3 Medium(GenEval 0.62)やInfinity(0.71)を上回るGenEval 0.76を達成し、T2VではCogVideoX-5B(5B)を2Bで凌駕する。