AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers 2026-04-15 03:00 ★4

新AR手法でImageNet画像生成の世界最高精度を更新

Generative Refinement Networks for Visual Synthesis

画像生成 動画生成 自己回帰モデル 離散トークン化 適応ステップ生成

要約

研究チームが精錬型自己回帰ネットワーク(GRN)を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。

解説・分析

GRN(Generative Refinement Networks)はByteDanceが提案する視覚生成の新パラダイムで、拡散モデルとAR(自己回帰)モデルそれぞれの欠点を同時に克服する。核心技術のHBQ(階層的二値量子化)はVAEの連続特徴をM回の二値決定木で離散化し、量子化誤差が2^(-M)で指数減衰するため理論上ほぼ無損失を達成。ImageNetでは連続VAE(rFID 0.87)を上回るrFID 0.56を記録した。生成フェーズでは「全体的精錬機構」を採用。ランダムトークンマップを出発点として、毎ステップで全トークンを予測・更新することで「塗りつぶし・精錬・消去」を一体化。従来ARモデルが抱える誤差蓄積(一度確定したトークンを後から修正できない問題)を根本解決している。アブレーションではマスクベース手法(gFID 18.13)に対しGRNは3.63を達成し精錬機構の効果を定量的に示す。さらにエントロピー誘導型の複雑度適応サンプリングにより、単純な画像には少ないステップ、複雑な画像には多いステップを動的割当て、品質を維持しつつ計算コストを削減する。比較実験では2BモデルでSD3 Medium(GenEval 0.62)やInfinity(0.71)を上回るGenEval 0.76を達成し、T2VではCogVideoX-5B(5B)を2Bで凌駕する。

関連する読者

開発者 研究者
Pro

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →