新AR手法でImageNet画像生成の世界最高精度を更新

hf-papers 2026-04-15 03:00 ★4

新AR手法でImageNet画像生成の世界最高精度を更新

Generative Refinement Networks for Visual Synthesis

画像生成動画生成自己回帰モデル離散トークン化適応ステップ生成

要約

研究チームが精錬型自己回帰ネットワーク（GRN）を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。

解説・分析

GRN（Generative Refinement Networks）はByteDanceが提案する視覚生成の新パラダイムで、拡散モデルとAR（自己回帰）モデルそれぞれの欠点を同時に克服する。核心技術のHBQ（階層的二値量子化）はVAEの連続特徴をM回の二値決定木で離散化し、量子化誤差が2^(-M)で指数減衰するため理論上ほぼ無損失を達成。ImageNetでは連続VAE（rFID 0.87）を上回るrFID 0.56を記録した。生成フェーズでは「全体的精錬機構」を採用。ランダムトークンマップを出発点として、毎ステップで全トークンを予測・更新することで「塗りつぶし・精錬・消去」を一体化。従来ARモデルが抱える誤差蓄積（一度確定したトークンを後から修正できない問題）を根本解決している。アブレーションではマスクベース手法（gFID 18.13）に対しGRNは3.63を達成し精錬機構の効果を定量的に示す。さらにエントロピー誘導型の複雑度適応サンプリングにより、単純な画像には少ないステップ、複雑な画像には多いステップを動的割当て、品質を維持しつつ計算コストを削減する。比較実験では2BモデルでSD3 Medium（GenEval 0.62）やInfinity（0.71）を上回るGenEval 0.76を達成し、T2VではCogVideoX-5B（5B）を2Bで凌駕する。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.13030

← 一覧に戻る

AIフロントライン