エンコーダフリー
要約済み 1
-
hf-blog 1ヶ月前 4SenseTime、エンコーダ不要のマルチモーダルAIを発表NEO-unify: Building Native Multimodal Unified Models End to End
SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。 データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。
解説 NEO-unifyはSenseTimeとNTUが共同開発した、ネイティブマルチモーダル統合モデルの新パラダイムである。従来のマルチモーダルモデル(GPT-4o、Gemini、Claudeを含む多くの系統)は、画像入力にVision Encoder(ViTなど)、画像生成にVAE(変分オートエンコーダ)を使用するが、これらの事前学習済みコンポーネントがスケーリングのボトルネックになるという問題があった。NEO-unifyはこれらを完全に排除し、ピクセルとテキストをそのまま扱う「ほぼ無損失なビジュアルインターフェース」を採用する。アーキテクチャの核心はNative Mixture-of-Transformer(MoT)で、理解(Understanding)ブランチと生成(Generation)ブランチが同一バックボーン内で共進化する設計になっている。学習目標はテキスト向けの自己回帰クロスエントロピー損失と、視覚向けのPixel Flow Matchingを統合したものを使用。実験ではMS COCO 2017上で31.56 PSNR・0.85 SSIMを達成し、Flux VAE(32.65 PSNR)に迫る品質を示した。画像編集ベンチマーク(ImgEdit)でも3.32スコアを記録。特筆すべきは、類似モデル(Bagel等)と比較してデータスケーリング効率が大幅に優れており、少ない学習トークンで高い性能を達成できる点である。現時点ではプレビュー段階だが、近くHugging Faceでオープンソース公開が予定されており、エンコーダフリーの統合マルチモーダルモデルとして実用的な影響が期待される。