エンコーダフリー

1件の記事

要約済み 1

hf-blog 1ヶ月前 4
SenseTime、エンコーダ不要のマルチモーダルAIを発表
NEO-unify: Building Native Multimodal Unified Models End to End

SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。

解説 NEO-unifyはSenseTimeとNTUが共同開発した、ネイティブマルチモーダル統合モデルの新パラダイムである。従来のマルチモーダルモデル（GPT-4o、Gemini、Claudeを含む多くの系統）は、画像入力にVision Encoder（ViTなど）、画像生成にVAE（変分オートエンコーダ）を使用するが、これらの事前学習済みコンポーネントがスケーリングのボトルネックになるという問題があった。NEO-unifyはこれらを完全に排除し、ピクセルとテキストをそのまま扱う「ほぼ無損失なビジュアルインターフェース」を採用する。アーキテクチャの核心はNative Mixture-of-Transformer（MoT）で、理解（Understanding）ブランチと生成（Generation）ブランチが同一バックボーン内で共進化する設計になっている。学習目標はテキスト向けの自己回帰クロスエントロピー損失と、視覚向けのPixel Flow Matchingを統合したものを使用。実験ではMS COCO 2017上で31.56 PSNR・0.85 SSIMを達成し、Flux VAE（32.65 PSNR）に迫る品質を示した。画像編集ベンチマーク（ImgEdit）でも3.32スコアを記録。特筆すべきは、類似モデル（Bagel等）と比較してデータスケーリング効率が大幅に優れており、少ない学習トークンで高い性能を達成できる点である。現時点ではプレビュー段階だが、近くHugging Faceでオープンソース公開が予定されており、エンコーダフリーの統合マルチモーダルモデルとして実用的な影響が期待される。

マルチモーダル画像生成エンコーダフリー統合モデル SenseTime