統合モデル

2件の記事

要約済み 2

hf-papers 1日前 4
研究者、統合マルチモーダルモデルの「擬似統合」を初めて内部診断
Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

エントロピー探索フレームワークにより、統合マルチモーダルモデルが視覚と言語を真に融合できていない「擬似統合」状態にあることが判明した。調査対象モデルの中でMasked Autoencoderを活用するHarmonのみが真の統合に近い動作を示し、共通の文脈予測パラダイムが鍵と示唆された。画像とテキストを扱うAIモデルの設計指針に再考を促す可能性があり、マルチモーダル研究の方向性に影響を与えそうだ。

解説本論文はBAGEL、Janus-Pro、Show-o2、OmniGen2など10種類の代表的な統合マルチモーダルモデル(UMM)を対象に、「擬似統合（Pseudo-Unification）」という現象を初めてモデル内部から解析した研究である。UMMはテキスト生成と画像生成を一つのモデルで担うが、LLMが持つ推論能力が画像生成に転移しないという問題があった。提案手法は情報理論に基づく2階層の探索フレームワークで、(1)プロンプト表現のエントロピー（入力の情報量・等方性を測定）と、(2)プロンプト-応答間の条件付きエントロピー（出力の不確実性を測定）を使用する。Transformerは明示的な確率分布を持たないため、Gaussian kernelを用いた行列ベースのRényiエントロピーに再定式化することで非パラメトリックな推定を実現している。実験の結果、擬似統合は「モダリティ非対称エンコーディング」（視覚と言語が異なるエントロピー軌跡を辿る）と「パターン分離応答」（テキスト生成は高エントロピー＝創造的、画像生成は低エントロピー＝忠実性優先）という二重の乖離から生じることが判明した。唯一の例外がHarmon（1.5B）であり、Masked Autoencoderによる画像予測がテキストの次トークン予測と同じ帰納バイアス（文脈予測）を共有することで真の統合に近づいていることを示した。モデルの規模拡大だけでは解決せず、生成パラダイムの統一設計が重要という知見は、今後のUMM設計指針として実用的意義が高い。

マルチモーダルAI 情報理論解釈可能性テキストから画像生成統合モデル
hf-blog 1ヶ月前 4
SenseTime、エンコーダ不要のマルチモーダルAIを発表
NEO-unify: Building Native Multimodal Unified Models End to End

SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。

解説 NEO-unifyはSenseTimeとNTUが共同開発した、ネイティブマルチモーダル統合モデルの新パラダイムである。従来のマルチモーダルモデル（GPT-4o、Gemini、Claudeを含む多くの系統）は、画像入力にVision Encoder（ViTなど）、画像生成にVAE（変分オートエンコーダ）を使用するが、これらの事前学習済みコンポーネントがスケーリングのボトルネックになるという問題があった。NEO-unifyはこれらを完全に排除し、ピクセルとテキストをそのまま扱う「ほぼ無損失なビジュアルインターフェース」を採用する。アーキテクチャの核心はNative Mixture-of-Transformer（MoT）で、理解（Understanding）ブランチと生成（Generation）ブランチが同一バックボーン内で共進化する設計になっている。学習目標はテキスト向けの自己回帰クロスエントロピー損失と、視覚向けのPixel Flow Matchingを統合したものを使用。実験ではMS COCO 2017上で31.56 PSNR・0.85 SSIMを達成し、Flux VAE（32.65 PSNR）に迫る品質を示した。画像編集ベンチマーク（ImgEdit）でも3.32スコアを記録。特筆すべきは、類似モデル（Bagel等）と比較してデータスケーリング効率が大幅に優れており、少ない学習トークンで高い性能を達成できる点である。現時点ではプレビュー段階だが、近くHugging Faceでオープンソース公開が予定されており、エンコーダフリーの統合マルチモーダルモデルとして実用的な影響が期待される。

マルチモーダル画像生成エンコーダフリー統合モデル SenseTime