AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

hf-papers 2026-04-14 03:00 ★3

マルチモーダルAI統合評価基盤「TorchUMM」が公開

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

マルチモーダルLLM 評価フレームワーク ポスト学習 画像生成・編集 ベンチマーク

要約

14モデル・12ベンチマーク・5ポスト学習手法を統一プロトコルで比較できる初のコードベースが公開された。 テキスト・画像統合モデル(UMM)の評価・分析・ポスト学習を一元化し、公平な再現可能比較を実現。 単純なSFTが性能を損なうケースも判明し、ポスト学習設計の指針としてAI研究者に広く活用が期待される。

解説・分析

TorchUMMは、テキストと画像を統合処理するUnified Multimodal Models(UMM)向けの初の統合コードベースで、CMUやWilliam & Mary等の研究者が開発。Bagel、OmniGen2、Janus-Pro、Show-o2、Emu3.5など14モデルを共通インターフェースで束ね、理解・生成・編集の3タスクにわたり12ベンチマークで公平な比較を実現する。主要な発見は3点ある。①単一モデルが全タスクで最優秀にはなれず、生成最強のDeepGenは理解能力を持たず、理解最強のBagelは編集で劣位となるなどトレードオフが顕著。②SFT(教師ありファインチューニング)などのポスト学習は効果が不安定で、TokenFlowへのSFT適用時にDPGスコアが71→22へ急落するなど有害な例が多数観察された。③アーキテクチャの統合度が高いモデルほど優れるとは限らず、モジュール型のOmniGen2がより統合度の高いShow-o2やMMaDAを上回るケースも確認。GPT-4oやGeminiとの直接比較はないが、オープンソースUMMの体系的な評価基盤として実用的価値が高い。

関連する読者

開発者 研究者