評価フレームワーク
要約済み 3
-
arxiv-cs-ai 1日前 3実世界対応のモバイルエージェント評価基盤「MobiFlow」登場MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion
研究チームが任意のAndroidアプリに対応するエージェント評価フレームワーク「MobiFlow」を発表。 マルチ軌跡融合技術で状態空間を圧縮し、動的なUI操作を精度高く評価できる仕組みを実現。 既存手法の実世界乖離問題を解消し、モバイルエージェント研究の標準基盤となる可能性。
解説 モバイルエージェントとはスマートフォンのGUI操作を自律的に行うAIシステムで、ユーザーが指示したタスクを自動実行する。既存の代表的ベンチマークであるAndroidWorldはAndroidエミュレータのシステムレベルAPIを介してタスク成否を判定するが、実際の多くのサードパーティアプリはこうしたAPIを公開していないため、ベンチマークと実世界の乖離が生じていた。MobiFlowはこの問題を解決するため、任意のサードパーティアプリ上のタスクを評価対象とする新フレームワークを提案する。核心技術は「マルチ軌跡融合(Multi-Trajectory Fusion)」に基づくグラフ構築アルゴリズムで、複数の操作軌跡を統合して状態空間を効率的に圧縮し、同一目標への複数の到達経路を許容しながら動的なインタラクションにも対応する。これにより、APIが存在しないアプリでも画面状態の変化からタスク成否を評価できる。論文では20種類以上のアプリをカバーし、GPT-4oやClaude、Geminiなど主要LLMエージェントの性能を比較評価している。実用面では、企業が内製アプリや市販アプリ上でのエージェント性能をより正確に測定できるようになり、モバイルオートメーションの実用化を加速する意義がある。 -
hf-papers 1日前 3マルチモーダルAI統合評価基盤「TorchUMM」が公開TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training
14モデル・12ベンチマーク・5ポスト学習手法を統一プロトコルで比較できる初のコードベースが公開された。 テキスト・画像統合モデル(UMM)の評価・分析・ポスト学習を一元化し、公平な再現可能比較を実現。 単純なSFTが性能を損なうケースも判明し、ポスト学習設計の指針としてAI研究者に広く活用が期待される。
解説 TorchUMMは、テキストと画像を統合処理するUnified Multimodal Models(UMM)向けの初の統合コードベースで、CMUやWilliam & Mary等の研究者が開発。Bagel、OmniGen2、Janus-Pro、Show-o2、Emu3.5など14モデルを共通インターフェースで束ね、理解・生成・編集の3タスクにわたり12ベンチマークで公平な比較を実現する。主要な発見は3点ある。①単一モデルが全タスクで最優秀にはなれず、生成最強のDeepGenは理解能力を持たず、理解最強のBagelは編集で劣位となるなどトレードオフが顕著。②SFT(教師ありファインチューニング)などのポスト学習は効果が不安定で、TokenFlowへのSFT適用時にDPGスコアが71→22へ急落するなど有害な例が多数観察された。③アーキテクチャの統合度が高いモデルほど優れるとは限らず、モジュール型のOmniGen2がより統合度の高いShow-o2やMMaDAを上回るケースも確認。GPT-4oやGeminiとの直接比較はないが、オープンソースUMMの体系的な評価基盤として実用的価値が高い。 -
hf-papers 1日前 4T2AV生成モデルを包括評価するAVGen-Bench登場AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
テキストから音声・映像を同時生成するモデルを評価する新ベンチマーク「AVGen-Bench」が発表された。 11カテゴリ235プロンプトと10次元の細粒度指標で既存評価手法の限界を超える設計。 Veo 3.1など最先端モデルでも音楽ピッチ制御や物理推論が未解決と判明、研究の指針を示す。
解説 AVGen-Benchは、テキストから音声と映像を同時生成するT2AV(Text-to-Audio-Video)モデルの包括的評価基準の欠如を解決するために提案された新ベンチマークです。従来の評価手法はCLIPやCLAPなどの埋め込み類似度に頼っており、細粒度の意味的整合性を検証できていませんでした。 提案手法は3つの柱で構成されます。①タスク駆動型プロンプトセット(プロ向けメディア・クリエイターエコノミー・世界シミュレーションの3ドメイン・11カテゴリ・235プロンプト)、②軽量専門モデルとMLLM(大規模マルチモーダルLLM)を組み合わせたハイブリッド評価フレームワーク(視覚品質・音声品質・AV同期・テキスト描画・顔一貫性・ピッチ精度・音声明瞭度・物理妥当性・意味整合の10次元)、③体系的な失敗モード分析。 実験ではSora 2・Veo 3.1・Kling 2.6・Wan 2.6・Seedance-1.5 Pro等を評価。視覚美的品質は各モデルとも高水準(Seedance-1.5 Proが0.97)を達成する一方、音楽ピッチ制御では全モデルが12点以下という壊滅的な失敗を示しました。また背景テキスト描画・顔ID一貫性・物理現象シミュレーション(ナトリウムの水面浮上など)でも深刻な課題が明らかになりました。人間評価との相関はText Renderingで0.97、他4次元でも0.83前後と高い信頼性を確認。現在のモデルが「確率的テクスチャ生成器」に留まり、物理的世界モデルとして機能していないことを定量的に示した点で重要な貢献です。