T2AV生成モデルを包括評価するAVGen-Bench登場

hf-papers 2026-04-13 12:24 ★4

T2AV生成モデルを包括評価するAVGen-Bench登場

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

ベンチマークマルチモーダル生成テキスト→動画評価フレームワーク T2AV

要約

テキストから音声・映像を同時生成するモデルを評価する新ベンチマーク「AVGen-Bench」が発表された。 11カテゴリ235プロンプトと10次元の細粒度指標で既存評価手法の限界を超える設計。 Veo 3.1など最先端モデルでも音楽ピッチ制御や物理推論が未解決と判明、研究の指針を示す。

解説・分析

AVGen-Benchは、テキストから音声と映像を同時生成するT2AV（Text-to-Audio-Video）モデルの包括的評価基準の欠如を解決するために提案された新ベンチマークです。従来の評価手法はCLIPやCLAPなどの埋め込み類似度に頼っており、細粒度の意味的整合性を検証できていませんでした。

提案手法は3つの柱で構成されます。①タスク駆動型プロンプトセット（プロ向けメディア・クリエイターエコノミー・世界シミュレーションの3ドメイン・11カテゴリ・235プロンプト）、②軽量専門モデルとMLLM（大規模マルチモーダルLLM）を組み合わせたハイブリッド評価フレームワーク（視覚品質・音声品質・AV同期・テキスト描画・顔一貫性・ピッチ精度・音声明瞭度・物理妥当性・意味整合の10次元）、③体系的な失敗モード分析。

実験ではSora 2・Veo 3.1・Kling 2.6・Wan 2.6・Seedance-1.5 Pro等を評価。視覚美的品質は各モデルとも高水準（Seedance-1.5 Proが0.97）を達成する一方、音楽ピッチ制御では全モデルが12点以下という壊滅的な失敗を示しました。また背景テキスト描画・顔ID一貫性・物理現象シミュレーション（ナトリウムの水面浮上など）でも深刻な課題が明らかになりました。人間評価との相関はText Renderingで0.97、他4次元でも0.83前後と高い信頼性を確認。現在のモデルが「確率的テクスチャ生成器」に留まり、物理的世界モデルとして機能していないことを定量的に示した点で重要な貢献です。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.08540

← 一覧に戻る

AIフロントライン