video-LLM
要約済み 1
-
hf-papers 1日前 4小型4Bモデルが7B超え、動画因果推論で新記録Structured Causal Video Reasoning via Multi-Objective Alignment
構造化因果ビデオ推論モデル「Factum-4B」と6万件の因果アノテーションデータセットが公開された。 推論前に構造化イベント事実を抽出する手法とPareto最適化強化学習(P-FAB)により、4Bモデルが7Bモデルを凌駕。 動画AIの時間的因果推論の限界を突破し、軽量モデルの高性能化に新たな道を開く。
解説 本論文は、動画言語モデル(Video-LLM)における推論品質向上を目指す研究。従来のChain-of-Thought(思考の連鎖)は動画タスクでは冗長かつ因果関係が希薄になりがちという問題を指摘し、「Structure-First(構造優先)」パラダイムを提案する。具体的には、推論開始前にタイムスタンプ・人物・行動・シーン・カメラ情報・因果キャプションを含む構造化イベント事実(Structured Event Facts)を抽出し、それを根拠として推論を行う。データセットとして32,049動画・60K件のアノテーションを持つCausalFact-60Kを構築。Qwen3-VLとGemini-2.5-Proが相互批評しながらデータ品質を担保する点が特徴的。強化学習段階ではP-FAB(Pareto-Frontier Guided Advantage Balancing)アルゴリズムを導入し、事実の網羅性・推論深度・精度という競合する複数目的を動的に調整するPareto最適化(MGDA手法)で解決する。結果として4BパラメータのFactum-4BがActivityNet-CaptionsでR1@0.5=48.4%を達成し、7Bクラスの既存モデル(Time-R1-7B: 39.0%)を大幅に上回る。VideoMMEやNExT-GQAでもQwen3-VL-4B等と同等以上の性能を示す。小規模モデルで大規模モデルを超える効率性は実用的意義が高い。