訓練データ設計
要約済み 1
-
arxiv-cs-ai 3日前 4研究者ら、VQAよりキャプションがマルチモーダルLLMの鍵と実証Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
マルチモーダルLLM訓練において、VQAよりキャプションデータの知識密度がスケーリング性能を左右すると研究者らが発表。 VQAのシグナルはキャプションから再構築可能で追加情報はほぼゼロ、構造化キャプション拡充で一貫したベンチマーク向上を達成。 視覚言語モデルのデータ設計指針を見直す契機となり、効率的なマルチモーダル学習の道筋を示す。
解説 本論文は、マルチモーダル大規模言語モデル(MLLM)のスケーリングにおける根本的な問いを提起する。従来の研究ではVQA(Visual Question Answering:画像に関する質問応答)などタスク多様化がモデル性能向上の鍵とされてきたが、本研究はその前提を覆す。著者らはまず、VQAの教師信号が画像キャプションから統計的に再現可能であること、つまりVQAは既存キャプション情報を超える新たな意味情報をほとんど追加しないことを実証した。次に、「知識密度」という概念を中心に据え、構造化キャプション拡充(物体・属性・空間関係・イベント等を網羅した詳細記述)とクロスモーダル知識注入(テキスト知識を視覚訓練データに組み込む手法)により、複数のマルチモーダルベンチマークで一貫した性能向上が得られることを示した。GPT-4oやGeminiなど既存の大規模モデルとの比較実験でも、タスク多様化よりもデータの意味カバレッジ(semantic coverage)が性能と強く相関することを確認している。実用上の意義は大きく、高品質・高密度なキャプションデータ生成への注力がVQAアノテーション収集より費用対効果が高いことを示唆しており、データ設計戦略の再考を促す研究である。