合成データでVLMの視覚能力を底上げ、人手不要の新手法

hf-papers 2026-04-13 12:24 ★3

合成データでVLMの視覚能力を底上げ、人手不要の新手法

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

VLM 合成データ視覚知覚 VQA データ生成

要約

LLMと画像生成AIを組み合わせた合成VQAデータ生成パイプライン「VisionFoundry」が発表された。人手アノテーション不要で10種の視覚タスクをカバーする1万件データセットを構築、MMVPで+7%・CV-Bench-3Dで+10%を達成。データ収集コストを大幅削減しつつ汎用性も維持、VLM開発の効率化に貢献する成果として注目される。

解説・分析

VisionFoundryは、視覚言語モデル（VLM）が苦手とする低レベルな視覚知覚（空間理解、視点認識、奥行き順序など）を改善するため、合成データを自動生成するパイプラインを提案した論文。

【手法の仕組み】タスク名だけを入力として、LLMが質問と回答を生成し、そのタスクに適したテキスト→画像（T2I）プロンプトを作成。Stable DiffusionなどのT2Iモデルで画像を合成し、さらにVLMで整合性を検証する4段階パイプライン。参照画像も人手アノテーションも一切不要なのが特徴。

【データセット】このパイプラインで生成したVisionFoundry-10K（1万件の画像＋Q&Aトリプル）を公開。

【実験結果】このデータでファインチューニングしたモデルは、視覚知覚ベンチマークのMMVPで+7%、3D空間理解のCV-Bench-3Dで+10%向上。また汎用タスクの性能低下（破滅的忘却）も見られなかった。

【既存手法との差異】GPT-4oやGeminiなど大規模モデルでも視覚知覚が弱い原因が「タスク特化の学習データ不足」にあると体系的に示した点が新しい。少量・高品質な合成データで弱点を補完できることを証明しており、VLM開発コスト削減に実用的な示唆を持つ。

AIフロントライン

合成データでVLMの視覚能力を底上げ、人手不要の新手法

要約

解説・分析

関連する読者