要約
LLMと画像生成AIを組み合わせた合成VQAデータ生成パイプライン「VisionFoundry」が発表された。 人手アノテーション不要で10種の視覚タスクをカバーする1万件データセットを構築、MMVPで+7%・CV-Bench-3Dで+10%を達成。 データ収集コストを大幅削減しつつ汎用性も維持、VLM開発の効率化に貢献する成果として注目される。
公式ソースだけを集めたAIニュースを日本語要約でお届け
VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
LLMと画像生成AIを組み合わせた合成VQAデータ生成パイプライン「VisionFoundry」が発表された。 人手アノテーション不要で10種の視覚タスクをカバーする1万件データセットを構築、MMVPで+7%・CV-Bench-3Dで+10%を達成。 データ収集コストを大幅削減しつつ汎用性も維持、VLM開発の効率化に貢献する成果として注目される。
VisionFoundryは、視覚言語モデル(VLM)が苦手とする低レベルな視覚知覚(空間理解、視点認識、奥行き順序など)を改善するため、合成データを自動生成するパイプラインを提案した論文。
【手法の仕組み】タスク名だけを入力として、LLMが質問と回答を生成し、そのタスクに適したテキスト→画像(T2I)プロンプトを作成。Stable DiffusionなどのT2Iモデルで画像を合成し、さらにVLMで整合性を検証する4段階パイプライン。参照画像も人手アノテーションも一切不要なのが特徴。
【データセット】このパイプラインで生成したVisionFoundry-10K(1万件の画像+Q&Aトリプル)を公開。
【実験結果】このデータでファインチューニングしたモデルは、視覚知覚ベンチマークのMMVPで+7%、3D空間理解のCV-Bench-3Dで+10%向上。また汎用タスクの性能低下(破滅的忘却)も見られなかった。
【既存手法との差異】GPT-4oやGeminiなど大規模モデルでも視覚知覚が弱い原因が「タスク特化の学習データ不足」にあると体系的に示した点が新しい。少量・高品質な合成データで弱点を補完できることを証明しており、VLM開発コスト削減に実用的な示唆を持つ。