視覚知覚
要約済み 1
-
hf-papers 1日前 3合成データでVLMの視覚能力を底上げ、人手不要の新手法VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
LLMと画像生成AIを組み合わせた合成VQAデータ生成パイプライン「VisionFoundry」が発表された。 人手アノテーション不要で10種の視覚タスクをカバーする1万件データセットを構築、MMVPで+7%・CV-Bench-3Dで+10%を達成。 データ収集コストを大幅削減しつつ汎用性も維持、VLM開発の効率化に貢献する成果として注目される。
解説 VisionFoundryは、視覚言語モデル(VLM)が苦手とする低レベルな視覚知覚(空間理解、視点認識、奥行き順序など)を改善するため、合成データを自動生成するパイプラインを提案した論文。 【手法の仕組み】タスク名だけを入力として、LLMが質問と回答を生成し、そのタスクに適したテキスト→画像(T2I)プロンプトを作成。Stable DiffusionなどのT2Iモデルで画像を合成し、さらにVLMで整合性を検証する4段階パイプライン。参照画像も人手アノテーションも一切不要なのが特徴。 【データセット】このパイプラインで生成したVisionFoundry-10K(1万件の画像+Q&Aトリプル)を公開。 【実験結果】このデータでファインチューニングしたモデルは、視覚知覚ベンチマークのMMVPで+7%、3D空間理解のCV-Bench-3Dで+10%向上。また汎用タスクの性能低下(破滅的忘却)も見られなかった。 【既存手法との差異】GPT-4oやGeminiなど大規模モデルでも視覚知覚が弱い原因が「タスク特化の学習データ不足」にあると体系的に示した点が新しい。少量・高品質な合成データで弱点を補完できることを証明しており、VLM開発コスト削減に実用的な示唆を持つ。