研究者がVLMの「意味的固着」バイアスを実証

hf-papers 2026-04-15 06:00 ★4

Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models

VLM バイアス分析意味的推論ベンチマーク

研究チームが大規模視覚言語モデル（VLM）に潜む「意味的固着」バイアスを発見・実証した。同じ画像でもラベルの意味的定義を変えると精度が低下し、中立タグへの置換でバイアスが縮小することを確認。ファインチューニングが特定ルールに過適合する問題を示し、VLMの信頼性向上に向けた課題を提示した。

本論文は「意味的固着（Semantic Fixation）」という新概念を提唱し、大規模視覚言語モデル（VLM）が視覚情報ではなく学習済みの意味的先入観に依存して誤答する現象を厳密に分離・定量化した研究です。

提案ベンチマークVLM-Fixは、三目並べ・コネクトフォー・リバーシ・ドッツアンドボックスの4ゲームにおいて、まったく同一の盤面状態を「通常ルール」と「逆ルール（勝ち負けの定義が反転）」の両方で評価します。視覚入力が完全に同一であるため、精度差は純粋に意味解釈能力の違いとして解釈できます。

GPT-4.1・GPT-5.2・Claude Sonnet-4.0/4.5・Qwen・InternVL・Molmoなど14モデルを評価した結果、平均で標準ルール67.1%に対し逆ルールは52.5%と14.6ポイントの差が生じ、14モデル中13モデルで逆ルール精度が低下しました。

プロンプト介入実験では、「勝者/敗者」を「POM/TOV」などの中立タグに置き換えると差が2.3ポイントまで縮小。しかしタグに「有利/不利」の意味を付加すると再び差が広がり、バイアスの主因が意味的な語彙負荷にあることが実証されました。

さらにSFT・RLVRによる後学習は特定ルールへの適合を強化する一方、逆ルールへの転用で精度が低下する負転移が確認されました。活性化ステアリング分析では、後半層の表現を操作することで性能の部分的な回復が可能であり、意味的固着が後半の意味読み出し段階に局在することが示唆されています。

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.12119

AIフロントライン