VLM
要約済み 4
-
hf-papers 5時間前 4研究者がVLMの「意味的固着」バイアスを実証Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models
研究チームが大規模視覚言語モデル(VLM)に潜む「意味的固着」バイアスを発見・実証した。 同じ画像でもラベルの意味的定義を変えると精度が低下し、中立タグへの置換でバイアスが縮小することを確認。 ファインチューニングが特定ルールに過適合する問題を示し、VLMの信頼性向上に向けた課題を提示した。
解説 本論文は「意味的固着(Semantic Fixation)」という新概念を提唱し、大規模視覚言語モデル(VLM)が視覚情報ではなく学習済みの意味的先入観に依存して誤答する現象を厳密に分離・定量化した研究です。 提案ベンチマークVLM-Fixは、三目並べ・コネクトフォー・リバーシ・ドッツアンドボックスの4ゲームにおいて、まったく同一の盤面状態を「通常ルール」と「逆ルール(勝ち負けの定義が反転)」の両方で評価します。視覚入力が完全に同一であるため、精度差は純粋に意味解釈能力の違いとして解釈できます。 GPT-4.1・GPT-5.2・Claude Sonnet-4.0/4.5・Qwen・InternVL・Molmoなど14モデルを評価した結果、平均で標準ルール67.1%に対し逆ルールは52.5%と14.6ポイントの差が生じ、14モデル中13モデルで逆ルール精度が低下しました。 プロンプト介入実験では、「勝者/敗者」を「POM/TOV」などの中立タグに置き換えると差が2.3ポイントまで縮小。しかしタグに「有利/不利」の意味を付加すると再び差が広がり、バイアスの主因が意味的な語彙負荷にあることが実証されました。 さらにSFT・RLVRによる後学習は特定ルールへの適合を強化する一方、逆ルールへの転用で精度が低下する負転移が確認されました。活性化ステアリング分析では、後半層の表現を操作することで性能の部分的な回復が可能であり、意味的固着が後半の意味読み出し段階に局在することが示唆されています。 -
hf-papers 5時間前 4研究者ら、100ターン超の長期視覚検索エージェントを発表Towards Long-horizon Agentic Multimodal Search
視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。 コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。 長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。
解説 本論文はLMM-Searcherという長期マルチモーダル深層検索フレームワークを提案する。従来手法の最大課題は「コンテキスト爆発」だった。画像をそのままコンテキストに含めると、長い対話でトークン数が膨大になり推論が破綻する。LMM-Searcherはすべての視覚資産を外部ファイルシステムに保存し、UID(URL等の軽量テキスト識別子)でのみコンテキスト内に参照を保持する。必要な時だけfetch-imageツールで画像を呼び出す「オンデマンドローディング」方式を採用し、100ターンの長期検索を実現した。また、複雑なクロスモーダルマルチホップ推論を要するクエリを自動生成するデータ合成パイプラインを構築し、12,736件の高品質な軌跡データでQwen3-VL-30B-A3B-Thinkingをファインチューニング。さらに言語ベース検索能力を持つMiroThinker-1.7-miniとモデルマージ(重み補間)を行い能力を補完した。評価では、MM-BrowseCompで30.1、MMSearch-Plusで34.8を達成しオープンソースSOTAを更新。GPT-5やGemini-2.5-Proと比較してもアgentic search設定では競争力を持ち、同一ベースモデルでもSeed-1.8にフレームワークを適用するとMMSearch-Plusで46.7という高スコアを記録した。 -
hf-papers 1日前 3合成データでVLMの視覚能力を底上げ、人手不要の新手法VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
LLMと画像生成AIを組み合わせた合成VQAデータ生成パイプライン「VisionFoundry」が発表された。 人手アノテーション不要で10種の視覚タスクをカバーする1万件データセットを構築、MMVPで+7%・CV-Bench-3Dで+10%を達成。 データ収集コストを大幅削減しつつ汎用性も維持、VLM開発の効率化に貢献する成果として注目される。
解説 VisionFoundryは、視覚言語モデル(VLM)が苦手とする低レベルな視覚知覚(空間理解、視点認識、奥行き順序など)を改善するため、合成データを自動生成するパイプラインを提案した論文。 【手法の仕組み】タスク名だけを入力として、LLMが質問と回答を生成し、そのタスクに適したテキスト→画像(T2I)プロンプトを作成。Stable DiffusionなどのT2Iモデルで画像を合成し、さらにVLMで整合性を検証する4段階パイプライン。参照画像も人手アノテーションも一切不要なのが特徴。 【データセット】このパイプラインで生成したVisionFoundry-10K(1万件の画像+Q&Aトリプル)を公開。 【実験結果】このデータでファインチューニングしたモデルは、視覚知覚ベンチマークのMMVPで+7%、3D空間理解のCV-Bench-3Dで+10%向上。また汎用タスクの性能低下(破滅的忘却)も見られなかった。 【既存手法との差異】GPT-4oやGeminiなど大規模モデルでも視覚知覚が弱い原因が「タスク特化の学習データ不足」にあると体系的に示した点が新しい。少量・高品質な合成データで弱点を補完できることを証明しており、VLM開発コスト削減に実用的な示唆を持つ。 -
hf-papers 1日前 4LG、初のオープンウェイトVLM「EXAONE 4.5」公開——GPT-5 miniを超える性能EXAONE 4.5 Technical Report
LGが産業向けオープンウェイト視覚言語モデル「EXAONE 4.5」(33B)を公開。 1.2Bビジョンエンコーダと32B言語モデルを統合し、256Kコンテキストウィンドウに対応。 GPT-5 miniやQwen3-VL-235Bを複数ベンチマークで上回り、韓国発VLMの実力を示した。
解説 EXAONE 4.5はLG AI Researchが開発したLG初のオープンウェイト視覚言語モデル(VLM)で、33Bの密(Dense)アーキテクチャを採用する。1.2Bパラメータのビジョンエンコーダをゼロから学習し、EXAONE 4.0の32B言語モデルに統合した点が特徴。ビジョンエンコーダにGQA(Grouped Query Attention:KVキャッシュを削減する効率的注意機構)と2D RoPEを採用し、高解像度画像の処理効率を高めている。また、Multi-Token Prediction(MTP)モジュールによりデコード速度を向上させ、Context Parallelismで256Kトークンの長文脈を安定して扱う。学習はSFT→DPO/GROUPERによるオフライン選好最適化→GRPOによる強化学習の多段階パイプラインで行われる。評価結果では、LiveCodeBenchで全比較モデル中1位、AIME 2026で92.6点(2位)を達成。MathVision(75.2)やCharXiv RQ(71.7)では、パラメータ数が7倍超のQwen3-VL-235Bを上回り、GPT-5 miniも複数ベンチマークで超える。製造業の品質管理や技術文書解析といった産業応用を見据えており、将来のVLA(Vision-Language-Action)モデルへの足がかりとなる。ライセンスは非商用研究のみ許可。