マルチモーダル

hf-papers 5時間前 4

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。

解説本論文は「YOJO（You Only Judge Once）」と呼べる手法を提案する。従来の報酬モデル（RM）はN個の候補応答をN回の独立した推論で採点するが、本手法はすべての応答をセパレータトークンで連結し1回のフォワードパスで一括採点する。因果的アテンションの性質上、後続の応答は前の応答を参照できるため、暗黙的な比較推論が生まれる仕組みだ。各応答の最終トークンの隠れ状態から2層MLPスコアリングヘッドでスカラースコアを算出し、クロスエントロピー損失で訓練する（N=2ではBradley-Terry損失と等価）。Molmo2-4Bをバックボーンに436K件の選好データで学習した結果、6つのマルチモーダル報酬ベンチマーク平均71.2%でSOTAを達成（IXC-2.5-Rewardやより大規模モデルを上回る）。推論効率はN=4・動画入力で最大約4倍の高速化とFLOPs削減を実現。さらにGRPOによる強化学習に適用すると、単一応答RMと比べてWildVisionで+4.4ポイント、LLaVA-Benchで+5.4ポイントの改善を示し、訓練シグナルの安定性も高い。新ベンチマークMR²Bench-Image/Videoも公開される。

報酬モデル RLHF マルチモーダル推論効率化

hf-papers 5時間前 4

研究者ら、100ターン超の長期視覚検索エージェントを発表

Towards Long-horizon Agentic Multimodal Search

視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。

解説本論文はLMM-Searcherという長期マルチモーダル深層検索フレームワークを提案する。従来手法の最大課題は「コンテキスト爆発」だった。画像をそのままコンテキストに含めると、長い対話でトークン数が膨大になり推論が破綻する。LMM-Searcherはすべての視覚資産を外部ファイルシステムに保存し、UID（URL等の軽量テキスト識別子）でのみコンテキスト内に参照を保持する。必要な時だけfetch-imageツールで画像を呼び出す「オンデマンドローディング」方式を採用し、100ターンの長期検索を実現した。また、複雑なクロスモーダルマルチホップ推論を要するクエリを自動生成するデータ合成パイプラインを構築し、12,736件の高品質な軌跡データでQwen3-VL-30B-A3B-Thinkingをファインチューニング。さらに言語ベース検索能力を持つMiroThinker-1.7-miniとモデルマージ（重み補間）を行い能力を補完した。評価では、MM-BrowseCompで30.1、MMSearch-Plusで34.8を達成しオープンソースSOTAを更新。GPT-5やGemini-2.5-Proと比較してもアgentic search設定では競争力を持ち、同一ベースモデルでもSeed-1.8にフレームワークを適用するとMMSearch-Plusで46.7という高スコアを記録した。

マルチモーダルエージェント深層検索長期推論 VLM

hf-papers 1日前 4

新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり

CocoaBench: Evaluating Unified Digital Agents in the Wild

視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。

解説 CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚（GUI操作）・検索（Web情報収集）・コーディング（プログラム実行）の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド（Codex、Claude Code）が元々の用途を超えて汎用的に機能することも判明した。失敗分析では、推論・計画エラー（54%）、ツール実行エラー（17%）、視覚的グラウンディングエラー（29%）の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。

エージェント評価ベンチマークマルチモーダル GUI自動化 LLMエージェント

arxiv-cs-ai 1日前 3

中国研究チーム、皮膚科診断AIエージェント「DERM-3R」を発表

DERM-3R: A Resource-Efficient Multimodal Agents Framework for Dermatologic Diagnosis and Treatment in Real-World Clinical Settings

リソース制約環境向けの皮膚科診断マルチモーダルAIフレームワーク「DERM-3R」が発表された。細粒度病変認識・多視点表現・全身的再評価の3課題を解決し、実臨床ワークフローを模倣した設計を採用。医療現場での実用的なAI診断支援への道を開く研究として注目される。

解説 DERM-3Rは皮膚疾患の診断・治療支援を目的としたリソース効率型のマルチモーダルエージェントフレームワークである。従来の西洋医学的な単一ターゲット治療の限界を補完するため、中国伝統医学（TCM）の「弁証論治（症候群に基づく個別化治療）」の概念をAIに組み込んでいる点が独自性の核心。フレームワークは3つの中核課題に分解される：(1)細粒度病変認識（病変の微細な特徴を識別）、(2)専門家レベルの病因モデリングを伴う多視点病変表現（複数の視覚・臨床情報を統合）、(3)全身的な再評価（併存疾患を含む包括的診断）。限られたデータと計算リソースで動作するよう設計されており、GPT-4oやClaude・Geminiといった大規模モデルが必要とする高コストなインフラを回避できる点が実用上重要。電子カルテの不完全性・知識の非標準化といったTCM特有の課題にも対処しており、現実の臨床環境への適用を意識した設計となっている。医療AIと伝統医学の融合という新しいアプローチとして注目されるが、実験結果の詳細が抜粋からは確認できず、ベンチマーク比較の評価は論文全文を要する。

皮膚科AI マルチモーダル伝統医学医療AI エージェント

hf-papers 1日前 4

人物動画生成AI「OmniShow」、テキスト・音声・ポーズを同時制御

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

テキスト・参照画像・音声・ポーズを同時に制御できる人物動画生成フレームワーク「OmniShow」が発表された。チャネル結合による条件注入とゲート付き局所音声アテンション機構で高品質な動画生成を実現。専用ベンチマーク「HOIVG-Bench」で既存手法を上回るSOTA性能を達成し、動画生成技術の新基準を示した。

解説 OmniShowは、人物と物体のインタラクション動画を生成する「HOIVG（Human-Object Interaction Video Generation）」タスクに特化したエンドツーエンドフレームワークである。既存手法は参照画像のみ対応、あるいは音声のみ対応と各条件に特化していたが、本手法はテキスト・参照画像（人物・物体）・音声・ポーズ骨格の4条件を同時制御できる初のフレームワークである。主要技術は3つ。①「Unified Channel-wise Conditioning」：VAEでエンコードしたポーズ映像と参照画像をチャネル次元で連結し、既存の拡散モデルの入力構造を変えずに効率的に条件を注入する。②「Gated Local-Context Attention」：Wav2Vec 2.0で抽出した音声特徴をスライディングウィンドウで文脈集約し、マスク付きアテンションで各フレームと対応音声のみを関連付ける。学習可能ゲートベクトルで初期学習を安定化し、パラメータ増加を約2.5%（0.3B）に抑える。③「Decoupled-Then-Joint Training」：R2VとA2Vを別々に学習後、重み補間でモデルを結合し段階的に統合することで、データ不足を克服しながら各モダリティの性能を維持する。 HunyuanCustom・HuMo・VACE・Phantomといった最新SOTAと比較した定量実験では、12.3Bという最小パラメータで音声同期スコア（Sync-C: 8.612）・参照一貫性・映像品質のいずれも最高水準を達成。Eコマース動画や短動画制作への実用的応用が期待される。

動画生成マルチモーダル人物-物体インタラクション拡散モデル音声同期

hf-papers 1日前 4

LG、初のオープンウェイトVLM「EXAONE 4.5」公開——GPT-5 miniを超える性能

EXAONE 4.5 Technical Report

LGが産業向けオープンウェイト視覚言語モデル「EXAONE 4.5」（33B）を公開。 1.2Bビジョンエンコーダと32B言語モデルを統合し、256Kコンテキストウィンドウに対応。 GPT-5 miniやQwen3-VL-235Bを複数ベンチマークで上回り、韓国発VLMの実力を示した。

解説 EXAONE 4.5はLG AI Researchが開発したLG初のオープンウェイト視覚言語モデル（VLM）で、33Bの密（Dense）アーキテクチャを採用する。1.2Bパラメータのビジョンエンコーダをゼロから学習し、EXAONE 4.0の32B言語モデルに統合した点が特徴。ビジョンエンコーダにGQA（Grouped Query Attention：KVキャッシュを削減する効率的注意機構）と2D RoPEを採用し、高解像度画像の処理効率を高めている。また、Multi-Token Prediction（MTP）モジュールによりデコード速度を向上させ、Context Parallelismで256Kトークンの長文脈を安定して扱う。学習はSFT→DPO/GROUPERによるオフライン選好最適化→GRPOによる強化学習の多段階パイプラインで行われる。評価結果では、LiveCodeBenchで全比較モデル中1位、AIME 2026で92.6点（2位）を達成。MathVision（75.2）やCharXiv RQ（71.7）では、パラメータ数が7倍超のQwen3-VL-235Bを上回り、GPT-5 miniも複数ベンチマークで超える。製造業の品質管理や技術文書解析といった産業応用を見据えており、将来のVLA（Vision-Language-Action）モデルへの足がかりとなる。ライセンスは非商用研究のみ許可。

VLM マルチモーダル産業AI オープンウェイト推論強化

hf-papers 1日前 4

局所領域特化の画像精細化、GPT-4oを全指標で凌駕

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

研究チームがユーザー指定領域のみを高精細化し背景を完全保持する新手法「RefineAnything」を発表。クロップ＆リサイズで解像度を対象領域に集中させる「Focus-and-Refine」戦略を採用し、背景変化をほぼゼロに抑制。 GPT-4o・Gemini・Kontextなど主要SOTAを全指標で上回り、画像編集・生成AIの実用精度向上に貢献。

解説 RefineAnythingは「領域特化画像精細化」という新しい問題設定を定義した論文。テキスト・ロゴ・細線など微細構造が生成AIで崩れる「ローカル詳細崩壊」を解決することを目的とする。【提案手法の仕組み】ベースモデルにQwen-Image-Edit（Qwen2.5-VL＋MMDiT）を採用し、スクリブルマスクまたはバウンディングボックスで指定した領域のみを精細化する。核心技術はFocus-and-Refine：対象領域をクロップして元解像度にリサイズすることで、VAE（変分オートエンコーダ）の固定解像度予算を対象領域に集中させる。クロップ後の精細化結果はブレンドマスクで元画像に合成（ペーストバック）され、背景は構造的に保証される。さらに境界領域の損失を強調するBoundary Consistency Lossで継ぎ目アーティファクトを低減する。【データセット・ベンチマーク】Gemini3＋SAM3で構築した3万件のRefine-30K（参照画像あり2万件・なし1万件）と、67ケース・402入力からなるRefineEvalを新規構築。【実験結果・比較】参照ベース精細化でMSEが最良オープンソース手法Kontextの0.040→0.020（50%削減）、LPIPSは0.264→0.155（41%削減）、背景MSEはほぼ0（Kontext: 0.011、GPT-4o: 0.815と比べ圧倒的）。参照なし設定でもVQや詳細忠実度など全5指標でQwen-Editを0.4〜0.8ポイント上回る。【実用的意義】ECサイト商品画像・広告・UIデザインなど「一文字でも崩れたら価値がなくなる」用途への直接応用が可能で、既存の汎用編集モデルが苦手とする精密局所修復を実現した実用性の高い手法。

画像編集拡散モデル局所精細化マルチモーダル LoRA

hf-papers 1日前 3

製造業向けMLLMベンチマークFORGEが公開、知識不足が性能の壁と判明

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

製造業シナリオ向けの高品質マルチモーダルベンチマーク「FORGE」が公開、約1.2万サンプルを収録。 18種のMLLMを評価した結果、視覚認識より製造ドメイン知識の不足が性能のボトルネックと判明。 3Bモデルのファインチューニングで最大90.8%の精度向上を達成し、産業AIの開発指針を提示。

解説 FORGEは製造業向けMLLM（マルチモーダル大規模言語モデル）評価のための新ベンチマークデータセット。2D画像と3D点群（レンダリング済み）のデュアルモダリティで構成され、14カテゴリ・90モデル番号の工作物を対象に、(1)工作物の照合・検証、(2)表面構造の外観検査、(3)組み立て正否の確認という3タスクを設定している。 18種類のSOTA MLLMを評価した結果、視覚的な物体認識（マクロ知覚）はほぼ解決済みである一方、製造仕様・公差・ルールに基づく細粒度な意味推論（マイクロ推論）が主要なボトルネックであることが明らかになった。GPT-4oやClaude、Geminiなどの汎用モデルは製造要件との間に大きなパフォーマンスギャップを示した。3D点群を直接テキストとして入力する手法は特に精度が低く、参照条件付きプロンプトも3D設定では効果が限定的だった。一方、FORGEデータで3Bパラメータの小型モデルをSFT（教師ありファインチューニング）すると最大90.8%の相対的精度向上を達成し、ドメイン特化型ファインチューニングの有効性を実証した。製造AIの実用化に向けた明確な研究方向性を示す点で産業界・研究者双方に有意義な成果。

マルチモーダル製造業AI ベンチマークファインチューニング点群

hf-blog 3日前 3

IBM、3B軽量VLMをOSSで公開——企業文書解析に特化

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

IBMが3Bパラメータの視覚言語モデル「Granite 4.0 3B Vision」をApache 2.0ライセンスで公開。表・チャート・帳票の構造化抽出に特化し、独自技術で大規模モデルに匹敵するベンチマーク性能を実現。軽量・商用利用可・Docling連携対応で、企業のドキュメントAI導入ハードルを大幅に下げる。

マルチモーダル企業向けAI 文書理解オープンソース IBM

hf-blog 3日前 4

Falcon Perception、0.6BモデルでSAM 3を大きく超える性能を達成

Falcon Perception

オープン語彙セグメンテーション・物体検出モデル「Falcon Perception」（0.6B）が公開された。早期融合Transformerを採用し、SAM 3を空間理解で+21.9pt、属性認識で+9.2pt上回る。コンパニオンのFalcon OCR（0.3B）はGPT-4oやDeepSeek OCR v2をも凌駕し、軽量モデルの可能性を示す。

解説わずか0.6BパラメータでSAM 3を大幅に上回り、特に空間理解・関係推論・密集シーンで圧倒的な差を見せる。SAM 3が苦手なOCR連携グラウンディングや複合的プロンプトへの対応力が際立つ。Falcon OCR(0.3B)もGPT-5.2やMistral OCR 3を超える精度を達成しており、エッジデバイスやコスト重視の本番環境での視覚理解パイプラインに大きな選択肢を与える。開発者にとってはvLLM対応やMLX統合など実デプロイの容易さも魅力。

マルチモーダルセグメンテーション OCR 軽量モデルオープンソース

hf-blog 3日前 4

GoogleがGemma 4公開、スマホでも動くマルチモーダルAI

Welcome Gemma 4: Frontier multimodal intelligence on device

GoogleがApache 2.0ライセンスのマルチモーダルモデル群「Gemma 4」（2.3B〜31B）を公開。 PLE・共有KVキャッシュなど新アーキテクチャで効率・長文脈処理を大幅改善、画像・音声・動画に対応。ブラウザやスマホ上でも動作可能な軽量設計で、エッジAI開発の選択肢が一気に広がる。

解説 Gemma 4はオープンソースでありながらLMArenaスコア約1450とフロンティア級の性能を達成。特にMoE版（26B-A4B）は実効4Bパラメータで31B密モデルに迫る性能を示し、エッジデバイス展開の可能性を大きく広げた。GPT-4oやClaude、Geminiといったプロプライエタリモデルに対抗しうるオープンモデルとして、開発者がローカル環境で高性能マルチモーダルAIを活用できる選択肢が増えた点が重要。

マルチモーダルオンデバイスAI オープンソース MoE Google

hf-blog 3日前 3

Sentence Transformers v5.4、テキスト・画像・音声・動画を統一APIで埋め込み対応

Multimodal Embedding & Reranker Models with Sentence Transformers

Sentence Transformers v5.4がリリースされ、テキスト・画像・音声・動画を単一APIで埋め込み可能に。 Qwen3-VLなど最新マルチモーダルモデルを活用したクロスモーダル検索・リランキングを実装。 Retrieve & Rerankパイプラインにより、RAGシステムの検索精度向上が期待される。

解説 Sentence Transformersという広く使われるライブラリにマルチモーダル対応が統合された実用的なアップデート。Qwen3-VL、NVIDIA Nemotron、BGE-VL等の最新埋め込み・リランクモデルを統一APIで利用可能になり、RAGパイプラインへのマルチモーダル検索導入が大幅に容易になる。GPT-4oやClaude等のLLMとは異なり、検索・類似度計算に特化した軽量モデル群であり、開発者が既存の検索基盤に画像・動画対応を追加する際の実践的な選択肢となる。

マルチモーダル埋め込みモデル Sentence Transformers リランキング RAG

hf-blog 7日前 4

研究者、生成LLMを双方向エンコーダに変換する新手法を発表

BidirLM: Turning Generative LLMs into the Best Open-Source Omnimodal Encoders4 days ago•23

因果的LLMを2段階適応（マスク予測＋対比学習）で双方向エンコーダに転換する「BidirLM」が登場。テキスト・画像・音声を統合する250GPU時間の軽量学習で、MTEB/MIEBにて最高水準の性能を達成。既存の生成モデルをRAGや検索基盤に転用できる道を開き、エンコーダ開発コストの大幅削減に貢献。

解説生成LLMの膨大な事前学習投資を埋め込みタスクに再利用する実用的手法。MNTP＋対比学習の2段階パイプラインと重みマージにより、わずか250GPU時間でテキスト・画像・音声対応の統合エンコーダを構築できる点が画期的。OpenAI embeddingやCohere等の商用APIに対抗するオープンソース選択肢として開発者に直接的な恩恵があり、新たな専門モデルが出るたびにマージで拡張可能なモジュール性も研究者にとって魅力的。

エンコーダマルチモーダルモデルマージ埋め込みオープンソース

google-blog-ai 21日前 3

Google、AI音楽生成「Lyria 3 Pro」で長尺楽曲に対応

Lyria 3 Pro: Create longer tracks in more Google products

GoogleがAI音楽生成モデル「Lyria 3 Pro」を発表し、長尺楽曲の生成に対応した。従来モデルより長い楽曲を生成可能で、複数のGoogle製品への統合も進める。音楽制作ツールのAI化が加速し、クリエイター向けサービスの拡充が期待される。

Google 音楽生成AI Lyria 生成AI マルチモーダル

hf-blog 1ヶ月前 4

SenseTime、エンコーダ不要のマルチモーダルAIを発表

NEO-unify: Building Native Multimodal Unified Models End to End

SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。

解説 NEO-unifyはSenseTimeとNTUが共同開発した、ネイティブマルチモーダル統合モデルの新パラダイムである。従来のマルチモーダルモデル（GPT-4o、Gemini、Claudeを含む多くの系統）は、画像入力にVision Encoder（ViTなど）、画像生成にVAE（変分オートエンコーダ）を使用するが、これらの事前学習済みコンポーネントがスケーリングのボトルネックになるという問題があった。NEO-unifyはこれらを完全に排除し、ピクセルとテキストをそのまま扱う「ほぼ無損失なビジュアルインターフェース」を採用する。アーキテクチャの核心はNative Mixture-of-Transformer（MoT）で、理解（Understanding）ブランチと生成（Generation）ブランチが同一バックボーン内で共進化する設計になっている。学習目標はテキスト向けの自己回帰クロスエントロピー損失と、視覚向けのPixel Flow Matchingを統合したものを使用。実験ではMS COCO 2017上で31.56 PSNR・0.85 SSIMを達成し、Flux VAE（32.65 PSNR）に迫る品質を示した。画像編集ベンチマーク（ImgEdit）でも3.32スコアを記録。特筆すべきは、類似モデル（Bagel等）と比較してデータスケーリング効率が大幅に優れており、少ない学習トークンで高い性能を達成できる点である。現時点ではプレビュー段階だが、近くHugging Faceでオープンソース公開が予定されており、エンコーダフリーの統合マルチモーダルモデルとして実用的な影響が期待される。

マルチモーダル画像生成エンコーダフリー統合モデル SenseTime

gh-mistral 1年前 2

Mistral、推論ライブラリv1.6.0でビジョン対応モデルをサポート

mistralai/mistral-inference v1.6.0: Mistrall goes Small 3.1 with vision

MistralがPython推論ライブラリ「mistral-inference」をv1.6.0にアップデートした。今回の主な追加機能はMistral Small 3.1の視覚（マルチモーダル）対応で、画像入力が可能になった。ローカル推論環境でのビジョンモデル活用の選択肢が広がり、開発者の注目を集めている。

Mistral OSS マルチモーダル

gh-mistral 1年前 3

Mistral AI、画像理解モデル「Pixtral-12B」を正式公開

mistralai/mistral-inference v1.4.0: Pixtral 👀

Mistral AIがマルチモーダルモデル「Pixtral-12B」をmistral-inferenceライブラリv1.4.0で公開した。 12Bパラメータで画像入力に対応し、CLIやPython APIから画像の質問・分析が可能。オープンソースの軽量マルチモーダルモデルとして、開発者が手軽に画像AI機能を実装できる選択肢が増える。

Mistral AI マルチモーダルオープンソース Pixtral

要約済み 17