マルチモーダルAI
要約済み 3
-
hf-papers 1日前 4NVIDIAら、音声言語モデルでGemini超えを達成Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
NVIDIAらが音声・環境音・音楽を統合理解する大規模モデル「Audio Flamingo Next」を公開した。 最大30分の長尺音声に対応し、20以上のベンチマークでGemini 2.5 ProやGPT-4oに匹敵・凌駕する性能を実現。 完全オープンな初のフルオープン音声言語モデルとして、音声AI研究の民主化に貢献する。
解説 Audio Flamingo Next(AF-Next)はNVIDIAとメリーランド大学が共同開発した次世代の大規模音声言語モデル(LALM)。音声・環境音・音楽を統一的に処理し、最大30分の長尺音声を扱える点が大きな特徴。アーキテクチャはWhisperベースの音声エンコーダ「AF-Whisper」、MLP音声アダプタ、Qwen-2.5-7BをバックボーンとするLLMで構成。長文脈対応にはRoPEの代わりに絶対タイムスタンプを利用した「RoTE(Rotary Time Embeddings)」を採用し、時間的位置表現を強化。学習は事前学習・中間学習・事後学習・CoT学習の4段階カリキュラムで行われ、GRPOベースの強化学習も活用。新手法「Temporal Audio Chain-of-Thought」では推論ステップを音声のタイムスタンプに紐づけることで長尺音声の時間的推論精度を向上させた。訓練データは約1億800万サンプル・約100万時間に及ぶ。LongAudioBenchではGemini 2.5 Pro(60.4)を大幅に上回る73.9を達成。LibriSpeechのWER(単語誤り率)も1.54%と最高水準。Instruct・Think・Captionerの3バリアントをフルオープンで公開しており、実用性と再現性が高い。 -
hf-papers 1日前 4研究者、統合マルチモーダルモデルの「擬似統合」を初めて内部診断Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
エントロピー探索フレームワークにより、統合マルチモーダルモデルが視覚と言語を真に融合できていない「擬似統合」状態にあることが判明した。 調査対象モデルの中でMasked Autoencoderを活用するHarmonのみが真の統合に近い動作を示し、共通の文脈予測パラダイムが鍵と示唆された。 画像とテキストを扱うAIモデルの設計指針に再考を促す可能性があり、マルチモーダル研究の方向性に影響を与えそうだ。
解説 本論文はBAGEL、Janus-Pro、Show-o2、OmniGen2など10種類の代表的な統合マルチモーダルモデル(UMM)を対象に、「擬似統合(Pseudo-Unification)」という現象を初めてモデル内部から解析した研究である。UMMはテキスト生成と画像生成を一つのモデルで担うが、LLMが持つ推論能力が画像生成に転移しないという問題があった。 提案手法は情報理論に基づく2階層の探索フレームワークで、(1)プロンプト表現のエントロピー(入力の情報量・等方性を測定)と、(2)プロンプト-応答間の条件付きエントロピー(出力の不確実性を測定)を使用する。Transformerは明示的な確率分布を持たないため、Gaussian kernelを用いた行列ベースのRényiエントロピーに再定式化することで非パラメトリックな推定を実現している。 実験の結果、擬似統合は「モダリティ非対称エンコーディング」(視覚と言語が異なるエントロピー軌跡を辿る)と「パターン分離応答」(テキスト生成は高エントロピー=創造的、画像生成は低エントロピー=忠実性優先)という二重の乖離から生じることが判明した。唯一の例外がHarmon(1.5B)であり、Masked Autoencoderによる画像予測がテキストの次トークン予測と同じ帰納バイアス(文脈予測)を共有することで真の統合に近づいていることを示した。モデルの規模拡大だけでは解決せず、生成パラダイムの統一設計が重要という知見は、今後のUMM設計指針として実用的意義が高い。 -
google-blog-ai 1ヶ月前 2GoogleのAI、視覚検索の仕組みを解説Ask a Techspert: How does AI understand my visual searches?
GoogleがAIによる視覚検索の仕組みをわかりやすく公式解説。 マルチモーダルモデルが画像特徴を抽出しテキストと紐付ける技術を紹介。 Google Lensなど実用サービスへの応用を通じ、AI理解の普及に貢献。