解釈可能性

2件の記事

要約済み 2

hf-papers 1日前 4
研究者、統合マルチモーダルモデルの「擬似統合」を初めて内部診断
Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

エントロピー探索フレームワークにより、統合マルチモーダルモデルが視覚と言語を真に融合できていない「擬似統合」状態にあることが判明した。調査対象モデルの中でMasked Autoencoderを活用するHarmonのみが真の統合に近い動作を示し、共通の文脈予測パラダイムが鍵と示唆された。画像とテキストを扱うAIモデルの設計指針に再考を促す可能性があり、マルチモーダル研究の方向性に影響を与えそうだ。

解説本論文はBAGEL、Janus-Pro、Show-o2、OmniGen2など10種類の代表的な統合マルチモーダルモデル(UMM)を対象に、「擬似統合（Pseudo-Unification）」という現象を初めてモデル内部から解析した研究である。UMMはテキスト生成と画像生成を一つのモデルで担うが、LLMが持つ推論能力が画像生成に転移しないという問題があった。提案手法は情報理論に基づく2階層の探索フレームワークで、(1)プロンプト表現のエントロピー（入力の情報量・等方性を測定）と、(2)プロンプト-応答間の条件付きエントロピー（出力の不確実性を測定）を使用する。Transformerは明示的な確率分布を持たないため、Gaussian kernelを用いた行列ベースのRényiエントロピーに再定式化することで非パラメトリックな推定を実現している。実験の結果、擬似統合は「モダリティ非対称エンコーディング」（視覚と言語が異なるエントロピー軌跡を辿る）と「パターン分離応答」（テキスト生成は高エントロピー＝創造的、画像生成は低エントロピー＝忠実性優先）という二重の乖離から生じることが判明した。唯一の例外がHarmon（1.5B）であり、Masked Autoencoderによる画像予測がテキストの次トークン予測と同じ帰納バイアス（文脈予測）を共有することで真の統合に近づいていることを示した。モデルの規模拡大だけでは解決せず、生成パラダイムの統一設計が重要という知見は、今後のUMM設計指針として実用的意義が高い。

マルチモーダルAI 情報理論解釈可能性テキストから画像生成統合モデル
hf-papers 1日前 4
生成AIの芸術評価に記号論で革新、既存手法を大幅超え
On Semiotic-Grounded Interpretive Evaluation of Generative Art

研究者らが記号論に基づく生成アート評価フレームワーク「SemJudge」を発表。パースの三項記号論で「階層的記号関係グラフ」を構築し、935枚の画像データセットで検証、CLIPやPickScoreを大幅に上回る人間との一致率を達成。抽象・象徴・比喩を捉えられない既存AI評価の盲点を突き、生成AI品質評価の新基準となる可能性。

解説本論文は、テキスト→画像生成モデルの評価における根本的な問題に取り組む。CLIPScore・HPSv2・PickScoreなどの既存評価器は「アイコン性バイアス」を持ち、写実的な表現は正しく評価できるが、象徴（Symbol）や指標（Index）に依拠する抽象・比喩的作品を適切に評価できないことを理論的・実証的に示す。提案手法SemJudgeは、哲学者パースの三項記号論（記号・対象・解釈項）を形式化した「階層的記号関係グラフ（HSG）」を構築し、生成画像の意味を解釈プロセスとして再構成する。評価はプロンプトのテキスト範囲と画像領域の両方に根拠づけられる。実験では187モチーフ・935枚画像のデータセットSemiosisArtを構築。Qwen-9Bベースのは既存手法（VIEScore, ArtCoT, LMM4LMMなど）を上回り、Gemini-Flashをジャッジとして用いるとKRCC=0.73・VQA精度92.4%を達成。人間評価でも因果的合意・解釈深度・証拠根拠の全軸でベースラインを有意に上回る。アイコン性バイアス検定でも既存手法が偏りを示す中、SemJudgeは有意差なし。生成AIの芸術的表現力評価に新たなパラダイムをもたらす研究。

生成AI評価記号論マルチモーダルLLM 生成アート解釈可能性