情報理論
要約済み 3
-
hf-papers 1日前 4研究者、統合マルチモーダルモデルの「擬似統合」を初めて内部診断Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
エントロピー探索フレームワークにより、統合マルチモーダルモデルが視覚と言語を真に融合できていない「擬似統合」状態にあることが判明した。 調査対象モデルの中でMasked Autoencoderを活用するHarmonのみが真の統合に近い動作を示し、共通の文脈予測パラダイムが鍵と示唆された。 画像とテキストを扱うAIモデルの設計指針に再考を促す可能性があり、マルチモーダル研究の方向性に影響を与えそうだ。
解説 本論文はBAGEL、Janus-Pro、Show-o2、OmniGen2など10種類の代表的な統合マルチモーダルモデル(UMM)を対象に、「擬似統合(Pseudo-Unification)」という現象を初めてモデル内部から解析した研究である。UMMはテキスト生成と画像生成を一つのモデルで担うが、LLMが持つ推論能力が画像生成に転移しないという問題があった。 提案手法は情報理論に基づく2階層の探索フレームワークで、(1)プロンプト表現のエントロピー(入力の情報量・等方性を測定)と、(2)プロンプト-応答間の条件付きエントロピー(出力の不確実性を測定)を使用する。Transformerは明示的な確率分布を持たないため、Gaussian kernelを用いた行列ベースのRényiエントロピーに再定式化することで非パラメトリックな推定を実現している。 実験の結果、擬似統合は「モダリティ非対称エンコーディング」(視覚と言語が異なるエントロピー軌跡を辿る)と「パターン分離応答」(テキスト生成は高エントロピー=創造的、画像生成は低エントロピー=忠実性優先)という二重の乖離から生じることが判明した。唯一の例外がHarmon(1.5B)であり、Masked Autoencoderによる画像予測がテキストの次トークン予測と同じ帰納バイアス(文脈予測)を共有することで真の統合に近づいていることを示した。モデルの規模拡大だけでは解決せず、生成パラダイムの統一設計が重要という知見は、今後のUMM設計指針として実用的意義が高い。 -
arxiv-cs-ai 2日前 4研究者ら警告——LLM生成テキストが次世代モデルを劣化させるDrift and selection in LLM text ecosystems
生成AIの出力が公開テキストに混入し次世代モデルの学習データとなる再帰的サイクルを数学的に解明した研究が発表された。 フィルタなし再利用(ドリフト)は希少表現を消滅させ、コーパスを浅い定常分布へ収束させることが示された。 品質・正確性・新規性を基準とした選択的フィルタリングが、言語の多様性と深さを維持するために不可欠と結論づけた。
解説 本論文は、LLMが生成したテキストが公開コーパスに混入し、次世代モデルの学習データとして再利用される「再帰的学習サイクル」を、可変次数n-gramエージェントを用いて厳密に解析可能な数学的枠組みで定式化した研究です。 提案手法の核心は「ドリフト」と「選択」の2力に分離した解析です。ドリフトとは、フィルタなしでAI生成テキストが再利用され続けると、統計的に希少な表現形式(語彙・構文)が世代を重ねるごとに消失し、コーパスが多様性を失った浅い定常分布に収束する現象を指します(いわゆるモデル崩壊)。一方、選択とは出版・ランキング・検証などのフィルタリングがコーパスへの流入を制御する作用であり、「現状の統計的分布を反映するだけの選択」では浅い収束を回避できないが、「品質・正確性・新規性を基準とする規範的選択」があれば深い言語構造が維持されることを理論的に証明しています。 実験では無限コーパス極限での安定分布を解析的に導出しており、GPT-4oやClaudeといった具体モデルとの直接比較ではなく、n-gramモデルをエージェントとして抽象化した理論研究です。実用上の意義は大きく、Webクロールデータや合成データを学習に用いる際の品質フィルタ設計、および長期的なAIエコシステムの健全性維持に向けた指針を提供します。 -
arxiv-cs-ai 2日前 3研究者ら、EMAだけの文脈圧縮の限界を情報理論で解明EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context
EMA(指数移動平均)のみを用いた循環文脈が言語モデリングに失敗することを実証的に示した基礎研究が発表された。 EMAは時間的構造を捉えられるが、トークン同一性を破壊するためLM損失が改善しないことを情報理論的に証明。 ゲートや内容検索機構の必要性を裏付け、次世代RNN・SSMアーキテクチャ設計に重要な指針を提供する。
解説 本研究は、EMA(指数移動平均)を「制御された探索ツール」として活用し、効率的系列モデル(SSMやRNNなど)が単純な時間平均に対して何を得ているかを体系的に調査した基礎研究です。 EMAはゲーティングも内容参照もない最もシンプルな循環文脈であり、この性質を利用して「固定係数累積が表現できる限界」を測定しています。 実験では2つの対照的な結果が示されました。①文法的役割割り当てタスクでは、多タイムスケールEMAトレースを用いたヘッブ学習(Hebbian)アーキテクチャが、ラベルなしでも教師あり双方向GRUの96%を達成し、構造依存的役割では上回りました。これはEMAが時間的構造を有効にエンコードできることを示します。②一方、1.3億パラメータの言語モデルでEMAのみを文脈として使用すると、C4データセットの困惑度(perplexity)が260に達し、GPT-2の8倍もの悪化となりました。線形予測器を完全なSoftmax Attentionに置き換えても損失は変わらず、ボトルネックが予測器ではなくEMAトレース自体にあることを特定しました。 これは情報理論の「データ処理不等式」により理論的にも裏付けられており、EMAの非可逆・データ非依存な圧縮特性が根本的な制限となっています。GPT-4oやClaudeのような大規模Transformerとは異なり、EMAベースモデルは構文処理には有用ですが、語彙レベルの予測には本質的に不適切であることが明確化されました。SSMやLinear Attention等の設計判断に理論的根拠を提供する研究です。