拡散モデル
要約済み 11
-
hf-papers 2時間前 3新手法DDTreeで投機的デコードが最大8倍超に高速化Accelerating Speculative Decoding with Block Diffusion Draft Trees
研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。 最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。
解説 本論文はLLMの推論遅延を削減する投機的デコード(Speculative Decoding)の改善手法DDTree(Diffusion Draft Tree)を提案する。投機的デコードとは、軽量なドラフトモデルが複数のトークン候補を先行生成し、大規模ターゲットモデルが並列検証することで高速化する技法である。従来のDFlashはブロック拡散ドラフターを1回のフォワードパスで実行し各位置の周辺分布を得るが、検証する候補軌跡は1本のみだった。DDTreeはこの各位置周辺分布を活用してノード予算B内のドラフトツリーを構築する。提案の核心は「ドラフト分布下での期待受理長を最大化するツリー選択」をサロゲート目的関数として定式化し、上位B確率プレフィックスを選ぶことが最適となることを命題として証明した点にある。ツリー構成はmax-heapを用いた最良優先探索アルゴリズムで効率的(O(B log B))に実現される。検証はTree Attentionによる1回のターゲットモデルフォワードパスで行う。実験ではQwen3-4B/8B/Coder-30Bに対してAIME・MATH-500・HumanEval等10データセット×2温度の全60設定でDFlashを上回り、Qwen3-8BのMATH-500では5.56倍→7.50倍へと大幅に改善。EAGLE-3等の自己回帰ドラフター系手法と比較しても競争力ある水準を達成している。 -
hf-papers 5時間前 4動画トークン化を革新、8分の1のトークン数で同等品質VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。
解説 VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化(コードブックサイズ6.4万)でレジスタトークンを離散化する。Nested Dropout(後半トークンをランダムにマスク)により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer(DiT)ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減(1.1B対5.2B)、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1(672対5,376)に圧縮された。固定サイズ手法(LARP等)と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。 -
hf-papers 8時間前 3拡散モデルの各手法、数学的に等価と証明Rethinking the Diffusion Model from a Langevin Perspective
研究者らがランジュバン動力学を軸に拡散モデルの順・逆過程を統一的に導出する新フレームワークを発表。 SDE・ODE・フロー整合など異なる定式化が最大尤度の下で数学的に等価であることを厳密に証明。 VAEやスコアマッチングの直感的理解も統合され、生成モデル研究の理論的基盤が整理される。
解説 本論文は香港科技大学の研究者が執筆した理論的解説論文で、拡散モデルをランジュバン動力学の視点から体系的に再整理したものである。核心的アイデアは「ランジュバン動力学は分布上の恒等操作である」という観点で、順拡散過程(ノイズ付加)と逆拡散過程(ノイズ除去)をこの恒等操作の分割として統一的に導出する。これにより、逆過程が順過程をどのように打ち消すかという古典的疑問に直感的な答えを提供する。また、VP(分散保存)・VE-Karras(分散爆発)・Rectified Flow(整流フロー)という主要な拡散モデルの定式化が、異なるランジュバン分割として統一され、相互変換テーブルも提示される。さらに最大尤度の観点から、スコアマッチング・デノイジングスコアマッチング・フロー整合は数学的に等価であることが証明され、フロー整合が「本質的に簡単」という誤解が払拭される。普通のVAEとの比較では、拡散モデルが理論上完全な事前・事後ペアを形成する一方、VAEはELBO最適化でも厳密な等価性を保証できないことが示される。実験的な新手法提案より教育的・理論的貢献が主眼であり、研究者や学習者が異なる拡散モデル流派を統合的に理解するのに有用。 -
arxiv-cs-ai 1日前 4Attention機構と拡散モデルが実は同一構造と判明The Diffusion-Attention Connection
TransformerのAttentionと拡散マップを統一する新理論が発表された。 QK「双発散」を定義し、Attention・拡散マップ・磁気拡散を単一の枠組みから導出することを証明。 Transformerの理論的基盤を深め、新アーキテクチャ設計への応用が期待される。
解説 本論文は機械学習の基盤となる三つの手法——Transformerのself-attention、拡散マップ(多様体学習の手法)、磁気ラプラシアン(グラフ上の複素数値拡散を扱う演算子)——が実は同一の数学的枠組みから派生することを示す理論研究である。 鍵となる概念は「QK双発散」で、クエリとキーの内積(pre-softmax段階のスコア)を情報幾何的な発散として再解釈したものだ。この双発散を指数化・正規化する方法を変えることで、通常のsoftmax attention、拡散マップのカーネル、磁気拡散の各形式が統一的に導出される。さらに「専門家積(複数の確率モデルの積)」と「シュレーディンガーブリッジ(二つの確率分布間の最適輸送を確率過程で結ぶ手法)」を使い、これら三者を平衡状態・非平衡定常状態・外部駆動ダイナミクスという物理的枠組みで分類・整理した。 この統一視点は、Transformerの設計原理を多様体学習や統計物理の知見から再解釈できることを意味し、新たなアーキテクチャ設計や正則化手法への理論的根拠を与える可能性がある。GPT-4oやClaudeといった実装上の比較ではなく純粋理論研究だが、アテンション機構の数学的理解を大きく深める貢献として重要度は高い。 -
hf-papers 1日前 4人物動画生成AI「OmniShow」、テキスト・音声・ポーズを同時制御OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
テキスト・参照画像・音声・ポーズを同時に制御できる人物動画生成フレームワーク「OmniShow」が発表された。 チャネル結合による条件注入とゲート付き局所音声アテンション機構で高品質な動画生成を実現。 専用ベンチマーク「HOIVG-Bench」で既存手法を上回るSOTA性能を達成し、動画生成技術の新基準を示した。
解説 OmniShowは、人物と物体のインタラクション動画を生成する「HOIVG(Human-Object Interaction Video Generation)」タスクに特化したエンドツーエンドフレームワークである。既存手法は参照画像のみ対応、あるいは音声のみ対応と各条件に特化していたが、本手法はテキスト・参照画像(人物・物体)・音声・ポーズ骨格の4条件を同時制御できる初のフレームワークである。 主要技術は3つ。①「Unified Channel-wise Conditioning」:VAEでエンコードしたポーズ映像と参照画像をチャネル次元で連結し、既存の拡散モデルの入力構造を変えずに効率的に条件を注入する。②「Gated Local-Context Attention」:Wav2Vec 2.0で抽出した音声特徴をスライディングウィンドウで文脈集約し、マスク付きアテンションで各フレームと対応音声のみを関連付ける。学習可能ゲートベクトルで初期学習を安定化し、パラメータ増加を約2.5%(0.3B)に抑える。③「Decoupled-Then-Joint Training」:R2VとA2Vを別々に学習後、重み補間でモデルを結合し段階的に統合することで、データ不足を克服しながら各モダリティの性能を維持する。 HunyuanCustom・HuMo・VACE・Phantomといった最新SOTAと比較した定量実験では、12.3Bという最小パラメータで音声同期スコア(Sync-C: 8.612)・参照一貫性・映像品質のいずれも最高水準を達成。Eコマース動画や短動画制作への実用的応用が期待される。 -
hf-papers 1日前 4動画生成比2200倍高速な未来予測AI「Myriad」登場Envisioning the Future, One Step at a Time
疎な点軌跡の逐次推論で未来シーン動態を予測する新手法「Myriad」が発表された。 自己回帰拡散モデル(フローマッチング)により多様な未来を高速サンプリングし、動画生成モデル比2200倍のスループットを達成。 密なピクセル生成を不要にした本手法は、ロボット制御や自動運転など実時間予測が求められる分野への応用が期待される。
解説 本論文はシーンの未来動態予測において、密な動画フレームを生成するのではなく、ユーザー定義の疎な点群の軌跡分布を逐次推論するアプローチを提案する。提案モデル「Myriad」(665M)は、フローマッチングヘッドと高速推論ブロック(Fused Attention)を組み合わせた自己回帰Transformerで、KVキャッシュを活用し1分間に2200サンプルを生成できる。これは競合の動画生成モデル(MAGI-1・Wan2.2等、1〜14B規模)の数千倍高速であり、同一GPU予算内では精度も上回る。また、多様な野生動画95本からなる評価基準「OWM」を新設し、Best-of-5minという計算予算固定の公正な比較を実現。ビリヤード計画タスクでは78%の精度(動画ベース16%)を達成し、疎な表現が不確実性下の行動選択にも有効であることを示す。密な外観生成を省くことでパラメータと計算を動き推論に集中できる点が本質的な貢献である。 -
hf-papers 1日前 4カメラ制御動画生成にVLMの空間推論を転用、25.7%改善CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
研究チームがビジョン言語モデルの空間推論能力をカメラ制御動画生成へ応用するCT-1を発表。 ウェーブレット正則化損失と4700万フレーム超のCT-200Kデータセットで従来比25.7%性能向上を達成。 複雑なカメラ軌跡生成の精度向上により、映像制作・シミュレーション分野への応用拡大が期待される。
解説 CT-1(Camera Transformer 1)は、カメラの動きを柔軟かつ物理的に自然に制御した動画生成を実現する新モデルです。既存手法の課題として、テキストプロンプトからの曖昧なカメラ制御や、手動でのカメラ軌跡パラメータ入力の煩雑さがありました。CT-1はVision-Language Module(画像と言語を統合処理するモジュール)とDiffusion Transformer(拡散モデルベースの生成器)を組み合わせ、言語・視覚情報から正確なカメラ軌跡を推定します。特筆すべきはウェーブレット変換を使った正則化損失で、周波数領域でカメラ動作の複雑な分布を効率よく学習できる点です。さらに、4700万フレーム以上を含む大規模データセットCT-200Kを独自に構築し、学習基盤を強化しています。実験ではカメラ制御精度において従来手法を25.7%上回り、映画・VR・シミュレーション等の自動化パイプラインへの応用が期待されます。GPT-4oやGeminiのような汎用VLMとは異なり、カメラ軌跡推定に特化した設計が高精度を実現しています。 -
hf-papers 1日前 4胸部X線レポートをAIが8倍高速生成、新手法ECHOで実現ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
研究チームが拡散型VLMを1ステップ推論に蒸留した医療AI「ECHO」を発表。 直接条件付き蒸留(DCD)でバイアスを解消し、レポート品質を維持しつつ推論を8倍高速化。 放射線科の診断業務効率化に直結し、医療現場へのAI実装を加速する成果として注目される。
解説 ECHOはGemini3-ProやQwen3-Maxなどの大規模モデルを凌駕する胸部X線レポート自動生成手法。従来の自己回帰型VLMは逐次デコードで低速、拡散モデルも多段ノイズ除去が必要という課題に対し、3段階訓練パイプラインで解決する。①Lingshu-7Bを医療データで継続事前学習、②Response-Asymmetric Diffusion(RAD)でブロック拡散モデルに変換(学習FLOPsを72.3%削減)、③Direct Conditional Distillation(DCD)で教師モデルの多段推論軌跡から非分解型の監督信号を構築し1ステップ推論に蒸留。DCDはトークン独立予測に起因するミーンフィールドバイアス(トークン間依存性の欠如)を、教師の高信頼トークンをコンテキストとして利用する結合分布蒸留で克服する点が核心。MIMIC-CXR・CheXpert-Plus・ReXGradientの3データセットで、自己回帰SOTA比RaTEScore64.33%・SemScore60.58%の改善を達成しつつ推論を8倍高速化、品質劣化はわずか2〜5%に抑制。MedGemma-27Bなど大型モデルも大幅に上回り、医療AI実用化への重要な基盤を提供する。 -
hf-papers 1日前 4Matrix-Game 3.0、720p/40FPSのリアルタイム世界モデルを実現Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
研究チームがリアルタイム・ストリーミング対応のインタラクティブ世界モデル「Matrix-Game 3.0」を発表。 720p・40FPSの動画生成を5Bモデルで達成し、量子化・VAEプルーニング・蒸留を組み合わせた高速推論を実現。 ゲームや自律エージェントの環境シミュレーションに向け、長期空間一貫性の課題を大きく前進させた。
解説 Matrix-Game 3.0は、ゲームや仮想環境向けのインタラクティブ世界モデルで、720p解像度・40FPSというリアルタイム生成と、数分間にわたる長期記憶の両立を初めて実現した。 【提案手法の仕組み】 中核となるのは3つの技術的革新。①カメラ対応メモリ検索:カメラの姿勢と視野の重なりに基づいてメモリを選択し、以前に訪問した場所を再訪した際に一貫した映像を生成する。②誤差バッファ機構:自己回帰生成時の累積誤差(モデル出力と正解の残差)をバッファに蓄積し、学習時に過去フレームへ意図的に注入することで、エラーに頑健なモデルを訓練する。③マルチセグメントDMD蒸留(Distribution Matching Distillation):学習と推論のアーキテクチャを統一した双方向DiT(Diffusion Transformer)で、複数セグメントを自己生成しながら蒸留することで推論速度を大幅に向上させる。 【高速化技術】 INT8量子化、VAEデコーダのプルーニング(50%で2.6倍・75%で5.2倍高速化)、GPUベースのメモリ検索を組み合わせ、8+1 GPU構成で40FPS@720pを達成。さらに28Bの大規模MoEモデルへのスケールアップも実証。 【既存手法との比較】 Genie-3(~24FPS・非公開)やHY-Gamecraft-2(512p・非公開)と比べ、解像度・速度・記憶能力・オープンソース性のすべてで優位。 【実用上の意義】 ゲームAI、VR/ARシミュレーション、ロボット訓練環境など、リアルタイムかつ長期整合性が求められるインタラクティブ映像生成の実用化に向けた重要なマイルストーンとなる。 -
hf-papers 1日前 4局所領域特化の画像精細化、GPT-4oを全指標で凌駕RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
研究チームがユーザー指定領域のみを高精細化し背景を完全保持する新手法「RefineAnything」を発表。 クロップ&リサイズで解像度を対象領域に集中させる「Focus-and-Refine」戦略を採用し、背景変化をほぼゼロに抑制。 GPT-4o・Gemini・Kontextなど主要SOTAを全指標で上回り、画像編集・生成AIの実用精度向上に貢献。
解説 RefineAnythingは「領域特化画像精細化」という新しい問題設定を定義した論文。テキスト・ロゴ・細線など微細構造が生成AIで崩れる「ローカル詳細崩壊」を解決することを目的とする。 【提案手法の仕組み】ベースモデルにQwen-Image-Edit(Qwen2.5-VL+MMDiT)を採用し、スクリブルマスクまたはバウンディングボックスで指定した領域のみを精細化する。核心技術はFocus-and-Refine:対象領域をクロップして元解像度にリサイズすることで、VAE(変分オートエンコーダ)の固定解像度予算を対象領域に集中させる。クロップ後の精細化結果はブレンドマスクで元画像に合成(ペーストバック)され、背景は構造的に保証される。さらに境界領域の損失を強調するBoundary Consistency Lossで継ぎ目アーティファクトを低減する。 【データセット・ベンチマーク】Gemini3+SAM3で構築した3万件のRefine-30K(参照画像あり2万件・なし1万件)と、67ケース・402入力からなるRefineEvalを新規構築。 【実験結果・比較】参照ベース精細化でMSEが最良オープンソース手法Kontextの0.040→0.020(50%削減)、LPIPSは0.264→0.155(41%削減)、背景MSEはほぼ0(Kontext: 0.011、GPT-4o: 0.815と比べ圧倒的)。参照なし設定でもVQや詳細忠実度など全5指標でQwen-Editを0.4〜0.8ポイント上回る。 【実用的意義】ECサイト商品画像・広告・UIデザインなど「一文字でも崩れたら価値がなくなる」用途への直接応用が可能で、既存の汎用編集モデルが苦手とする精密局所修復を実現した実用性の高い手法。 -
stability-blog 1年前 4Stability AI、3Dカメラ制御で多視点動画を生成するモデル発表Introducing Stable Virtual Camera: Multi-View Video Generation with 3D Camera Control
Stability AIが単一・複数画像から任意のカメラ軌跡で多視点動画を生成する「Stable Virtual Camera」を発表。 3D空間上でカメラパスを指定し、視点間で一貫した映像を生成できる新技術。 ゲーム開発・映像制作・3Dコンテンツ生成のワークフローを大幅に効率化する可能性。
解説 Stability AIが発表した「Stable Virtual Camera」は、1枚または少数の入力画像から、3Dカメラ軌跡を指定して複数視点の一貫した動画を生成するモデルです。技術的には動画拡散モデル(Video Diffusion Model)をベースに、カメラのポーズ(位置・方向)を条件として与えることで、Novel View Synthesis(新規視点合成)と動画生成を統合しています。既存技術との大きな違いは、単なる静止画の視点変換ではなく時間方向にも一貫した映像を生成できる点と、ユーザーが直感的に3D空間上のカメラパスを制御できる点です。NeRFや3D Gaussian Splattingのような明示的な3D再構成を必要とせず、拡散モデルの暗黙的な3D理解によって高品質な多視点映像を実現しています。ゲーム開発・バーチャルプロダクション・Eコマース向け商品3D展示など幅広い用途が想定されており、3Dコンテンツ制作の民主化に寄与する重要なリリースといえます。