アテンション制御
要約済み 1
-
hf-papers 1日前 3学習不要で動画の時間制御を実現するPrompt Relay登場Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
複数イベントを時間的に正確に配置できる動画生成手法「Prompt Relay」が発表された。 クロスアテンションにペナルティ項を追加するだけで、追加学習・構造変更・余分な計算コストが不要。 既存の動画生成モデルに即適用でき、時間整合性と映像品質の向上が期待される。
解説 動画拡散モデルは単一イベントの生成には優れるが、複数イベントを時系列で制御する仕組みを持たない。例えば「まず牛乳を注ぎ、次にシリアルを混ぜる」という2段階のプロンプトを与えても、両概念が時間軸全体に滲み出る「セマンティック・エンタングルメント」が生じる。Prompt Relayはこの問題をクロスアテンションのロジットにペナルティ項C(Q,K)を加算することで解決する。クエリトークンが属する時間区間から離れたプロンプトへのアテンションを、ガウシアン型の減衰関数(Boundary-Attention Decay)で滑らかに抑制する。ハードマスクのような急激な切り替えを避け、セグメント境界付近では隣接プロンプトを段階的に共活性化することで自然なトランジションを実現する。Wan2.2-T2V-A14B上で実装し、Sora Storyboard・Veo 3.1・Kling 2.6と人間評価(30名・20シナリオ)で比較。時間的プロンプト整合性と遷移自然さでこれらを上回り、バックボーンWan 2.2単体より映像品質も向上した。ただし視覚的忠実度の上限はバックボーン性能に依存するため、Kling 2.6やVeo 3.1の絶対的映像品質には及ばない。追加学習・アーキテクチャ変更・計算コスト増なしに既存モデルへ即適用できる点が最大の実用的意義である。