cross-modal

1件の記事

要約済み 1

hf-papers 1日前 3
感情認識精度14%向上、顔動画の感情編集を実現する新手法
Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

研究チームが音声と表情の感情空間を橋渡しする「感情セマンティックベクトル」を提案し顔動画編集技術を発表。ラベル・音声・画像など多様な入力モードに対応するプラグイン型モジュールで、既存手法比で感情認識精度を14%改善。動画生成・バーチャルキャラクター・感情AI分野の開発者に広く応用が期待される汎用性の高いアプローチ。

解説本論文はトーキングフェイス動画（人物が話す動画）の感情を任意に編集する手法「C-MET（Cross-Modal Emotion Transfer）」を提案する。既存手法の課題は3つある。①ラベルベースは喜び・怒り等の離散カテゴリのみ、②音声ベースは感情と言語内容が混在し分離困難、③画像参照ベースは正面顔の高品質画像が必要で汎用性が低い。 C-METは「感情セマンティックベクトル」という概念を導入する。これは「ある感情」と「ニュートラル」の埋め込み差分として定義され、音声空間から表情空間へTransformerでマッピングする。音声エンコーダにはEmotion2vec+large（自己教師あり学習済み）、表情エンコーダにはEDTalkを使用し、対照学習で両空間を整合させる。実験はMEADとCREMA-Dデータセットで実施。感情認識精度（Acc_emo）でEDTalk比+14ポイント、FLOAT比+42ポイントを達成。さらに「皮肉」「魅力」「共感」など学習外の拡張感情でもユーザー評価で91%の優位性を示した。推論速度も重量級モデルのEAT（12.5秒）に対し2.6秒と大幅に高速。既存の話し顔生成器にプラグインとして組み込める設計で、実用展開のハードルが低い。

talking-face emotion-transfer cross-modal video-generation multimodal