cross-modal
要約済み 1
-
hf-papers 1日前 3感情認識精度14%向上、顔動画の感情編集を実現する新手法Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
研究チームが音声と表情の感情空間を橋渡しする「感情セマンティックベクトル」を提案し顔動画編集技術を発表。 ラベル・音声・画像など多様な入力モードに対応するプラグイン型モジュールで、既存手法比で感情認識精度を14%改善。 動画生成・バーチャルキャラクター・感情AI分野の開発者に広く応用が期待される汎用性の高いアプローチ。
解説 本論文はトーキングフェイス動画(人物が話す動画)の感情を任意に編集する手法「C-MET(Cross-Modal Emotion Transfer)」を提案する。 既存手法の課題は3つある。①ラベルベースは喜び・怒り等の離散カテゴリのみ、②音声ベースは感情と言語内容が混在し分離困難、③画像参照ベースは正面顔の高品質画像が必要で汎用性が低い。 C-METは「感情セマンティックベクトル」という概念を導入する。これは「ある感情」と「ニュートラル」の埋め込み差分として定義され、音声空間から表情空間へTransformerでマッピングする。音声エンコーダにはEmotion2vec+large(自己教師あり学習済み)、表情エンコーダにはEDTalkを使用し、対照学習で両空間を整合させる。 実験はMEADとCREMA-Dデータセットで実施。感情認識精度(Acc_emo)でEDTalk比+14ポイント、FLOAT比+42ポイントを達成。さらに「皮肉」「魅力」「共感」など学習外の拡張感情でもユーザー評価で91%の優位性を示した。推論速度も重量級モデルのEAT(12.5秒)に対し2.6秒と大幅に高速。既存の話し顔生成器にプラグインとして組み込める設計で、実用展開のハードルが低い。