multimodal
要約済み 2
-
arxiv-cs-ai 7時間前 4LLMで認知症診断精度が向上、臨床データの汎化に新手法Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning
研究チームがLLMを用いたスキーマ適応型表形式学習手法を発表し、認知症診断で最高性能を達成。 異なるデータセット間で構造が異なる表形式データを自然言語変換しセマンティック埋め込みに変換する技術。 NACC・ADNIの複数データセットをまたいだ汎化性能を実現し、医療AIの実臨床応用を前進させる。
解説 本論文はEHRスキーマの多様性という課題に対し、Schema-Adaptive Tabular Representation Learning(SATRL)を提案する。従来の機械学習では表形式データのスキーマが異なると再学習や手動特徴エンジニアリングが必要だったが、本手法では構造化変数を「患者の年齢は75歳である」のような自然言語文に変換し、事前学習済みLLMでエンコードすることで転移可能な埋め込みを生成する。この仕組みにより、未知のスキーマへのゼロショット転移が可能となる。さらにMRIデータと組み合わせたマルチモーダルフレームワークを構築し、認知症診断タスクに適用した。NACCとADNIという代表的な2大データセットでSOTAを達成し、片方で学習したモデルが他方へゼロショット転移できることを実証した。GPT-4oやClaude等の汎用LLMとの直接比較は示されていないが、既存の表形式学習手法を上回る性能を報告している。異なるEHRシステム間で再学習なしに適用できる点は、実臨床への展開において大きな実用的意義を持つ。 -
hf-papers 1日前 3感情認識精度14%向上、顔動画の感情編集を実現する新手法Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
研究チームが音声と表情の感情空間を橋渡しする「感情セマンティックベクトル」を提案し顔動画編集技術を発表。 ラベル・音声・画像など多様な入力モードに対応するプラグイン型モジュールで、既存手法比で感情認識精度を14%改善。 動画生成・バーチャルキャラクター・感情AI分野の開発者に広く応用が期待される汎用性の高いアプローチ。
解説 本論文はトーキングフェイス動画(人物が話す動画)の感情を任意に編集する手法「C-MET(Cross-Modal Emotion Transfer)」を提案する。 既存手法の課題は3つある。①ラベルベースは喜び・怒り等の離散カテゴリのみ、②音声ベースは感情と言語内容が混在し分離困難、③画像参照ベースは正面顔の高品質画像が必要で汎用性が低い。 C-METは「感情セマンティックベクトル」という概念を導入する。これは「ある感情」と「ニュートラル」の埋め込み差分として定義され、音声空間から表情空間へTransformerでマッピングする。音声エンコーダにはEmotion2vec+large(自己教師あり学習済み)、表情エンコーダにはEDTalkを使用し、対照学習で両空間を整合させる。 実験はMEADとCREMA-Dデータセットで実施。感情認識精度(Acc_emo)でEDTalk比+14ポイント、FLOAT比+42ポイントを達成。さらに「皮肉」「魅力」「共感」など学習外の拡張感情でもユーザー評価で91%の優位性を示した。推論速度も重量級モデルのEAT(12.5秒)に対し2.6秒と大幅に高速。既存の話し顔生成器にプラグインとして組み込める設計で、実用展開のハードルが低い。