AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

エンコーダ

1件の記事

要約済み 1

hf-blog 7日前 4
研究者、生成LLMを双方向エンコーダに変換する新手法を発表
BidirLM: Turning Generative LLMs into the Best Open-Source Omnimodal Encoders4 days ago•23

因果的LLMを2段階適応（マスク予測＋対比学習）で双方向エンコーダに転換する「BidirLM」が登場。テキスト・画像・音声を統合する250GPU時間の軽量学習で、MTEB/MIEBにて最高水準の性能を達成。既存の生成モデルをRAGや検索基盤に転用できる道を開き、エンコーダ開発コストの大幅削減に貢献。

解説生成LLMの膨大な事前学習投資を埋め込みタスクに再利用する実用的手法。MNTP＋対比学習の2段階パイプラインと重みマージにより、わずか250GPU時間でテキスト・画像・音声対応の統合エンコーダを構築できる点が画期的。OpenAI embeddingやCohere等の商用APIに対抗するオープンソース選択肢として開発者に直接的な恩恵があり、新たな専門モデルが出るたびにマージで拡張可能なモジュール性も研究者にとって魅力的。

エンコーダマルチモーダルモデルマージ埋め込みオープンソース