embedding

1件の記事

要約済み 1

hf-blog 18時間前 4
Sentence Transformers、VLMの埋め込みモデル学習に対応
Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Sentence TransformersがVLMを用いたマルチモーダル埋め込み・再ランクモデルの学習機能を正式サポート。 Qwen3-VL-2BをVDRタスクでファインチューニングし、NDCG@10=0.947を達成——4倍大のモデルも凌駕。小型VLMの高精度化が容易になり、マルチモーダル検索システムの開発コスト削減に貢献。

解説 Sentence Transformersライブラリがマルチモーダル埋め込みモデルと再ランクモデルの学習・ファインチューニングに正式対応したことを解説する実践的チュートリアル。Visual Document Retrieval（VDR）を題材に、テキストクエリと文書スクリーンショット画像のマッチングをQwen3-VL-Embedding-2B（2.1Bパラメータ）でファインチューニングする手法を詳述する。損失関数には、バッチ内の他サンプルをネガティブとして活用するCachedMultipleNegativesRankingLossを採用し、大規模VLMでのOOMを防ぐためmini_batch_size=1でグラジェントキャッシュを利用しつつ大きな実効バッチサイズを確保する。さらにMatryoshkaLossを組み合わせ、512次元で全次元の99.7%の性能を維持するなど可変次元での高精度推論を実現。53,512件の英語クエリ・文書ペアで1エポック学習した結果、NDCG@10が0.888→0.947に向上し、8.1BのQwen3-VL-Embedding-8Bや8.3BのNomic 7Bを含む既存の全VDRモデルを上回った。再ランクモデルではCrossEncoderとLogitScoreヘッドを用いてLMが「1」「0」を生成する対数オッズをスコアとする手法も紹介。テキスト専用のインフラをほぼそのまま流用できる点が実用上の大きな意義である。

multimodal embedding sentence-transformers VDR fine-tuning