プリテキストタスク
要約済み 1
-
hf-papers 1日前 3自己教師あり学習でMLLMの視覚推論能力を強化する新手法Boosting Visual Instruction Tuning with Self-Supervised Guidance
研究チームが、マルチモーダルLLMの視覚推論力を高める自己教師あり誘導手法を発表。 回転予測・色マッチングなどのプリテキストタスクを指示形式に変換し学習データに追加することで実現。 学習データの3〜10%追加という低コストで視覚中心ベンチマークが一貫して向上し、実用性が高い。
解説 本論文はMLLM(マルチモーダル大規模言語モデル)の視覚推論能力を強化する軽量手法を提案する。既存の視覚指示チューニングでは、多くのタスクが画像を見なくても言語事前知識だけで部分的に解けてしまい、モデルが視覚情報を十分に活用しないという問題があった。提案手法では、回転予測(画像を回転させて角度を推定)・色マッチング(色の対応を識別)・クロスビュー対応付け(異なる視点の画像間の対応関係を推定)といった古典的なプリテキストタスクを「画像−指示−応答」の三つ組形式に変換し、既存の学習データに混入する。これらのタスクは視覚的証拠なしには解けないため、モデルに視覚情報の活用を強制する。人手アノテーション・アーキテクチャ変更・追加の学習ステージは一切不要で、既存パイプラインに3〜10%のデータを混入するだけで適用可能。複数のモデルと学習レジームで視覚中心ベンチマークの一貫した改善を実証した。GPT-4oやGeminiとの直接比較はないが、オープンモデルの視覚理解能力底上げに有効な、費用対効果の高いアプローチである。