AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers 2026-04-15 06:00 ★3

触覚×視覚の新AIタスク提案、素材領域を高精度で特定

Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions

触覚知覚 マルチモーダル学習 素材セグメンテーション クロスモーダルアライメント ロボット知覚

要約

触覚センサ入力から画像内の同素材領域を特定する新タスク「触覚局所化」が研究者により提案された。 密な局所クロスモーダル特徴相互作用で触覚顕著性マップを生成し、素材セグメンテーションを実現。 素材多様性ペアリング戦略と実環境画像の活用により、既存手法を大幅に上回る精度を達成した。

解説・分析

本論文はKAIST等が提案する「触覚局所化(Tactile Localization)」という新タスクを導入する。与えられた触覚センサ入力と同じ素材特性を持つ画像領域を特定するタスクであり、従来の視触覚研究が行うグローバル整合(CLS tokenやプール表現の類似度)では局所的な空間推論ができないという問題を指摘している。

提案手法STT(Seeing Through Touch)は、DINOv3を骨格とする視覚・触覚エンコーダを用い、触覚特徴を1Dベクトルに集約した後、視覚特徴マップとの内積で触覚顕著性マップを生成する密な局所アライメントを採用する。学習には、同素材カテゴリ内の異なるタッチインスタンスを正例ペアとする「素材多様性ペアリング」戦略(ドメイン内・ドメイン外の2種)と、LLMで生成した検索クエリで収集した約3.2万枚のウェブ画像(Web-Materialデータセット)を活用する。

実験では新規構築した2つのベンチマーク(TG-Test:579サンプル、Web-Material:675サンプル)とOpenSurfacesで評価。既存の最先端視触覚手法TVLに対しWeb-MaterialでmIoU+28pt以上の大幅改善を達成。UniTouch+GroundedSAMのカスケードシステム(mIoU 69.40)も上回り(76.82)、触覚分類+視覚セグメンテーションの単純な組み合わせでは解けない独立タスクであることを示した。素材分類線形プロービングでも67.77%でSOTA同等を実現。弱い触覚信号への頑健性やインタラクティブ局所化(同シーン内の複数素材を切り替え特定)でも優位性を確認した。ロボットによるリサイクル仕分けや倉庫作業への応用可能性も示している。

関連する読者

研究者 開発者