大規模データセット

1件の記事

要約済み 1

hf-papers 1日前 4
単眼カメラで万物を3D検出、WildDet3Dが圧倒的精度を実現
WildDet3D: Scaling Promptable 3D Detection in the Wild

研究チームが単眼RGB画像からオープンワールド3D物体検出を行うフレームワーク「WildDet3D」を発表。テキスト・点・2Dボックスなど複数プロンプト形式に対応し、1.35万カテゴリ・100万枚超の大規模データで学習。汎用3D認識の実用化に向け、自動運転・ロボティクス分野へ大きなインパクトを与える成果。

解説 WildDet3Dは、単眼RGB画像（深度センサ不要）から物体の3次元的な位置・向き・大きさを推定するモノキュラー3D検出の新フレームワーク。従来手法が特定カテゴリや閉じた環境に限定されていたのに対し、テキスト・点クリック・2Dバウンディングボックスという3種類のプロンプトを単一モデルで処理できる点が革新的で、既存の2D検出システムに3D空間認識を後付けすることも可能。データ面では「WildDet3D-Data」を新たに構築。既存2Dアノテーションから3D候補ボックスを自動生成し人手検証で絞り込む手法で、100万枚超・370万超の3Dアノテーション・1.35万カテゴリという前例のない規模を実現した。性能面では、Omni3DベンチマークでAP3D=34.2、ゼロショット評価ではArgoverse2やScanNetで既存SOTAの約2倍の性能を達成。推論時に外部深度情報を追加するだけで平均+20.7APの改善も確認された。iOSアプリとして公開済みでスマートフォン上のリアルタイム3D検出にも対応しており、自動運転・ロボティクス・AR分野への実用展開が期待される。

3D物体検出オープンワールドプロンプタブルAI モノキュラー3D 大規模データセット