大規模データセット
要約済み 1
-
hf-papers 1日前 4単眼カメラで万物を3D検出、WildDet3Dが圧倒的精度を実現WildDet3D: Scaling Promptable 3D Detection in the Wild
研究チームが単眼RGB画像からオープンワールド3D物体検出を行うフレームワーク「WildDet3D」を発表。 テキスト・点・2Dボックスなど複数プロンプト形式に対応し、1.35万カテゴリ・100万枚超の大規模データで学習。 汎用3D認識の実用化に向け、自動運転・ロボティクス分野へ大きなインパクトを与える成果。
解説 WildDet3Dは、単眼RGB画像(深度センサ不要)から物体の3次元的な位置・向き・大きさを推定するモノキュラー3D検出の新フレームワーク。従来手法が特定カテゴリや閉じた環境に限定されていたのに対し、テキスト・点クリック・2Dバウンディングボックスという3種類のプロンプトを単一モデルで処理できる点が革新的で、既存の2D検出システムに3D空間認識を後付けすることも可能。 データ面では「WildDet3D-Data」を新たに構築。既存2Dアノテーションから3D候補ボックスを自動生成し人手検証で絞り込む手法で、100万枚超・370万超の3Dアノテーション・1.35万カテゴリという前例のない規模を実現した。 性能面では、Omni3DベンチマークでAP3D=34.2、ゼロショット評価ではArgoverse2やScanNetで既存SOTAの約2倍の性能を達成。推論時に外部深度情報を追加するだけで平均+20.7APの改善も確認された。iOSアプリとして公開済みでスマートフォン上のリアルタイム3D検出にも対応しており、自動運転・ロボティクス・AR分野への実用展開が期待される。