製造業向けMLLMベンチマークFORGEが公開、知識不足が性能の壁と判明

hf-papers 2026-04-13 12:24 ★3

製造業向けMLLMベンチマークFORGEが公開、知識不足が性能の壁と判明

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

マルチモーダル製造業AI ベンチマークファインチューニング点群

要約

製造業シナリオ向けの高品質マルチモーダルベンチマーク「FORGE」が公開、約1.2万サンプルを収録。 18種のMLLMを評価した結果、視覚認識より製造ドメイン知識の不足が性能のボトルネックと判明。 3Bモデルのファインチューニングで最大90.8%の精度向上を達成し、産業AIの開発指針を提示。

解説・分析

FORGEは製造業向けMLLM（マルチモーダル大規模言語モデル）評価のための新ベンチマークデータセット。2D画像と3D点群（レンダリング済み）のデュアルモダリティで構成され、14カテゴリ・90モデル番号の工作物を対象に、(1)工作物の照合・検証、(2)表面構造の外観検査、(3)組み立て正否の確認という3タスクを設定している。

18種類のSOTA MLLMを評価した結果、視覚的な物体認識（マクロ知覚）はほぼ解決済みである一方、製造仕様・公差・ルールに基づく細粒度な意味推論（マイクロ推論）が主要なボトルネックであることが明らかになった。GPT-4oやClaude、Geminiなどの汎用モデルは製造要件との間に大きなパフォーマンスギャップを示した。3D点群を直接テキストとして入力する手法は特に精度が低く、参照条件付きプロンプトも3D設定では効果が限定的だった。一方、FORGEデータで3Bパラメータの小型モデルをSFT（教師ありファインチューニング）すると最大90.8%の相対的精度向上を達成し、ドメイン特化型ファインチューニングの有効性を実証した。製造AIの実用化に向けた明確な研究方向性を示す点で産業界・研究者双方に有意義な成果。

AIフロントライン

製造業向けMLLMベンチマークFORGEが公開、知識不足が性能の壁と判明

要約

解説・分析

関連する読者