多言語・多文化AI
要約済み 1
-
arxiv-cs-ai 2日前 3韓国語特化マルチモーダルベンチマークKMMUを発表KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context
韓国語・韓国文化に特化したマルチモーダル理解ベンチマーク「KMMU」が発表された。 3,466問を9分野・9視覚モダリティで構成し、韓国固有の文化的コンテキストも収録。 最高性能モデルでも正答率52%止まりで、現行LLMの多言語・多文化対応の課題を浮き彫りにした。
解説 KMMUは韓国語・韓国文化圏に根ざしたネイティブマルチモーダル理解ベンチマークである。既存ベンチマークの多くは英語コンテンツを翻訳したものだが、本研究は韓国の公式試験や専門資格試験から直接収集した3,466問を使用する。9学問分野(医学・法律・工学など)と9視覚モダリティ(図表・レントゲン・設計図など)をカバーし、韓国特有の300問サブセットと難問627問サブセットも設けている。実験結果では、オープンソースの最強モデルが全体で42.05%、商用最強モデルが難問サブセットで52.42%にとどまり、いずれも人間水準には大きく及ばない。GPT-4oやGeminiなど主要商用モデルも韓国固有問題では最大13.43ポイントの精度低下を示した。誤り分析によると、失敗の主因は推論能力の不足ではなく、韓国固有の慣習・規格・表記法に関する知識(コンベンション知識)の欠如であることが判明した。これは英語中心の事前学習データの偏りを反映しており、多言語・多文化AIの評価と改善に向けた重要な課題を提示している。