産業AI
要約済み 1
-
hf-papers 1日前 4LG、初のオープンウェイトVLM「EXAONE 4.5」公開——GPT-5 miniを超える性能EXAONE 4.5 Technical Report
LGが産業向けオープンウェイト視覚言語モデル「EXAONE 4.5」(33B)を公開。 1.2Bビジョンエンコーダと32B言語モデルを統合し、256Kコンテキストウィンドウに対応。 GPT-5 miniやQwen3-VL-235Bを複数ベンチマークで上回り、韓国発VLMの実力を示した。
解説 EXAONE 4.5はLG AI Researchが開発したLG初のオープンウェイト視覚言語モデル(VLM)で、33Bの密(Dense)アーキテクチャを採用する。1.2Bパラメータのビジョンエンコーダをゼロから学習し、EXAONE 4.0の32B言語モデルに統合した点が特徴。ビジョンエンコーダにGQA(Grouped Query Attention:KVキャッシュを削減する効率的注意機構)と2D RoPEを採用し、高解像度画像の処理効率を高めている。また、Multi-Token Prediction(MTP)モジュールによりデコード速度を向上させ、Context Parallelismで256Kトークンの長文脈を安定して扱う。学習はSFT→DPO/GROUPERによるオフライン選好最適化→GRPOによる強化学習の多段階パイプラインで行われる。評価結果では、LiveCodeBenchで全比較モデル中1位、AIME 2026で92.6点(2位)を達成。MathVision(75.2)やCharXiv RQ(71.7)では、パラメータ数が7倍超のQwen3-VL-235Bを上回り、GPT-5 miniも複数ベンチマークで超える。製造業の品質管理や技術文書解析といった産業応用を見据えており、将来のVLA(Vision-Language-Action)モデルへの足がかりとなる。ライセンスは非商用研究のみ許可。