マルチモーダルLLM

3件の記事

要約済み 3

hf-papers 1日前 4
GUIエージェント統合フレームワーク「ClawGUI」公開、学習から実機展開まで一体化
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。

解説 ClawGUIは、GUIエージェント研究における3つの重大な課題（学習インフラの閉鎖性・評価の非再現性・実ユーザーへの未展開）を一挙に解決するオープンソースフレームワークである。 **ClawGUI-RL**は、Dockerベースの並列Androidエミュレータと実物理デバイスの両方でオンライン強化学習（RL）を実施できる初のオープン基盤。報酬設計では、エピソード終端のバイナリ報酬に加え、Process Reward Model（PRM）によるステップ単位の密な報酬を組み合わせる。強化学習アルゴリズムはGRPOとGiGPOに対応しており、GiGPO（アンカー状態グループ化による細粒度クレジット割り当て）の採用でGRPO比2.6%向上（14.5%→17.1%）を確認した。 **ClawGUI-Eval**は6ベンチマーク・11以上のモデルを対象に推論→判定→メトリクスの3段階パイプラインを標準化し、公式ベースラインとの再現率95.8%を達成。プロンプト形式や座標正規化の違いで数%ずれる既存の評価問題に対処する。 **ClawGUI-Agent**はAndroid・HarmonyOS・iOSへのデプロイを12以上のチャットプラットフォーム経由で実現し、CLI制御とGUI制御を組み合わせたハイブリッド方式と永続的な個人化メモリを搭載する。実験ではClawGUI-2BがQwen3-VL-32B（11.9%）やUI-Venus-72B（16.4%）といったはるかに大規模なモデルを上回り、学習インフラの質がモデル規模を凌駕することを示した。

GUIエージェント強化学習マルチモーダルLLM スマートフォン自動化ベンチマーク
hf-papers 1日前 3
マルチモーダルAI統合評価基盤「TorchUMM」が公開
TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

14モデル・12ベンチマーク・5ポスト学習手法を統一プロトコルで比較できる初のコードベースが公開された。テキスト・画像統合モデル（UMM）の評価・分析・ポスト学習を一元化し、公平な再現可能比較を実現。単純なSFTが性能を損なうケースも判明し、ポスト学習設計の指針としてAI研究者に広く活用が期待される。

解説 TorchUMMは、テキストと画像を統合処理するUnified Multimodal Models（UMM）向けの初の統合コードベースで、CMUやWilliam & Mary等の研究者が開発。Bagel、OmniGen2、Janus-Pro、Show-o2、Emu3.5など14モデルを共通インターフェースで束ね、理解・生成・編集の3タスクにわたり12ベンチマークで公平な比較を実現する。主要な発見は3点ある。①単一モデルが全タスクで最優秀にはなれず、生成最強のDeepGenは理解能力を持たず、理解最強のBagelは編集で劣位となるなどトレードオフが顕著。②SFT（教師ありファインチューニング）などのポスト学習は効果が不安定で、TokenFlowへのSFT適用時にDPGスコアが71→22へ急落するなど有害な例が多数観察された。③アーキテクチャの統合度が高いモデルほど優れるとは限らず、モジュール型のOmniGen2がより統合度の高いShow-o2やMMaDAを上回るケースも確認。GPT-4oやGeminiとの直接比較はないが、オープンソースUMMの体系的な評価基盤として実用的価値が高い。

マルチモーダルLLM 評価フレームワークポスト学習画像生成・編集ベンチマーク
hf-papers 1日前 4
生成AIの芸術評価に記号論で革新、既存手法を大幅超え
On Semiotic-Grounded Interpretive Evaluation of Generative Art

研究者らが記号論に基づく生成アート評価フレームワーク「SemJudge」を発表。パースの三項記号論で「階層的記号関係グラフ」を構築し、935枚の画像データセットで検証、CLIPやPickScoreを大幅に上回る人間との一致率を達成。抽象・象徴・比喩を捉えられない既存AI評価の盲点を突き、生成AI品質評価の新基準となる可能性。

解説本論文は、テキスト→画像生成モデルの評価における根本的な問題に取り組む。CLIPScore・HPSv2・PickScoreなどの既存評価器は「アイコン性バイアス」を持ち、写実的な表現は正しく評価できるが、象徴（Symbol）や指標（Index）に依拠する抽象・比喩的作品を適切に評価できないことを理論的・実証的に示す。提案手法SemJudgeは、哲学者パースの三項記号論（記号・対象・解釈項）を形式化した「階層的記号関係グラフ（HSG）」を構築し、生成画像の意味を解釈プロセスとして再構成する。評価はプロンプトのテキスト範囲と画像領域の両方に根拠づけられる。実験では187モチーフ・935枚画像のデータセットSemiosisArtを構築。Qwen-9Bベースのは既存手法（VIEScore, ArtCoT, LMM4LMMなど）を上回り、Gemini-Flashをジャッジとして用いるとKRCC=0.73・VQA精度92.4%を達成。人間評価でも因果的合意・解釈深度・証拠根拠の全軸でベースラインを有意に上回る。アイコン性バイアス検定でも既存手法が偏りを示す中、SemJudgeは有意差なし。生成AIの芸術的表現力評価に新たなパラダイムをもたらす研究。

生成AI評価記号論マルチモーダルLLM 生成アート解釈可能性