要約
オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。 オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。 研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。
公式ソースだけを集めたAIニュースを日本語要約でお届け
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。 オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。 研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。
ClawGUIは、GUIエージェント研究における3つの重大な課題(学習インフラの閉鎖性・評価の非再現性・実ユーザーへの未展開)を一挙に解決するオープンソースフレームワークである。
ClawGUI-RLは、Dockerベースの並列Androidエミュレータと実物理デバイスの両方でオンライン強化学習(RL)を実施できる初のオープン基盤。報酬設計では、エピソード終端のバイナリ報酬に加え、Process Reward Model(PRM)によるステップ単位の密な報酬を組み合わせる。強化学習アルゴリズムはGRPOとGiGPOに対応しており、GiGPO(アンカー状態グループ化による細粒度クレジット割り当て)の採用でGRPO比2.6%向上(14.5%→17.1%)を確認した。
ClawGUI-Evalは6ベンチマーク・11以上のモデルを対象に推論→判定→メトリクスの3段階パイプラインを標準化し、公式ベースラインとの再現率95.8%を達成。プロンプト形式や座標正規化の違いで数%ずれる既存の評価問題に対処する。
ClawGUI-AgentはAndroid・HarmonyOS・iOSへのデプロイを12以上のチャットプラットフォーム経由で実現し、CLI制御とGUI制御を組み合わせたハイブリッド方式と永続的な個人化メモリを搭載する。
実験ではClawGUI-2BがQwen3-VL-32B(11.9%)やUI-Venus-72B(16.4%)といったはるかに大規模なモデルを上回り、学習インフラの質がモデル規模を凌駕することを示した。