GUIエージェント

3件の記事

要約済み 3

hf-papers 1日前 4
GUIエージェント統合フレームワーク「ClawGUI」公開、学習から実機展開まで一体化
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。

解説 ClawGUIは、GUIエージェント研究における3つの重大な課題（学習インフラの閉鎖性・評価の非再現性・実ユーザーへの未展開）を一挙に解決するオープンソースフレームワークである。 **ClawGUI-RL**は、Dockerベースの並列Androidエミュレータと実物理デバイスの両方でオンライン強化学習（RL）を実施できる初のオープン基盤。報酬設計では、エピソード終端のバイナリ報酬に加え、Process Reward Model（PRM）によるステップ単位の密な報酬を組み合わせる。強化学習アルゴリズムはGRPOとGiGPOに対応しており、GiGPO（アンカー状態グループ化による細粒度クレジット割り当て）の採用でGRPO比2.6%向上（14.5%→17.1%）を確認した。 **ClawGUI-Eval**は6ベンチマーク・11以上のモデルを対象に推論→判定→メトリクスの3段階パイプラインを標準化し、公式ベースラインとの再現率95.8%を達成。プロンプト形式や座標正規化の違いで数%ずれる既存の評価問題に対処する。 **ClawGUI-Agent**はAndroid・HarmonyOS・iOSへのデプロイを12以上のチャットプラットフォーム経由で実現し、CLI制御とGUI制御を組み合わせたハイブリッド方式と永続的な個人化メモリを搭載する。実験ではClawGUI-2BがQwen3-VL-32B（11.9%）やUI-Venus-72B（16.4%）といったはるかに大規模なモデルを上回り、学習インフラの質がモデル規模を凌駕することを示した。

GUIエージェント強化学習マルチモーダルLLM スマートフォン自動化ベンチマーク
arxiv-cs-ai 1日前 3
モバイルAIエージェントを「人間に偽装」するベンチマーク登場
Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

研究チームが自律GUIエージェントの「人間化」能力を定式化し、新ベンチマークを発表。モバイルタッチ操作の高品質データセットと検出指標を構築し、学習ベースの行動模倣手法を提案。エージェント検出・防御技術の研究促進と、AIの信頼性評価に新たな基準をもたらす。

解説本論文は、自律的なGUIエージェント（画面操作AI）が人間と区別されないよう「人間化」する能力を研究した論文です。デジタルプラットフォーム側がボット検出技術を強化する中、エージェント側がいかに人間らしい操作を模倣できるかという新しい研究課題を提起しています。提案フレームワーク「Turing Test on Screen」では、検出器とエージェントの関係をMinMax最適化問題（ゲーム理論的な敵対的枠組み）として定式化します。エージェントは行動の人間との乖離を最小化し、検出器はその乖離を最大化しようとします。実験では、まずモバイル端末のタッチ動作（スワイプ速度・加速度・圧力など）の高品質データセットを新たに収集。LMM（大規模マルチモーダルモデル）ベースの既存エージェントは不自然な運動学的特性により容易に検出可能であることを示しました。対策として、ランダムノイズ付加などのヒューリスティック手法から、人間の行動データを学習してタッチ軌跡を生成するデータ駆動型行動マッチングまで複数手法を提案・比較。Agent Humanization Benchmark（AHB）と定量的評価指標により、模倣性とタスク達成率のトレードオフを測定できる枠組みを確立しています。実用的には、RPA・テスト自動化・アクセシビリティ支援ツール等の分野で検出回避が重要な場面での活用が想定されます。

GUIエージェント Turingテスト人間化モバイル検出回避
arxiv-cs-ai 1日前 3
GUI画像でUX自動評価するエージェントOpenFlo登場
OpeFlo: Automated UX Evaluation via Simulated Human Web Interaction with GUI Grounding

研究チームがWebのUX評価を自動化するエージェント「OpenFlo」を発表した。 DOMではなくGUI画像を解析してブラウザを操作し、実ユーザーの行動を模倣する点が特徴。 SUS・SEQ・Think Aloudなど標準手法に基づくレポートを自動生成し、UX評価コストを大幅に削減できる。

解説 OpenFloは、従来のユーザースタディや専門家レビューに頼っていたWebのUX（ユーザー体験）評価を自動化するAIエージェントです。最大の特徴はDOM（HTMLの構造情報）ではなく、実際の画面（GUI）のビジュアル情報を認識してブラウザを操作する「GUIグラウンディング」技術を採用している点です。これにより、フレームワークに依存しない汎用的なWeb操作が可能となり、実ユーザーの操作に近い形でWebサイトを評価できます。システムはAvenir-Webという基盤の上に構築され、多様なユーザー行動プロファイル（初心者・上級者など）をシミュレートします。評価プロトコルとして、System Usability Scale（SUS：ユーザビリティを数値化する標準的な10問アンケート）、Single Ease Questions（SEQ：各ステップ後の難易度評価）、Think Aloud（操作中の思考を言語化する手法）を統合し、包括的なUXレポートを自動生成します。GPT-4oなど大規模マルチモーダルモデルを活用していると推測されますが、論文では特定モデルとの比較より評価フレームワーク自体の設計に重点を置いています。小規模チームやアジャイル開発でUX評価の反復速度を上げたい実務者にとって実用的な価値が高いシステムです。

UX評価 GUIエージェント Webオートメーションユーザビリティ