AIGC
要約済み 1
-
hf-papers 6時間前 4研究者ら、AIでWebページを自動生成する階層型エージェントを発表MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
AIGCツールを統合した階層型マルチモーダルWebページ生成フレームワーク「MM-WebAgent」が発表された。 グローバルレイアウトとローカル要素の2段階計画で画像・動画・チャートを一貫性をもって生成し、新ベンチマークで既存手法を大幅に上回る。 Webデザイン自動化の精度向上により、ノーコード開発やコンテンツ制作の効率化に貢献する可能性がある。
解説 MM-WebAgentは、テキスト指示から画像・動画・チャートを含む完全なWebページを自動生成する階層型エージェントフレームワークである。従来手法の課題であった「個別生成による要素間のスタイル不一致」と「グローバルレイアウトとの不整合」を解決するため、2段階の計画機構を導入した。第1段階のグローバルレイアウト計画ではセクション構造・空間配置・スタイル属性を決定し、第2段階のローカル要素計画では各マルチモーダル要素の機能的役割・サイズ制約・スタイルガイダンスを生成する。生成後はローカル(個別要素の品質修正)・コンテクスト(HTML/CSSの統合調整)・グローバル(ページ全体の一貫性向上)の3レベルで階層的自己修正を行う。実装にはGPT-5.1(計画・評価)、GPT-Image-1(画像)、Sora-2(動画)を使用。提案したMM-WebGEN-Bench(120ページ)での評価では平均スコア0.75を達成し、GPT-4o・GPT-5・Gemini-2.5-Pro・Qwen3などのコード生成ベースラインやOpenHands・bolt.diyなどのエージェントベースラインを上回った。アブレーション実験ではAIGCツール単体では効果が限定的(0.42→0.45)であり、提案フレームワーク全体で初めて0.75に到達することが確認され、階層的設計の重要性が示された。