対話エージェント
要約済み 1
-
hf-blog 1日前 3ECエージェント強化学習の新環境「Ecom-RLVE」登場Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents
ECサイト向け会話AIを効率的に訓練する適応型強化学習環境「Ecom-RLVE」が発表された。 商品検索・カート・返品など8種タスクと12段階の難易度課程を備え、LLM判定不要の検証可能報酬を実現。 ECエージェント開発のコスト削減と学習効率向上に貢献する実用的フレームワークとして注目される。
解説 Ecom-RLVEは、ECサイト向け対話エージェントの訓練に特化した検証可能な強化学習環境「EcomRLVE-GYM」を提案する研究である。従来のSFTではECサイトの複雑なワークフロー(商品探索・バリアント選択・カート操作・返品など)の組み合わせ爆発に対応しきれない課題があった。本フレームワークは商品探索・代替品提案・カート管理・返品処理・注文追跡・ポリシーQAなど8種類の環境を設け、各環境に制約数・在庫切れ率・タイプミス頻度・情報欠損率など12軸の難易度パラメータを導入する。エージェントの成功率に応じて難易度を自動調整する適応型カリキュラムにより、学習の停滞や崩壊を防ぐ。報酬はタスク達成・効率性・ハルシネーション抑制の3成分からアルゴリズム的に算出されるため、人手アノテーションもLLM-as-a-judgeも不要である。Qwen 3 8BをDAPOで訓練した初期実験では安定した学習進行を確認した。GPT-4oやClaudeとの定量比較は今後の課題だが、200万商品カタログとコードをオープンソース公開しており再現性の高い研究基盤を提供する。