訓練シミュレーション
要約済み 1
-
arxiv-cs-ai 2日前 3警察訓練にSLM活用、緊張緩和ベンチマーク公開DeEscalWild: A Real-World Benchmark for Automated De-Escalation Training with SLMs
実際の警察・市民対話動画から構築した緊張緩和訓練用ベンチマーク「DeEscalWild」が公開された。 5,000件の生データをLLMと人間の複合フィルタリングで1,500件の高品質シナリオに精製。 軽量SLMでのリアルタイム訓練シミュレーションを可能にし、現場導入の敷居を大幅に下げる。
解説 本論文はDeEscalWildと呼ぶ新規ベンチマークデータセットを提案する。対象は警察官向けの緊張緩和(de-escalation)訓練で、実際の警察・市民間インタラクション動画をオープンソース動画リポジトリから収集・加工した点が特徴的である。従来の訓練は役者を使ったロールプレイが中心で、スケーラビリティと現実性に欠けていた。GPT-4oやClaudeなどの大規模LLMは動的な対話シミュレーションに有効だが、フィールドトレーニング用の軽量・携帯端末への展開には計算コストが高すぎる。一方、SLM(Small Language Model、小規模言語モデル)は低リソース環境向けだが、ドメイン特化の高品質訓練データが不足している。そこで本研究は5,000件の生入力から、人間による検証とLLM-as-a-Judge(LLMを評価者として用いる手法)を組み合わせたハイブリッドフィルタリングで1,500件の高忠実度シナリオを構築した。生成されたコーパスはSLMのファインチューニングに適した形式で提供され、現場での没入型訓練を可能にする実用的なインフラとなる。既存のLLMベースシミュレーションとの比較評価も含まれており、SLMの性能向上における本データセットの有効性を示している。