合成ペルソナ
要約済み 1
-
hf-blog 1時間前 3NVIDIAが韓国AIエージェント向け合成ペルソナ700万個を公開How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas
NVIDIAが700万件の合成ペルソナ「Nemotron-Personas-Korea」を公開した。 韓国公式統計を基に、地域・職業・敬語など文化的文脈をAIエージェントに組み込む。 保健所案内や敬語応答など、文化的に適切なAIエージェント開発が可能になる。
解説 NVIDIAが提案する「Nemotron-Personas-Korea」は、韓国統計情報サービス(KOSIS)・最高裁・国民健康保険サービス等の公式データを基に生成した700万件の合成ペルソナデータセットである。各ペルソナは26フィールドを持ち、全17都道府県・25行政区をカバーし、2,000以上の職業カテゴリと約20万件のユニーク名前を含む。生成パイプラインは①確率的グラフィカルモデルによる統計的整合性の担保、②Gemma-4-31Bによる韓国語ナラティブ生成、③NeMo Data Designerによるオーケストレーションの3段階で構成される。この手法の意義は、英語データ主体で訓練された汎用LLM(GPT-4o等)が抱える「文化的盲点」を解消することにある。ペルソナ接地されたエージェントは、高齢者への존댓말(敬語)使用、地域の보건소(保健センター)案内、韓国固有の予防接種スケジュール提供など文化的に適切な応答が可能となる。同コレクションは米・日・印・仏・伯等にも展開されており、国家・地域固有の主権AI(Sovereign AI)構築基盤として位置付けられている。個人情報を一切含まないゼロPII設計で、韓国の個人情報保護法(PIPA)にも準拠している。