合成データ
要約済み 2
-
hf-papers 1日前 3研究者ら、LLM対話のペルソナ崩れを解決する新手法を発表SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation
複数LLMエージェント間の長期対話でペルソナが劣化する問題を解決するフレームワーク「SPASM」が発表された。 対話履歴を視点中立形式で保持し各エージェントが自己中心的に参照するECPアーキテクチャを採用。 GPT-4o-mini・DeepSeek・Qwenで45,000会話を生成して有効性を実証、対話データ生成の品質向上に貢献。
解説 SPASMは、LLM同士がロールプレイで長期対話を生成する際に生じる「ペルソナドリフト(役割がずれていく現象)」「ロール混同」「エコーイング(一方のエージェントが相手のスタイルを模倣する現象)」を根本的に抑制するフレームワークである。核心となる技術はECP(Egocentric Context Projection)で、対話履歴をユーザー/アシスタントのような特定のロール名を使わずに「誰が言った」という絶対情報で保持し、各エージェントへ渡す際に「self/partner」に動的変換する。これにより各エージェントが常に自分の視点から履歴を受け取り、役割の混乱を防ぐ。実験ではGPT-4o-mini、DeepSeek-V3.2、Qwen-Plusの9通りの組み合わせで500ペルソナ×10会話=計45,000会話を生成。アブレーション実験でECPは通常の履歴連結(CONCAT)と比べてペルソナドリフトを有意に低減し、人間評価ではエコーイングをほぼゼロに抑えることを確認。埋め込み空間分析により、レスポンダーモデルの種類が対話の幾何学的構造を支配することも明らかになった。ACL 2026 Findingsに採択済みであり、カウンセリング・教育・感情サポートなどLLM対話データの大規模合成に直接応用可能な実用的貢献である。 -
hf-papers 1日前 3合成データでVLMの視覚能力を底上げ、人手不要の新手法VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
LLMと画像生成AIを組み合わせた合成VQAデータ生成パイプライン「VisionFoundry」が発表された。 人手アノテーション不要で10種の視覚タスクをカバーする1万件データセットを構築、MMVPで+7%・CV-Bench-3Dで+10%を達成。 データ収集コストを大幅削減しつつ汎用性も維持、VLM開発の効率化に貢献する成果として注目される。
解説 VisionFoundryは、視覚言語モデル(VLM)が苦手とする低レベルな視覚知覚(空間理解、視点認識、奥行き順序など)を改善するため、合成データを自動生成するパイプラインを提案した論文。 【手法の仕組み】タスク名だけを入力として、LLMが質問と回答を生成し、そのタスクに適したテキスト→画像(T2I)プロンプトを作成。Stable DiffusionなどのT2Iモデルで画像を合成し、さらにVLMで整合性を検証する4段階パイプライン。参照画像も人手アノテーションも一切不要なのが特徴。 【データセット】このパイプラインで生成したVisionFoundry-10K(1万件の画像+Q&Aトリプル)を公開。 【実験結果】このデータでファインチューニングしたモデルは、視覚知覚ベンチマークのMMVPで+7%、3D空間理解のCV-Bench-3Dで+10%向上。また汎用タスクの性能低下(破滅的忘却)も見られなかった。 【既存手法との差異】GPT-4oやGeminiなど大規模モデルでも視覚知覚が弱い原因が「タスク特化の学習データ不足」にあると体系的に示した点が新しい。少量・高品質な合成データで弱点を補完できることを証明しており、VLM開発コスト削減に実用的な示唆を持つ。