データ品質
要約済み 1
-
hf-papers 1日前 4研究者ら、LLM後学習データの継承関係を自動解析するAIフレームワークを発表Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
マルチエージェントフレームワークを用いてLLMのポスト学習データセット間の継承関係を自動追跡する手法が発表された。 83シードデータから430ノード・971辺の進化グラフを構築し、データ生態系全体を可視化することに成功。 データの隠れた重複やベンチマーク汚染の連鎖伝播を定量的に解明し、LLM開発の透明性向上に貢献する。
解説 本論文はLLMのポスト学習(SFT・ファインチューニング等)に使われるデータセット間の継承関係「データリネージ」を自動解析するマルチエージェントフレームワークを提案する。GPT-5.1とGemini-2.5-Flashを役割分担した専門エージェント群がHuggingFaceのREADMEや論文・ブログを収集・解析し、83個のシードデータから430ノード・971エッジの有向進化グラフを構築する。分析から、数学データは深い再帰的改良(平均深度2.92)、汎用データは広い水平集積(深度1.05)という対照的な進化パターンが判明した。さらに17データセットで1%以上の隠れた重複(最大46.48%)と、5ベンチマークにまたがる汚染の連鎖伝播(例:Caco-1.3MはOmni-Mathの37.95%を間接継承)を発見した。応用として系譜グラフのルートノードを起点とするプロベナンスベースサンプリングを提案し、570Kの多様なデータセットが1.2M超の大規模コーパスをVendiスコア等の多様性指標で上回ることを実証した。データ品質の透明性確保と系統的なデータ管理に向けた実践的意義が高い。