ポスト学習

2件の記事

要約済み 2

hf-papers 1日前 4
研究者ら、LLM後学習データの継承関係を自動解析するAIフレームワークを発表
Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

マルチエージェントフレームワークを用いてLLMのポスト学習データセット間の継承関係を自動追跡する手法が発表された。 83シードデータから430ノード・971辺の進化グラフを構築し、データ生態系全体を可視化することに成功。データの隠れた重複やベンチマーク汚染の連鎖伝播を定量的に解明し、LLM開発の透明性向上に貢献する。

解説本論文はLLMのポスト学習（SFT・ファインチューニング等）に使われるデータセット間の継承関係「データリネージ」を自動解析するマルチエージェントフレームワークを提案する。GPT-5.1とGemini-2.5-Flashを役割分担した専門エージェント群がHuggingFaceのREADMEや論文・ブログを収集・解析し、83個のシードデータから430ノード・971エッジの有向進化グラフを構築する。分析から、数学データは深い再帰的改良（平均深度2.92）、汎用データは広い水平集積（深度1.05）という対照的な進化パターンが判明した。さらに17データセットで1%以上の隠れた重複（最大46.48%）と、5ベンチマークにまたがる汚染の連鎖伝播（例：Caco-1.3MはOmni-Mathの37.95%を間接継承）を発見した。応用として系譜グラフのルートノードを起点とするプロベナンスベースサンプリングを提案し、570Kの多様なデータセットが1.2M超の大規模コーパスをVendiスコア等の多様性指標で上回ることを実証した。データ品質の透明性確保と系統的なデータ管理に向けた実践的意義が高い。

データリネージマルチエージェントポスト学習データ品質ベンチマーク汚染
hf-papers 1日前 3
マルチモーダルAI統合評価基盤「TorchUMM」が公開
TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

14モデル・12ベンチマーク・5ポスト学習手法を統一プロトコルで比較できる初のコードベースが公開された。テキスト・画像統合モデル（UMM）の評価・分析・ポスト学習を一元化し、公平な再現可能比較を実現。単純なSFTが性能を損なうケースも判明し、ポスト学習設計の指針としてAI研究者に広く活用が期待される。

解説 TorchUMMは、テキストと画像を統合処理するUnified Multimodal Models（UMM）向けの初の統合コードベースで、CMUやWilliam & Mary等の研究者が開発。Bagel、OmniGen2、Janus-Pro、Show-o2、Emu3.5など14モデルを共通インターフェースで束ね、理解・生成・編集の3タスクにわたり12ベンチマークで公平な比較を実現する。主要な発見は3点ある。①単一モデルが全タスクで最優秀にはなれず、生成最強のDeepGenは理解能力を持たず、理解最強のBagelは編集で劣位となるなどトレードオフが顕著。②SFT（教師ありファインチューニング）などのポスト学習は効果が不安定で、TokenFlowへのSFT適用時にDPGスコアが71→22へ急落するなど有害な例が多数観察された。③アーキテクチャの統合度が高いモデルほど優れるとは限らず、モジュール型のOmniGen2がより統合度の高いShow-o2やMMaDAを上回るケースも確認。GPT-4oやGeminiとの直接比較はないが、オープンソースUMMの体系的な評価基盤として実用的価値が高い。

マルチモーダルLLM 評価フレームワークポスト学習画像生成・編集ベンチマーク