HuggingFace Daily Papers
要約済み 72
-
4分前 ★4意味表現から映像を生成する新フレームワーク「Re2Pix」発表Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction
意味表現を先に予測してから映像を生成する二段階フレームワーク「Re2Pix」が発表された。 DINOv2特徴空間での意味予測と拡散モデルを組み合わせ、学習収束をFID/FVDで最大7倍高速化。 Vista・Cosmos-Predict 2と競合する性能を達成し、動画生成AIの効率化に新たな道筋を示す。
-
4分前 ★3新手法Switch-KD、小型VLMの精度を大幅改善Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
視覚言語モデルの知識蒸留手法「Switch-KD」が発表され、小型モデルの性能向上を実現。 教師モデルの言語経路に視覚情報を注入する統一テキスト確率空間での蒸留が特徴で、0.5Bモデルが10ベンチマークで平均3.6点向上。 エッジデバイス向け高性能VLM開発に新たな選択肢を提供し、モデル軽量化研究を加速させる。
-
1時間前 ★4研究者ら、仮想細胞でLLM幻覚を克服する自律推論エージェントを開発Towards Autonomous Mechanistic Reasoning in Virtual Cells
LLMの生物学応用を妨げる幻覚問題を解決するVCR-Agentが発表された。 知識検索と検証器を組み合わせDAG形式の機械論的説明を自律生成し、18,950件の検証済みデータで遺伝子発現予測精度を大幅改善。 仮想細胞研究へのAI活用を加速させ、創薬・疾患メカニズム解明に貢献する可能性がある。
-
1時間前 ★3OneHOI、人物と物体の自然なインタラクションをAIで統合生成OneHOI: Unifying Human-Object Interaction Generation and Editing
人物と物体のインタラクション(HOI)の生成と編集を単一モデルで統合する新手法「OneHOI」が発表された。 拡散モデルをベースに接触点・姿勢・物体配置を同時最適化し、既存の専用手法を上回る品質を達成。 CG・ゲーム・ロボティクス分野でのリアルな動作シーン生成への応用が期待される。
-
1時間前 ★3LLM呼び出しを軽量MLで代替、最大100%削減を実現TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification
研究者らがLLMの出力ログを活用し、安価なMLモデルへ段階的に置き換えるTRACERを発表。 品質を保つパリティゲート機構により、77クラスで完全代替・150クラスでも高い代替率を達成。 APIコストを大幅削減できるため、LLMを活用する企業の運用効率化に直結する成果。
-
3時間前 ★3推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3
AIMO 3の検証で、多様プロンプトによる多数決投票の改善効果は±2点にとどまることが判明した。 高温サンプリングが既に誤りを十分分散させており、プロンプト多様化は冗長で精度低下を招く。 同一計算予算ではモデル能力の8点差が推論時工夫を4倍上回り、基盤モデル強化の重要性が再確認された。
-
3時間前 ★3LLM不要のエージェント記憶システム「SuperLocalMemory V3.3」公開SuperLocalMemory V3.3: The Living Brain -- Biologically-Inspired Forgetting, Cognitive Quantization, and Multi-Channel Retrieval for Zero-LLM Agent Memory Systems
生物模倣型の忘却・量子化・マルチチャネル検索を統合したエージェント向け記憶システムが公開された。 LLMへの依存を排除しつつ既存手法を上回る記憶精度と軽量動作を実現と主張。 自律エージェント開発において低コスト・高効率なメモリ管理の新たな選択肢となる可能性。
-
3時間前 ★4GlobalSplat、3DGS冗長性を99%超削減する新手法を発表GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
グローバル潜在トークンを活用したフィードフォワード型3DGSフレームワーク「GlobalSplat」が発表された。 固定16Kガウシアンで冗長性99%超削減、PSNR 28.5・推論78ms・ディスク4MBという高効率を実現。 視点数に依存しないコンパクト表現により、3Dシーン再構成のリアルタイム活用が現実的な射程に入る。
-
3時間前 ★4新階層型ロボットシステム、π₀比42.7%向上を達成HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
視覚接地を活用した階層型ロボット操作システム「HiVLA」が論文で発表された。 VLMプランナーとDiT行動エキスパートをバウンディングボックスで接続し、視覚認識と動作生成を明確に分離。 RoboTwin 2.0ベンチマークで平均成功率83.3%を記録し、既存手法π₀を大幅に上回った。
-
6時間前 ★4再計算不要なKVキャッシュ再利用手法KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs
RAGシステムで同一文書を異なるクエリに再利用する際、KVキャッシュの再計算が不要な手法「KV Packet」を提案。 文書キャッシュをヘッダ/トレーラのソフトトークンアダプタで包み、自己蒸留で境界の不整合を吸収する。 CacheBlendらと比べFLOPsを5〜6桁削減、TTFTを最大19倍短縮しながらF1スコアを維持する。
-
6時間前 ★4Claude Codeの設計空間を解剖するDive into Claude Code: The Design Space of Today's and Future AI Agent Systems
Claude CodeのTypeScriptソースを解析し、5つの価値観と13の設計原則を体系的に抽出した。 パーミッション7層・5層圧縮パイプライン等の主要サブシステムの構造と意図を明確化。 AIロジックはコード全体の1.6%に過ぎず、98.4%が安全・実行インフラであることを示す。
-
6時間前 ★4研究者ら、AIでWebページを自動生成する階層型エージェントを発表MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
AIGCツールを統合した階層型マルチモーダルWebページ生成フレームワーク「MM-WebAgent」が発表された。 グローバルレイアウトとローカル要素の2段階計画で画像・動画・チャートを一貫性をもって生成し、新ベンチマークで既存手法を大幅に上回る。 Webデザイン自動化の精度向上により、ノーコード開発やコンテンツ制作の効率化に貢献する可能性がある。
-
6時間前 ★4Deep Research AI評価基準「DR³-Eval」登場、Claude Sonnet 4が首位DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
研究者らが現実性・再現性・制御性を兼ね備えたDeep Research評価フレームワーク「DR³-Eval」を発表した。 マルチモーダルなユーザーファイルと静的コーパスを用いた現実的な評価環境を実現し、主要モデルの幻覚問題も浮き彫りに。 Claude Sonnet 4が最高65.6%で首位に立ち、AIエージェント開発の標準ベンチマークとなる可能性がある。
-
6時間前 ★4LeapAlign、Fluxモデルで既存手法を全指標で凌駕LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories
フロー整合モデルを人間の好みに合わせるポスト学習手法「LeapAlign」が発表された。 長い生成軌跡を2ステップの「リープ軌跡」に圧縮し、早期ステップへの報酬勾配伝播を実現。 FluxモデルでGRPO系・直接勾配系の既存手法を全評価指標で上回り、画像生成AIの品質向上に貢献。
-
6時間前 ★3バイトレベルで異種LLM蒸留を実現、シンプル手法で既存を凌駕Cross-Tokenizer LLM Distillation through a Byte-Level Interface
研究者らが異なるトークナイザーを持つLLM間の知識蒸留をバイトレベル変換で解決する手法を発表。 教師モデルの出力をバイト確率に変換し軽量デコーダヘッドを追加するだけで、1B〜8B規模で既存手法以上の性能を達成。 複雑な処理不要のシンプルなアプローチにより、異種LLM間のモデル圧縮・転用の実用化が大きく前進。
-
6時間前 ★4新手法C2、報酬モデルの精度を大幅改善C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
二値選好データのみからルーブリック(評価基準)を自動生成し、LLMの報酬モデリングを強化する手法「C2」が発表された。 協調生成器と批判的検証器を組み合わせ、RM-Benchで+6.5点、AlpacaEval 2.0でLC勝率+6.0点を既存手法に対して達成。 RLHFの品質向上に直結する研究で、より少ないアノテーションコストで高精度な報酬モデル構築が可能になる。
-
6時間前 ★4強化学習で文書RAGを強化、GPT-4oを超える性能を達成UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
研究チームが大規模文書の視覚的質問応答に強化学習を組み合わせた新手法「UniDoc-RL」を発表。 粗から細への2段階行動選択(ページ選択→領域拡大)と密な報酬設計で効率的な文書理解を実現。 マルチページ文書QAベンチマークでGPT-4oやGeminiを上回り、RAG技術の新たな方向性を示す。
-
6時間前 ★4長文脈RLを効率化する新手法「LongAct」登場LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning
LLMの活性化パターンを活用し、長文脈強化学習を効率化する手法「LongAct」が発表された。 Q/K表現の高振幅活性化に対応する上位30%の重みのみを選択的に更新し、LongBench v2で約8%向上を達成。 複数のRLアルゴリズムで普遍的に効果を発揮し、長文脈AIの訓練効率改善に貢献する。
-
6時間前 ★4テンセント、3D世界を丸ごと再構成・生成するAIモデルを発表HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
テンセントが静止画・動画から3Dシーンの再構成・生成・物理シミュレーションを一括処理するマルチモーダル基盤モデル「HY-World 2.0」を発表。 単一モデルで三種の3D処理タスクを統合した汎用アーキテクチャを採用し、実世界シミュレーション精度を大幅に向上。 ロボティクス・自動運転・メタバースなど3D空間を扱うAIアプリケーション開発の加速が期待される。
-
6時間前 ★4研究者、LLMジェイルブレーク攻撃を80%削減する新防御手法を発表ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack
過去形への言い換えでLLMの安全フィルターを回避する「時制ジェイルブレーク」に対し、回路解析ベースの防御手法「ASGuard」が発表された。 脆弱なアテンションヘッドを特定して活性化スケーリングで修正する手法で、4つのモデルで攻撃成功率を最大80%削減。 汎用性能を損なわずにセキュリティを強化するパレート最適を実現し、LLM安全対策の実装に直接応用できる。
-
6時間前 ★4RAD-2が自動運転RL、衝突率56%超削減を実現RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
自動運転向け新フレームワーク「RAD-2」が、拡散モデルとRLを組み合わせた生成器-識別器構造を発表。 時間一貫性を活用したTC-GRPOで報酬の信用割り当て問題を解消し、既存拡散プランナー比で衝突率56%超削減を達成。 安全性と走行効率を両立する手法として、自動運転AIの実用化加速に貢献する可能性がある。
-
12時間前 ★3論文→スライド自動変換AIフレームワーク「ArcDeck」公開Narrative-Driven Paper-to-Slide Generation via ArcDeck
研究論文を一貫したナラティブフローを保ちながらスライドへ自動変換するマルチエージェントフレームワーク「ArcDeck」が発表された。 修辞構造理論(RST)で談話構造を解析し、既存手法PPTAgentに対して100%の勝率を達成。 評価用データセット「ArcBench」も同時公開され、プレゼン資料作成の自動化研究に新たな基準を提示した。
-
12時間前 ★4連続拡散モデルが初めて離散拡散に匹敵、言語モデルの常識覆すLangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
研究チームが連続拡散型言語モデル「LangFlow」を発表、離散拡散モデルと同等の性能を初めて達成。 Bregman発散によるFlow Matchingとeのノイズスケジューラを採用し、LM1BベンチマークでPPL 30.0を記録。 自己回帰モデルをゼロショットタスクで上回る結果も示し、非自己回帰型LLMの可能性を大きく広げる。
-
18時間前 ★4LLMスキルをコンパイル実行、速度50倍・トークン40%削減SkVM: Compiling Skills for Efficient Execution Everywhere
研究チームがAIエージェントのスキルをAOT/JITコンパイルで異種LLM・環境に移植可能にする「SkVM」を発表。 8モデル・3ハーネスの評価でタスク完了率+15.3%、トークン消費40%削減、最大50倍の高速化を達成。 マルチエージェント開発のコスト削減と実用化加速に大きく貢献する可能性がある。
-
21時間前 ★4新RL手法TPO、疎報酬環境でPPO・GRPOを大幅超えTarget Policy Optimization
強化学習の新アルゴリズム「TPO」が論文で発表された。 目標分布へのクロスエントロピー近似により疎報酬環境で既存手法を凌駕、収束後に勾配が自然消滅する安定性も実現。 10億パラメータLLMの推論・グラフ彩色タスクで有効性確認、LLM訓練の効率化に貢献しうる。
-
1日前 ★4モバイルAIエージェント、敵対的攻撃に42%誤誘導と判明Mobile GUI Agents under Real-world Threats: Are We There Yet?
研究チームがモバイルGUIエージェントの安全性を評価するフレームワーク「AgentHazard」を発表。 SNS投稿や広告を介した攻撃で全エージェントが平均42%の誤誘導率を示し、実用展開への課題が浮き彫りに。 視覚機能が脆弱性を高めるという逆説的知見は、エージェント開発者に設計の再考を迫る。
-
1日前 ★4単一動画から物体の物理属性を自動推定する新AI手法ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video
研究者らが単一動画から物体の外観と物理属性を同時再構成する手法「ReconPhys」を発表。 ニューラル表現と微分可能物理シミュレーションを統合し、質量・摩擦・弾性を高精度推定。 実世界動画からのリバース物理推定を実現し、ロボット工学やCG制作への応用が期待される。
-
1日前 ★3「ハーネス工学」でAIエージェントの完了率13pt向上SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering
研究者らがプロンプト工学を超える概念「ハーネス工学」を提唱し、オープンソースのマルチエージェント基盤SemaClawを公開。 DAGによる二相オーケストレーション・権限管理・三層コンテキスト管理を実装し、モデル固定のままタスク完了率を52.8%→66.5%に改善。 モデル性能に頼らずシステム設計でエージェント能力を引き上げる新アプローチとして注目される。
-
1日前 ★3BERT活用の軽量LLM評価手法、大規模モデルと同等精度を実現BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation
研究チームが語彙マッチ系評価手法の限界を36モデル・15タスクで実証し、新手法「BERT-as-a-Judge」を発表。 BERT系エンコーダと合成アノテーションで軽量学習し、GPT-4級のLLMジャッジと同等の評価精度を低コストで達成。 LLM評価の計算コスト削減と大規模スケールへの適用可能性を広げ、評価インフラの民主化に貢献。
-
1日前 ★4医療画像超解像、VAE換装で精度が大幅向上と判明Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution
潜在拡散モデルのVAEを医療特化型「MedVAE」に置き換えるだけで、医療画像の超解像品質が大幅に向上することが実証された。 膝・脳MRIと胸部X線でPSNRが+2.91〜+3.29dB改善し、統計的有意差はp<10⁻²⁰と極めて高い。 ハルシネーション率は変わらず忠実度と独立制御できると判明し、診断精度向上への実用応用が期待される。
-
2日前 ★3推論特化LLM、交渉シミュレで逆効果と判明When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation
研究者らが推論特化型LLMをマルチエージェント交渉シミュレーションに用いると人間行動の再現性が低下することを実証した。 「最適解探索」に最適化された推論モデルは「人間的行動のサンプリング」と目的が相反し、通常LLMより非人間的な挙動を示す。 社会科学シミュレーションや交渉AIの設計において、モデル選定の重要性を再考させる知見として注目される。
-
2日前 ★3LLMは自分の回答正誤を知っている?新研究が実態を解明Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness
研究チームがLLMの「特権的知識」——自身の回答の正誤を外部モデルより正確に予測できる能力——を実証的に検証した。 モデル間の高い正解一致率が真の特権知識を隠蔽する問題を発見し、不一致サブセットで評価する新手法を提案。事実知識では約5%の優位性を確認する一方、数学推論では優位性がないことも判明。 LLMの自己評価・自己修正機能の設計に影響を与える知見として、エージェント開発や信頼性向上に向けた研究の指針となる。
-
2日前 ★3新手法DDTreeで投機的デコードが最大8倍超に高速化Accelerating Speculative Decoding with Block Diffusion Draft Trees
研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。 最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。
-
2日前 ★4モバイルAI操作の「人間らしさ」を測る新ベンチマーク登場Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
研究チームがモバイルGUIエージェントの人間化度を評価する新ベンチマーク「AHB」を発表した。 人間・エージェントのタッチ動作データを収集し、検出器とエージェントのMinMax最適化で定式化。 4つの人間化手法で検出精度を大幅低下させ、AIエージェント偽装対策の有効性を実証した。
-
2日前 ★3触覚×視覚の新AIタスク提案、素材領域を高精度で特定Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
触覚センサ入力から画像内の同素材領域を特定する新タスク「触覚局所化」が研究者により提案された。 密な局所クロスモーダル特徴相互作用で触覚顕著性マップを生成し、素材セグメンテーションを実現。 素材多様性ペアリング戦略と実環境画像の活用により、既存手法を大幅に上回る精度を達成した。
-
2日前 ★4研究者がVLMの「意味的固着」バイアスを実証Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models
研究チームが大規模視覚言語モデル(VLM)に潜む「意味的固着」バイアスを発見・実証した。 同じ画像でもラベルの意味的定義を変えると精度が低下し、中立タグへの置換でバイアスが縮小することを確認。 ファインチューニングが特定ルールに過適合する問題を示し、VLMの信頼性向上に向けた課題を提示した。
-
2日前 ★4新手法HiVGでSVG生成、GPT-5.2超えを達成Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling
研究チームがSVGを幾何命令単位でトークン化する階層的手法「HiVG」を発表。 シーケンス長を最大63.8%削減し、3Bモデルで人間評価においてGPT-5.2やGemini-2.5-proを超える品質を実現。 LLMによるベクターグラフィック生成の効率と品質を大幅に向上させ、デザイン自動化分野への応用が期待される。
-
2日前 ★4動画トークン化を革新、8分の1のトークン数で同等品質VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。
-
2日前 ★41回の推論で複数応答を同時採点、報酬モデルがN倍速にYou Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。 因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。
-
2日前 ★4VLAモデル評価ベンチマーク「LARY」登場、汎用視覚モデルが専用ロボットモデルを凌駕LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
研究チームがVLAモデルの潜在行動表現を意味・物理の2軸で統一評価するベンチマーク「LARY」を発表。 汎用視覚基盤モデルが専用ロボット学習モデルを分類精度で大幅に上回る結果が示された。 ロボット学習における意味レベル抽象化の有効性を定量的に示し、評価基準の標準化に貢献。
-
2日前 ★4研究者らがLLMエージェントの命令階層問題を指摘、全モデルで精度43%止まりMany-Tier Instruction Hierarchy in LLM Agents
研究チームがLLMエージェントの多層命令階層(ManyIH)パラダイムと新インタフェースPPIを提案した。 853サンプルのベンチマークで評価した結果、最先端モデルでも精度は約43%にとどまり全フロンティアモデルが苦手と判明。 複数ソースから命令を受けるエージェントの権限管理は未解決の課題であり、安全なAIエージェント設計に警鐘を鳴らす。
-
2日前 ★4小型モデルが12Bを超える1ステップ画像生成技術が登場Self-Adversarial One Step Generation via Condition Shifting
外部識別器不要の1ステップ画像生成フレームワーク「APEX」が発表された。 条件ベクトルのシフトで内部対抗信号を生成し、0.6BモデルがFLUX-Schnell 12Bを性能で上回る。 軽量モデルでの高品質生成が可能になり、画像生成AIの民主化・高速化に貢献する。
-
2日前 ★5NVIDIA、単一画像から探索可能3D世界を生成するLyra 2.0を発表Lyra 2.0: Explorable Generative 3D Worlds
NVIDIAが1枚の画像から大規模な探索可能3Dシーンを生成するフレームワーク「Lyra 2.0」を公開した。 空間的忘却と時間的ドリフトを解消する2つの新機構により、一貫性の高い3D空間生成を実現。 生成結果を3DGSやメッシュに変換できロボットシミュレーションや仮想環境構築への応用が期待される。
-
2日前 ★4研究者ら、100ターン超の長期視覚検索エージェントを発表Towards Long-horizon Agentic Multimodal Search
視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。 コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。 長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。
-
2日前 ★4新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。 最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。 小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。
-
2日前 ★4オフライン蒸留で推論モデルの学習コストを大幅削減Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。 教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。 少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。
-
2日前 ★4新AR手法でImageNet画像生成の世界最高精度を更新Generative Refinement Networks for Visual Synthesis
研究チームが精錬型自己回帰ネットワーク(GRN)を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。
-
2日前 ★3拡散モデルの各手法、数学的に等価と証明Rethinking the Diffusion Model from a Langevin Perspective
研究者らがランジュバン動力学を軸に拡散モデルの順・逆過程を統一的に導出する新フレームワークを発表。 SDE・ODE・フロー整合など異なる定式化が最大尤度の下で数学的に等価であることを厳密に証明。 VAEやスコアマッチングの直感的理解も統合され、生成モデル研究の理論的基盤が整理される。
-
2日前 ★4Habitat-GS、3DGSで高忠実度ナビゲーション訓練を実現Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting
Meta AI研究チームがHabitat-Simに3Dガウシアンスプラッティングと動的アバターを統合したシミュレータ「Habitat-GS」を発表。 メッシュ比で高品質なリアルタイムレンダリングを実現し、エージェントのシミュレータ→実世界のドメイン汎化性能が向上。 人混みでのナビゲーション訓練が可能になり、実環境展開を目指すロボット・自律エージェント研究を加速。
-
2日前 ★4新手法SPPOがPPO訓練を5.9倍高速化、推論LLM整合に革新SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
長い思考連鎖を持つ推論LLMの強化学習手法SPPOが発表された。 系列全体をバンディット問題として扱うことでクレジット割当の不安定性を解消し、GRPOより5.9倍高速に同等性能を達成。 推論モデルのRLHF訓練コスト削減につながり、大規模展開の実現可能性を高める。
-
2日前 ★4AI自律エージェントが数日かけてML研究を自動実行、SOTAを達成Toward Autonomous Long-Horizon Engineering for ML Research
ML研究の論文再現・実験改善を数日間にわたり自律実行するAiScientistが提案された。 File-as-Busプロトコルで状態を永続ファイルに蓄積し、PaperBench+11点・MLE-Bench Lite 81.82%を記録。 AI研究の自動化・長時間エージェント設計に向けた重要な一歩となる成果。
-
2日前 ★4研究者がLLM蒸留の成功条件を解明、失敗回復レシピも提案Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
オンポリシー蒸留(OPD)の成否を左右する2大条件として「思考パターンの整合」と「新規能力付与」を特定した研究が発表された。 トークンレベルで高確率トークンの漸進的整合が蒸留成功の内部指標となることをメカニズム面から解明。 コールドスタートと教師整合プロンプト選択による失敗回復レシピを提示し、LLM軽量化の実用性向上に貢献。
-
2日前 ★3モバイルAIエージェントにプライバシー嗜好を学習させる新手法Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization
MLLMベースのモバイルGUIエージェントがユーザーのプライバシー嗜好に沿って行動する手法「TIPO」が発表された。 プライバシー優先・利便性優先の異なるペルソナを軌跡から学習し、タスク成功率65.60%を達成。 スマートフォン操作AIの個人化・プライバシー配慮設計に新たな指針を示す成果として注目される。
-
2日前 ★3記憶強化型報酬形成MEDSでLLM強化学習が進化The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
LLM強化学習における繰り返しエラーを検出・抑制する新手法「MEDS」が提案された。 層ごとのロジットを「推論指紋」として保存し、密度ベースクラスタリングで頻出エラーパターンを特定・ペナルティ強化する。 既存RL手法を上回る性能を達成し、LLMの訓練効率と探索多様性の向上に貢献する可能性がある。
-
3日前 ★3量子コード生成LLMを統一評価するベンチマーク登場QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の量子コード生成LLM評価基準「QuanBench+」を発表。 42タスクでPass@kとKLダイバージェンスを用いた確率的評価を実施、フィードバック修復でQiskit正解率83%を達成。 量子プログラミング支援AIの標準評価指標が整備され、実用化に向けた研究加速が期待される。
-
3日前 ★3マスク拡散LMの推論、17%高速化する新手法登場Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models
研究者らがマスク拡散言語モデルの推論を高速化する「モデルスケジューリング」手法を発表。 拡散ステップの両端に小型モデルを配置する「サンドイッチ型」が最も効果的で、FLOPs17%削減を実現。 生成品質の劣化をわずか3.4%に抑えつつ高速化でき、実用的なLLM推論最適化の選択肢として注目される。
-
3日前 ★4投機的デコード評価を統一するSPEED-Benchが登場SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。 意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。 本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。
-
3日前 ★4SWEエージェントの推論文脈を動的管理、7B規模で最高性能SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context
研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。 スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。
-
3日前 ★3学習不要で動画の時間制御を実現するPrompt Relay登場Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
複数イベントを時間的に正確に配置できる動画生成手法「Prompt Relay」が発表された。 クロスアテンションにペナルティ項を追加するだけで、追加学習・構造変更・余分な計算コストが不要。 既存の動画生成モデルに即適用でき、時間整合性と映像品質の向上が期待される。
-
3日前 ★5868時間の乳幼児映像から汎用視覚AIが誕生Zero-shot World Models Are Developmentally Efficient Learners
研究者らが子供の一人称視点映像868時間のみで訓練した自己教師あり世界モデルを発表。 タスク固有の学習なしに光学フロー・深度推定・物体分割・直感物理を高精度で解く。 人間の認知発達と一致する学習軌跡が判明し、AGIへの新たなアプローチとして注目される。
-
3日前 ★4新手法CAFMでフローモデルのFIDスコアを半減、画像生成が大幅進化Continuous Adversarial Flow Models
研究者らが、フローマッチングの損失関数を識別器に置き換えた新世代生成モデル「CAFM」を発表。 ImageNet 256pxベンチマークでFIDスコアを最大8.26→3.63へ大幅改善、既存モデルへも10エポックで適用可能。 既存フローモデルを低コストで強化できる汎用的手法として、画像生成分野への広範な応用が期待される。
-
3日前 ★3研究者ら、LLM対話のペルソナ崩れを解決する新手法を発表SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation
複数LLMエージェント間の長期対話でペルソナが劣化する問題を解決するフレームワーク「SPASM」が発表された。 対話履歴を視点中立形式で保持し各エージェントが自己中心的に参照するECPアーキテクチャを採用。 GPT-4o-mini・DeepSeek・Qwenで45,000会話を生成して有効性を実証、対話データ生成の品質向上に貢献。
-
3日前 ★4LLM、科学実験の結果予測で人間専門家と同水準SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
新ベンチマーク「SciPredict」が物理・生物・化学33分野でLLMの科学予測能力を評価した。 フロンティアモデルの正答率は14〜26%と人間専門家の約20%に匹敵するが、信頼度と精度の相関がゼロ。 「どの予測が信頼できるか自己判断できない」という根本的限界が明らかになり、科学応用への課題を示す。
-
3日前 ★4研究者ら、LLM後学習データの継承関係を自動解析するAIフレームワークを発表Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
マルチエージェントフレームワークを用いてLLMのポスト学習データセット間の継承関係を自動追跡する手法が発表された。 83シードデータから430ノード・971辺の進化グラフを構築し、データ生態系全体を可視化することに成功。 データの隠れた重複やベンチマーク汚染の連鎖伝播を定量的に解明し、LLM開発の透明性向上に貢献する。
-
3日前 ★4物理シミュレータとRLでLLMが国際物理オリンピックに挑むSolving Physics Olympiad via Reinforcement Learning on Physics Simulators
物理シミュレータで生成した合成データと強化学習を組み合わせ、LLMの物理推論能力を強化する手法が発表された。 シミュレーション環境のみで訓練したモデルが実世界ベンチマークへのゼロショット転移に成功し、IPhO問題で既存手法比5〜10ポイント向上。 シミュレータを活用した低コストな科学推論トレーニングの可能性を示し、理系分野のAI応用に新たな道を開く。
-
3日前 ★4医療AIに新手法、希少疾患の診断推論が大幅向上Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach
知識強化型データ合成と半教師あり強化学習を組み合わせた医療推論フレームワーク「MedSSR」が発表された。 PubMedや希少疾患DBを活用した合成データで学習し、Qwen3-8Bベースで希少疾患+5.93%、一般医療+3.91%を達成。 データ不足が課題だった医療AI分野で、希少疾患への対応力を高める実用的な突破口となる可能性がある。
-
3日前 ★4NVIDIAら、音声言語モデルでGemini超えを達成Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
NVIDIAらが音声・環境音・音楽を統合理解する大規模モデル「Audio Flamingo Next」を公開した。 最大30分の長尺音声に対応し、20以上のベンチマークでGemini 2.5 ProやGPT-4oに匹敵・凌駕する性能を実現。 完全オープンな初のフルオープン音声言語モデルとして、音声AI研究の民主化に貢献する。
-
3日前 ★5拡散言語モデルの弱点を克服、ARモデルと同等性能を達成Introspective Diffusion Language Models
研究者らが拡散言語モデル(DLM)の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。 因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点(+26.3)・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。
-
3日前 ★4GUIエージェント統合フレームワーク「ClawGUI」公開、学習から実機展開まで一体化ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。 オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。 研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。
-
3日前 ★4新ベンチマークCocoaBench、最強エージェントでも成功率45%止まりCocoaBench: Evaluating Unified Digital Agents in the Wild
視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。 最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。 現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。
-
3日前 ★3Attention Sink現象を初の包括調査、180件超を体系化Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
Transformerで意味のないトークンに注意が集中する「Attention Sink」現象を初めて網羅的にサーベイ。 180件超の研究を活用・解釈・緩和の3軸で分類し、KVキャッシュ圧縮や量子化など9シナリオの指針を提供。 LLMの長文処理・軽量化の実装に直接役立つ実践的フレームワークとして注目される。
-
3日前 ★3マルチモーダルAI統合評価基盤「TorchUMM」が公開TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training
14モデル・12ベンチマーク・5ポスト学習手法を統一プロトコルで比較できる初のコードベースが公開された。 テキスト・画像統合モデル(UMM)の評価・分析・ポスト学習を一元化し、公平な再現可能比較を実現。 単純なSFTが性能を損なうケースも判明し、ポスト学習設計の指針としてAI研究者に広く活用が期待される。
未要約 28
- How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
- Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
- Do AI Coding Agents Log Like Humans? An Empirical Study
- Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure
- Exploration and Exploitation Errors Are Measurable for Language Model Agents
- Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents
- Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
- From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space
- RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
- InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis
- ROSE: Retrieval-Oriented Segmentation Enhancement
- UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
- UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
- MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
- TIP: Token Importance in On-Policy Distillation
- TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration
- Seedance 2.0: Advancing Video Generation for World Complexity
- SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
- OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models
- GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
- The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
- GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts
- Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
- TRACE: Capability-Targeted Agentic Training
- Efficient RL Training for LLMs with Experience Replay
- Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks
- SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
- Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator