HuggingFace Daily Papers

4分前 ★4

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

意味表現を先に予測してから映像を生成する二段階フレームワーク「Re2Pix」が発表された。 DINOv2特徴空間での意味予測と拡散モデルを組み合わせ、学習収束をFID/FVDで最大7倍高速化。 Vista・Cosmos-Predict 2と競合する性能を達成し、動画生成AIの効率化に新たな道筋を示す。

video prediction autonomous driving hierarchical generation diffusion model semantic representation

4分前 ★3

新手法Switch-KD、小型VLMの精度を大幅改善

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

視覚言語モデルの知識蒸留手法「Switch-KD」が発表され、小型モデルの性能向上を実現。教師モデルの言語経路に視覚情報を注入する統一テキスト確率空間での蒸留が特徴で、0.5Bモデルが10ベンチマークで平均3.6点向上。エッジデバイス向け高性能VLM開発に新たな選択肢を提供し、モデル軽量化研究を加速させる。

知識蒸留マルチモーダルAI モデル圧縮 VLM

1時間前 ★4

研究者ら、仮想細胞でLLM幻覚を克服する自律推論エージェントを開発

Towards Autonomous Mechanistic Reasoning in Virtual Cells

LLMの生物学応用を妨げる幻覚問題を解決するVCR-Agentが発表された。知識検索と検証器を組み合わせDAG形式の機械論的説明を自律生成し、18,950件の検証済みデータで遺伝子発現予測精度を大幅改善。仮想細胞研究へのAI活用を加速させ、創薬・疾患メカニズム解明に貢献する可能性がある。

仮想細胞遺伝子発現予測機械論的推論幻覚検証

1時間前 ★3

OneHOI、人物と物体の自然なインタラクションをAIで統合生成

OneHOI: Unifying Human-Object Interaction Generation and Editing

人物と物体のインタラクション（HOI）の生成と編集を単一モデルで統合する新手法「OneHOI」が発表された。拡散モデルをベースに接触点・姿勢・物体配置を同時最適化し、既存の専用手法を上回る品質を達成。 CG・ゲーム・ロボティクス分野でのリアルな動作シーン生成への応用が期待される。

HOI生成画像編集拡散モデル姿勢推定統合フレームワーク

1時間前 ★3

LLM呼び出しを軽量MLで代替、最大100%削減を実現

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

研究者らがLLMの出力ログを活用し、安価なMLモデルへ段階的に置き換えるTRACERを発表。品質を保つパリティゲート機構により、77クラスで完全代替・150クラスでも高い代替率を達成。 APIコストを大幅削減できるため、LLMを活用する企業の運用効率化に直結する成果。

LLMルーティングコスト最適化意図分類継続学習説明可能AI

3時間前 ★3

推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

AIMO 3の検証で、多様プロンプトによる多数決投票の改善効果は±2点にとどまることが判明した。高温サンプリングが既に誤りを十分分散させており、プロンプト多様化は冗長で精度低下を招く。同一計算予算ではモデル能力の8点差が推論時工夫を4倍上回り、基盤モデル強化の重要性が再確認された。

数学推論推論時最適化

3時間前 ★3

LLM不要のエージェント記憶システム「SuperLocalMemory V3.3」公開

SuperLocalMemory V3.3: The Living Brain -- Biologically-Inspired Forgetting, Cognitive Quantization, and Multi-Channel Retrieval for Zero-LLM Agent Memory Systems

生物模倣型の忘却・量子化・マルチチャネル検索を統合したエージェント向け記憶システムが公開された。 LLMへの依存を排除しつつ既存手法を上回る記憶精度と軽量動作を実現と主張。自律エージェント開発において低コスト・高効率なメモリ管理の新たな選択肢となる可能性。

エージェントメモリ生物模倣AI Zero-LLM 認知アーキテクチャ

3時間前 ★4

GlobalSplat、3DGS冗長性を99%超削減する新手法を発表

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

グローバル潜在トークンを活用したフィードフォワード型3DGSフレームワーク「GlobalSplat」が発表された。固定16Kガウシアンで冗長性99%超削減、PSNR 28.5・推論78ms・ディスク4MBという高効率を実現。視点数に依存しないコンパクト表現により、3Dシーン再構成のリアルタイム活用が現実的な射程に入る。

3D Gaussian Splatting Novel View Synthesis Feed-Forward推論シーン再構成

3時間前 ★4

新階層型ロボットシステム、π₀比42.7%向上を達成

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

視覚接地を活用した階層型ロボット操作システム「HiVLA」が論文で発表された。 VLMプランナーとDiT行動エキスパートをバウンディングボックスで接続し、視覚認識と動作生成を明確に分離。 RoboTwin 2.0ベンチマークで平均成功率83.3%を記録し、既存手法π₀を大幅に上回った。

ロボット操作階層制御視覚的接地具身知能 VLAモデル

6時間前 ★4

再計算不要なKVキャッシュ再利用手法

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

RAGシステムで同一文書を異なるクエリに再利用する際、KVキャッシュの再計算が不要な手法「KV Packet」を提案。文書キャッシュをヘッダ/トレーラのソフトトークンアダプタで包み、自己蒸留で境界の不整合を吸収する。 CacheBlendらと比べFLOPsを5〜6桁削減、TTFTを最大19倍短縮しながらF1スコアを維持する。

KVキャッシュ RAG LLM推論高速化コンテキスト非依存知識蒸留

6時間前 ★4

Claude Codeの設計空間を解剖する

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

Claude CodeのTypeScriptソースを解析し、5つの価値観と13の設計原則を体系的に抽出した。パーミッション7層・5層圧縮パイプライン等の主要サブシステムの構造と意図を明確化。 AIロジックはコード全体の1.6%に過ぎず、98.4%が安全・実行インフラであることを示す。

AIエージェントコーディングエージェントアーキテクチャ分析安全性設計

6時間前 ★4

研究者ら、AIでWebページを自動生成する階層型エージェントを発表

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

AIGCツールを統合した階層型マルチモーダルWebページ生成フレームワーク「MM-WebAgent」が発表された。グローバルレイアウトとローカル要素の2段階計画で画像・動画・チャートを一貫性をもって生成し、新ベンチマークで既存手法を大幅に上回る。 Webデザイン自動化の精度向上により、ノーコード開発やコンテンツ制作の効率化に貢献する可能性がある。

Web Agent マルチモーダル生成 AIGC 階層的計画 UI/UX

6時間前 ★4

Deep Research AI評価基準「DR³-Eval」登場、Claude Sonnet 4が首位

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

研究者らが現実性・再現性・制御性を兼ね備えたDeep Research評価フレームワーク「DR³-Eval」を発表した。マルチモーダルなユーザーファイルと静的コーパスを用いた現実的な評価環境を実現し、主要モデルの幻覚問題も浮き彫りに。 Claude Sonnet 4が最高65.6%で首位に立ち、AIエージェント開発の標準ベンチマークとなる可能性がある。

ベンチマーク評価 Deep Research LLMエージェントマルチモーダル情報検索

6時間前 ★4

LeapAlign、Fluxモデルで既存手法を全指標で凌駕

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

フロー整合モデルを人間の好みに合わせるポスト学習手法「LeapAlign」が発表された。長い生成軌跡を2ステップの「リープ軌跡」に圧縮し、早期ステップへの報酬勾配伝播を実現。 FluxモデルでGRPO系・直接勾配系の既存手法を全評価指標で上回り、画像生成AIの品質向上に貢献。

画像生成ポスト学習フロー整合人間好みアライメント勾配最適化

6時間前 ★3

バイトレベルで異種LLM蒸留を実現、シンプル手法で既存を凌駕

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

研究者らが異なるトークナイザーを持つLLM間の知識蒸留をバイトレベル変換で解決する手法を発表。教師モデルの出力をバイト確率に変換し軽量デコーダヘッドを追加するだけで、1B〜8B規模で既存手法以上の性能を達成。複雑な処理不要のシンプルなアプローチにより、異種LLM間のモデル圧縮・転用の実用化が大きく前進。

クロストークナイザー蒸留バイトレベルLM 知識蒸留モデル圧縮 LLM転送

6時間前 ★4

新手法C2、報酬モデルの精度を大幅改善

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

二値選好データのみからルーブリック（評価基準）を自動生成し、LLMの報酬モデリングを強化する手法「C2」が発表された。協調生成器と批判的検証器を組み合わせ、RM-Benchで+6.5点、AlpacaEval 2.0でLC勝率+6.0点を既存手法に対して達成。 RLHFの品質向上に直結する研究で、より少ないアノテーションコストで高精度な報酬モデル構築が可能になる。

報酬モデル選好学習 LLMアライメントルーブリック推論型検証

6時間前 ★4

強化学習で文書RAGを強化、GPT-4oを超える性能を達成

UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

研究チームが大規模文書の視覚的質問応答に強化学習を組み合わせた新手法「UniDoc-RL」を発表。粗から細への2段階行動選択（ページ選択→領域拡大）と密な報酬設計で効率的な文書理解を実現。マルチページ文書QAベンチマークでGPT-4oやGeminiを上回り、RAG技術の新たな方向性を示す。

Visual RAG 文書理解強化学習マルチモーダル

6時間前 ★4

長文脈RLを効率化する新手法「LongAct」登場

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

LLMの活性化パターンを活用し、長文脈強化学習を効率化する手法「LongAct」が発表された。 Q/K表現の高振幅活性化に対応する上位30%の重みのみを選択的に更新し、LongBench v2で約8%向上を達成。複数のRLアルゴリズムで普遍的に効果を発揮し、長文脈AIの訓練効率改善に貢献する。

長文脈理解強化学習スパース更新 LLM推論

6時間前 ★4

テンセント、3D世界を丸ごと再構成・生成するAIモデルを発表

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

テンセントが静止画・動画から3Dシーンの再構成・生成・物理シミュレーションを一括処理するマルチモーダル基盤モデル「HY-World 2.0」を発表。単一モデルで三種の3D処理タスクを統合した汎用アーキテクチャを採用し、実世界シミュレーション精度を大幅に向上。ロボティクス・自動運転・メタバースなど3D空間を扱うAIアプリケーション開発の加速が期待される。

3D生成ワールドモデルマルチモーダル動画生成シーン再構成

6時間前 ★4

研究者、LLMジェイルブレーク攻撃を80%削減する新防御手法を発表

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

過去形への言い換えでLLMの安全フィルターを回避する「時制ジェイルブレーク」に対し、回路解析ベースの防御手法「ASGuard」が発表された。脆弱なアテンションヘッドを特定して活性化スケーリングで修正する手法で、4つのモデルで攻撃成功率を最大80%削減。汎用性能を損なわずにセキュリティを強化するパレート最適を実現し、LLM安全対策の実装に直接応用できる。

LLMセーフティジェイルブレーク防御メカニスティック解釈可能性活性化工学

6時間前 ★4

RAD-2が自動運転RL、衝突率56%超削減を実現

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

自動運転向け新フレームワーク「RAD-2」が、拡散モデルとRLを組み合わせた生成器-識別器構造を発表。時間一貫性を活用したTC-GRPOで報酬の信用割り当て問題を解消し、既存拡散プランナー比で衝突率56%超削減を達成。安全性と走行効率を両立する手法として、自動運転AIの実用化加速に貢献する可能性がある。

自動運転強化学習拡散モデル軌跡計画クローズドループ訓練

12時間前 ★3

論文→スライド自動変換AIフレームワーク「ArcDeck」公開

Narrative-Driven Paper-to-Slide Generation via ArcDeck

研究論文を一貫したナラティブフローを保ちながらスライドへ自動変換するマルチエージェントフレームワーク「ArcDeck」が発表された。修辞構造理論（RST）で談話構造を解析し、既存手法PPTAgentに対して100%の勝率を達成。評価用データセット「ArcBench」も同時公開され、プレゼン資料作成の自動化研究に新たな基準を提示した。

スライド生成マルチエージェント談話解析学術プレゼン自動化データセット

12時間前 ★4

連続拡散モデルが初めて離散拡散に匹敵、言語モデルの常識覆す

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

研究チームが連続拡散型言語モデル「LangFlow」を発表、離散拡散モデルと同等の性能を初めて達成。 Bregman発散によるFlow Matchingとeのノイズスケジューラを採用し、LM1BベンチマークでPPL 30.0を記録。自己回帰モデルをゼロショットタスクで上回る結果も示し、非自己回帰型LLMの可能性を大きく広げる。

拡散言語モデルテキスト生成ノイズスケジューリング自己条件付け連続拡散

18時間前 ★4

LLMスキルをコンパイル実行、速度50倍・トークン40%削減

SkVM: Compiling Skills for Efficient Execution Everywhere

研究チームがAIエージェントのスキルをAOT/JITコンパイルで異種LLM・環境に移植可能にする「SkVM」を発表。 8モデル・3ハーネスの評価でタスク完了率+15.3%、トークン消費40%削減、最大50倍の高速化を達成。マルチエージェント開発のコスト削減と実用化加速に大きく貢献する可能性がある。

エージェントコンパイラスキル最適化 LLM実行基盤並列化

21時間前 ★4

新RL手法TPO、疎報酬環境でPPO・GRPOを大幅超え

Target Policy Optimization

強化学習の新アルゴリズム「TPO」が論文で発表された。目標分布へのクロスエントロピー近似により疎報酬環境で既存手法を凌駕、収束後に勾配が自然消滅する安定性も実現。 10億パラメータLLMの推論・グラフ彩色タスクで有効性確認、LLM訓練の効率化に貢献しうる。

強化学習方策最適化疎報酬 LLM訓練

1日前 ★4

モバイルAIエージェント、敵対的攻撃に42%誤誘導と判明

Mobile GUI Agents under Real-world Threats: Are We There Yet?

研究チームがモバイルGUIエージェントの安全性を評価するフレームワーク「AgentHazard」を発表。 SNS投稿や広告を介した攻撃で全エージェントが平均42%の誤誘導率を示し、実用展開への課題が浮き彫りに。視覚機能が脆弱性を高めるという逆説的知見は、エージェント開発者に設計の再考を迫る。

モバイルエージェントセキュリティ敵対的攻撃ベンチマーク

1日前 ★4

単一動画から物体の物理属性を自動推定する新AI手法

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

研究者らが単一動画から物体の外観と物理属性を同時再構成する手法「ReconPhys」を発表。ニューラル表現と微分可能物理シミュレーションを統合し、質量・摩擦・弾性を高精度推定。実世界動画からのリバース物理推定を実現し、ロボット工学やCG制作への応用が期待される。

3D再構成物理属性推定単眼動画解析外観モデリング微分可能物理

1日前 ★3

「ハーネス工学」でAIエージェントの完了率13pt向上

SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

研究者らがプロンプト工学を超える概念「ハーネス工学」を提唱し、オープンソースのマルチエージェント基盤SemaClawを公開。 DAGによる二相オーケストレーション・権限管理・三層コンテキスト管理を実装し、モデル固定のままタスク完了率を52.8%→66.5%に改善。モデル性能に頼らずシステム設計でエージェント能力を引き上げる新アプローチとして注目される。

マルチエージェントハーネス工学パーソナルAI オーケストレーションオープンソース

1日前 ★3

BERT活用の軽量LLM評価手法、大規模モデルと同等精度を実現

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

研究チームが語彙マッチ系評価手法の限界を36モデル・15タスクで実証し、新手法「BERT-as-a-Judge」を発表。 BERT系エンコーダと合成アノテーションで軽量学習し、GPT-4級のLLMジャッジと同等の評価精度を低コストで達成。 LLM評価の計算コスト削減と大規模スケールへの適用可能性を広げ、評価インフラの民主化に貢献。

LLM評価 BERT 自動評価参照ベース評価

1日前 ★4

医療画像超解像、VAE換装で精度が大幅向上と判明

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

潜在拡散モデルのVAEを医療特化型「MedVAE」に置き換えるだけで、医療画像の超解像品質が大幅に向上することが実証された。膝・脳MRIと胸部X線でPSNRが+2.91〜+3.29dB改善し、統計的有意差はp<10⁻²⁰と極めて高い。ハルシネーション率は変わらず忠実度と独立制御できると判明し、診断精度向上への実用応用が期待される。

医療画像超解像潜在拡散モデルドメイン適応VAE MRI 胸部X線

2日前 ★3

推論特化LLM、交渉シミュレで逆効果と判明

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

研究者らが推論特化型LLMをマルチエージェント交渉シミュレーションに用いると人間行動の再現性が低下することを実証した。「最適解探索」に最適化された推論モデルは「人間的行動のサンプリング」と目的が相反し、通常LLMより非人間的な挙動を示す。社会科学シミュレーションや交渉AIの設計において、モデル選定の重要性を再考させる知見として注目される。

マルチエージェント交渉シミュレーション推論モデル LLM評価

2日前 ★3

LLMは自分の回答正誤を知っている？新研究が実態を解明

Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness

研究チームがLLMの「特権的知識」——自身の回答の正誤を外部モデルより正確に予測できる能力——を実証的に検証した。モデル間の高い正解一致率が真の特権知識を隠蔽する問題を発見し、不一致サブセットで評価する新手法を提案。事実知識では約5%の優位性を確認する一方、数学推論では優位性がないことも判明。 LLMの自己評価・自己修正機能の設計に影響を与える知見として、エージェント開発や信頼性向上に向けた研究の指針となる。

LLMの解釈可能性内省正誤予測プロービング幻覚検出

2日前 ★3

新手法DDTreeで投機的デコードが最大8倍超に高速化

Accelerating Speculative Decoding with Block Diffusion Draft Trees

研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。

推論高速化投機的デコード拡散モデル LLM

2日前 ★4

モバイルAI操作の「人間らしさ」を測る新ベンチマーク登場

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

研究チームがモバイルGUIエージェントの人間化度を評価する新ベンチマーク「AHB」を発表した。人間・エージェントのタッチ動作データを収集し、検出器とエージェントのMinMax最適化で定式化。 4つの人間化手法で検出精度を大幅低下させ、AIエージェント偽装対策の有効性を実証した。

モバイルGUI エージェント検出回避チューリングテストベンチマークタッチ動作解析

2日前 ★3

触覚×視覚の新AIタスク提案、素材領域を高精度で特定

Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions

触覚センサ入力から画像内の同素材領域を特定する新タスク「触覚局所化」が研究者により提案された。密な局所クロスモーダル特徴相互作用で触覚顕著性マップを生成し、素材セグメンテーションを実現。素材多様性ペアリング戦略と実環境画像の活用により、既存手法を大幅に上回る精度を達成した。

触覚知覚マルチモーダル学習素材セグメンテーションクロスモーダルアライメントロボット知覚

2日前 ★4

研究者がVLMの「意味的固着」バイアスを実証

Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models

研究チームが大規模視覚言語モデル（VLM）に潜む「意味的固着」バイアスを発見・実証した。同じ画像でもラベルの意味的定義を変えると精度が低下し、中立タグへの置換でバイアスが縮小することを確認。ファインチューニングが特定ルールに過適合する問題を示し、VLMの信頼性向上に向けた課題を提示した。

VLM バイアス分析意味的推論ベンチマーク

2日前 ★4

新手法HiVGでSVG生成、GPT-5.2超えを達成

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

研究チームがSVGを幾何命令単位でトークン化する階層的手法「HiVG」を発表。シーケンス長を最大63.8%削減し、3Bモデルで人間評価においてGPT-5.2やGemini-2.5-proを超える品質を実現。 LLMによるベクターグラフィック生成の効率と品質を大幅に向上させ、デザイン自動化分野への応用が期待される。

SVG生成ベクターグラフィックストークン化 LLM シーケンス圧縮

2日前 ★4

動画トークン化を革新、8分の1のトークン数で同等品質

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。

動画生成トークン化効率化拡散モデル自己回帰モデル

2日前 ★4

1回の推論で複数応答を同時採点、報酬モデルがN倍速に

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。

報酬モデル RLHF マルチモーダル推論効率化

2日前 ★4

VLAモデル評価ベンチマーク「LARY」登場、汎用視覚モデルが専用ロボットモデルを凌駕

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

研究チームがVLAモデルの潜在行動表現を意味・物理の2軸で統一評価するベンチマーク「LARY」を発表。汎用視覚基盤モデルが専用ロボット学習モデルを分類精度で大幅に上回る結果が示された。ロボット学習における意味レベル抽象化の有効性を定量的に示し、評価基準の標準化に貢献。

ロボット学習表現学習ベンチマーク行動認識

2日前 ★4

研究者らがLLMエージェントの命令階層問題を指摘、全モデルで精度43%止まり

Many-Tier Instruction Hierarchy in LLM Agents

研究チームがLLMエージェントの多層命令階層（ManyIH）パラダイムと新インタフェースPPIを提案した。 853サンプルのベンチマークで評価した結果、最先端モデルでも精度は約43%にとどまり全フロンティアモデルが苦手と判明。複数ソースから命令を受けるエージェントの権限管理は未解決の課題であり、安全なAIエージェント設計に警鐘を鳴らす。

命令階層エージェント安全ベンチマーク権限管理

2日前 ★4

小型モデルが12Bを超える1ステップ画像生成技術が登場

Self-Adversarial One Step Generation via Condition Shifting

外部識別器不要の1ステップ画像生成フレームワーク「APEX」が発表された。条件ベクトルのシフトで内部対抗信号を生成し、0.6BモデルがFLUX-Schnell 12Bを性能で上回る。軽量モデルでの高品質生成が可能になり、画像生成AIの民主化・高速化に貢献する。

テキスト→画像生成 1ステップ蒸留自己対抗学習 Flow Matching 効率的推論

2日前 ★5

NVIDIA、単一画像から探索可能3D世界を生成するLyra 2.0を発表

Lyra 2.0: Explorable Generative 3D Worlds

NVIDIAが1枚の画像から大規模な探索可能3Dシーンを生成するフレームワーク「Lyra 2.0」を公開した。空間的忘却と時間的ドリフトを解消する2つの新機構により、一貫性の高い3D空間生成を実現。生成結果を3DGSやメッシュに変換できロボットシミュレーションや仮想環境構築への応用が期待される。

3D生成ビデオ生成 Novel View Synthesis Embodied AI

2日前 ★4

研究者ら、100ターン超の長期視覚検索エージェントを発表

Towards Long-horizon Agentic Multimodal Search

視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。

マルチモーダルエージェント深層検索長期推論 VLM

2日前 ★4

新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。

強化学習数学推論 LLM 報酬スパース性ヒント学習

2日前 ★4

オフライン蒸留で推論モデルの学習コストを大幅削減

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。

LLM 知識蒸留推論モデル事後学習効率化

2日前 ★4

新AR手法でImageNet画像生成の世界最高精度を更新

Generative Refinement Networks for Visual Synthesis

研究チームが精錬型自己回帰ネットワーク（GRN）を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。

画像生成動画生成自己回帰モデル離散トークン化適応ステップ生成

2日前 ★3

拡散モデルの各手法、数学的に等価と証明

Rethinking the Diffusion Model from a Langevin Perspective

研究者らがランジュバン動力学を軸に拡散モデルの順・逆過程を統一的に導出する新フレームワークを発表。 SDE・ODE・フロー整合など異なる定式化が最大尤度の下で数学的に等価であることを厳密に証明。 VAEやスコアマッチングの直感的理解も統合され、生成モデル研究の理論的基盤が整理される。

拡散モデルランジュバン動力学理論統一生成モデルスコアマッチング

2日前 ★4

Habitat-GS、3DGSで高忠実度ナビゲーション訓練を実現

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

Meta AI研究チームがHabitat-Simに3Dガウシアンスプラッティングと動的アバターを統合したシミュレータ「Habitat-GS」を発表。メッシュ比で高品質なリアルタイムレンダリングを実現し、エージェントのシミュレータ→実世界のドメイン汎化性能が向上。人混みでのナビゲーション訓練が可能になり、実環境展開を目指すロボット・自律エージェント研究を加速。

3DGS 具身AI ナビゲーションシミュレーション動的アバター

2日前 ★4

新手法SPPOがPPO訓練を5.9倍高速化、推論LLM整合に革新

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

長い思考連鎖を持つ推論LLMの強化学習手法SPPOが発表された。系列全体をバンディット問題として扱うことでクレジット割当の不安定性を解消し、GRPOより5.9倍高速に同等性能を達成。推論モデルのRLHF訓練コスト削減につながり、大規模展開の実現可能性を高める。

強化学習 LLM推論

2日前 ★4

AI自律エージェントが数日かけてML研究を自動実行、SOTAを達成

Toward Autonomous Long-Horizon Engineering for ML Research

ML研究の論文再現・実験改善を数日間にわたり自律実行するAiScientistが提案された。 File-as-Busプロトコルで状態を永続ファイルに蓄積し、PaperBench+11点・MLE-Bench Lite 81.82%を記録。 AI研究の自動化・長時間エージェント設計に向けた重要な一歩となる成果。

自律AIエージェント ML研究自動化マルチエージェント長時間タスク

2日前 ★4

研究者がLLM蒸留の成功条件を解明、失敗回復レシピも提案

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

オンポリシー蒸留（OPD）の成否を左右する2大条件として「思考パターンの整合」と「新規能力付与」を特定した研究が発表された。トークンレベルで高確率トークンの漸進的整合が蒸留成功の内部指標となることをメカニズム面から解明。コールドスタートと教師整合プロンプト選択による失敗回復レシピを提示し、LLM軽量化の実用性向上に貢献。

蒸留 post-training 推論モデルメカニズム解析

2日前 ★3

モバイルAIエージェントにプライバシー嗜好を学習させる新手法

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

MLLMベースのモバイルGUIエージェントがユーザーのプライバシー嗜好に沿って行動する手法「TIPO」が発表された。プライバシー優先・利便性優先の異なるペルソナを軌跡から学習し、タスク成功率65.60%を達成。スマートフォン操作AIの個人化・プライバシー配慮設計に新たな指針を示す成果として注目される。

モバイルエージェントプライバシー選好最適化

2日前 ★3

記憶強化型報酬形成MEDSでLLM強化学習が進化

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

LLM強化学習における繰り返しエラーを検出・抑制する新手法「MEDS」が提案された。層ごとのロジットを「推論指紋」として保存し、密度ベースクラスタリングで頻出エラーパターンを特定・ペナルティ強化する。既存RL手法を上回る性能を達成し、LLMの訓練効率と探索多様性の向上に貢献する可能性がある。

強化学習報酬形成サンプリング多様性 LLM 探索

3日前 ★3

量子コード生成LLMを統一評価するベンチマーク登場

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

研究チームがQiskit・PennyLane・Cirq対応の量子コード生成LLM評価基準「QuanBench+」を発表。 42タスクでPass@kとKLダイバージェンスを用いた確率的評価を実施、フィードバック修復でQiskit正解率83%を達成。量子プログラミング支援AIの標準評価指標が整備され、実用化に向けた研究加速が期待される。

量子コード生成 LLMベンチマーク量子コンピューティング

3日前 ★3

マスク拡散LMの推論、17%高速化する新手法登場

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

研究者らがマスク拡散言語モデルの推論を高速化する「モデルスケジューリング」手法を発表。拡散ステップの両端に小型モデルを配置する「サンドイッチ型」が最も効果的で、FLOPs17%削減を実現。生成品質の劣化をわずか3.4%に抑えつつ高速化でき、実用的なLLM推論最適化の選択肢として注目される。

拡散言語モデル推論高速化モデルスケジューリングテキスト生成

3日前 ★4

投機的デコード評価を統一するSPEED-Benchが登場

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。

ベンチマーク LLM推論投機的デコードスループット

3日前 ★4

SWEエージェントの推論文脈を動的管理、7B規模で最高性能

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。

SWEエージェントコンテキスト管理強化学習推論効率化

3日前 ★3

学習不要で動画の時間制御を実現するPrompt Relay登場

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

複数イベントを時間的に正確に配置できる動画生成手法「Prompt Relay」が発表された。クロスアテンションにペナルティ項を追加するだけで、追加学習・構造変更・余分な計算コストが不要。既存の動画生成モデルに即適用でき、時間整合性と映像品質の向上が期待される。

動画生成アテンション制御時間的制御マルチイベント学習不要

3日前 ★5

868時間の乳幼児映像から汎用視覚AIが誕生

Zero-shot World Models Are Developmentally Efficient Learners

研究者らが子供の一人称視点映像868時間のみで訓練した自己教師あり世界モデルを発表。タスク固有の学習なしに光学フロー・深度推定・物体分割・直感物理を高精度で解く。人間の認知発達と一致する学習軌跡が判明し、AGIへの新たなアプローチとして注目される。

世界モデル自己教師あり学習発達認知科学ゼロショット視覚理解

3日前 ★4

新手法CAFMでフローモデルのFIDスコアを半減、画像生成が大幅進化

Continuous Adversarial Flow Models

研究者らが、フローマッチングの損失関数を識別器に置き換えた新世代生成モデル「CAFM」を発表。 ImageNet 256pxベンチマークでFIDスコアを最大8.26→3.63へ大幅改善、既存モデルへも10エポックで適用可能。既存フローモデルを低コストで強化できる汎用的手法として、画像生成分野への広範な応用が期待される。

Flow Matching 生成モデル GAN 画像生成 Post-training

3日前 ★3

研究者ら、LLM対話のペルソナ崩れを解決する新手法を発表

SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

複数LLMエージェント間の長期対話でペルソナが劣化する問題を解決するフレームワーク「SPASM」が発表された。対話履歴を視点中立形式で保持し各エージェントが自己中心的に参照するECPアーキテクチャを採用。 GPT-4o-mini・DeepSeek・Qwenで45,000会話を生成して有効性を実証、対話データ生成の品質向上に貢献。

対話生成ペルソナマルチエージェント合成データ LLM

3日前 ★4

LLM、科学実験の結果予測で人間専門家と同水準

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

新ベンチマーク「SciPredict」が物理・生物・化学33分野でLLMの科学予測能力を評価した。フロンティアモデルの正答率は14〜26%と人間専門家の約20%に匹敵するが、信頼度と精度の相関がゼロ。「どの予測が信頼できるか自己判断できない」という根本的限界が明らかになり、科学応用への課題を示す。

ベンチマーク科学推論 LLM評価キャリブレーション

3日前 ★4

研究者ら、LLM後学習データの継承関係を自動解析するAIフレームワークを発表

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

マルチエージェントフレームワークを用いてLLMのポスト学習データセット間の継承関係を自動追跡する手法が発表された。 83シードデータから430ノード・971辺の進化グラフを構築し、データ生態系全体を可視化することに成功。データの隠れた重複やベンチマーク汚染の連鎖伝播を定量的に解明し、LLM開発の透明性向上に貢献する。

データリネージマルチエージェントポスト学習データ品質ベンチマーク汚染

3日前 ★4

物理シミュレータとRLでLLMが国際物理オリンピックに挑む

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

物理シミュレータで生成した合成データと強化学習を組み合わせ、LLMの物理推論能力を強化する手法が発表された。シミュレーション環境のみで訓練したモデルが実世界ベンチマークへのゼロショット転移に成功し、IPhO問題で既存手法比5〜10ポイント向上。シミュレータを活用した低コストな科学推論トレーニングの可能性を示し、理系分野のAI応用に新たな道を開く。

強化学習物理推論 LLM シミュレーション Sim2Real

3日前 ★4

医療AIに新手法、希少疾患の診断推論が大幅向上

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

知識強化型データ合成と半教師あり強化学習を組み合わせた医療推論フレームワーク「MedSSR」が発表された。 PubMedや希少疾患DBを活用した合成データで学習し、Qwen3-8Bベースで希少疾患+5.93%、一般医療+3.91%を達成。データ不足が課題だった医療AI分野で、希少疾患への対応力を高める実用的な突破口となる可能性がある。

医療AI 強化学習希少疾患データ合成半教師あり学習

3日前 ★4

NVIDIAら、音声言語モデルでGemini超えを達成

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

NVIDIAらが音声・環境音・音楽を統合理解する大規模モデル「Audio Flamingo Next」を公開した。最大30分の長尺音声に対応し、20以上のベンチマークでGemini 2.5 ProやGPT-4oに匹敵・凌駕する性能を実現。完全オープンな初のフルオープン音声言語モデルとして、音声AI研究の民主化に貢献する。

音声言語モデルマルチモーダルAI 長文脈推論音声認識オープンソース

3日前 ★5

拡散言語モデルの弱点を克服、ARモデルと同等性能を達成

Introspective Diffusion Language Models

研究者らが拡散言語モデル（DLM）の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点（+26.3）・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。

拡散言語モデル自回帰モデル推論効率化投機的デコード並列生成

3日前 ★4

GUIエージェント統合フレームワーク「ClawGUI」公開、学習から実機展開まで一体化

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。

GUIエージェント強化学習マルチモーダルLLM スマートフォン自動化ベンチマーク

3日前 ★4

新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり

CocoaBench: Evaluating Unified Digital Agents in the Wild

視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。

エージェント評価ベンチマークマルチモーダル GUI自動化 LLMエージェント

3日前 ★3

Attention Sink現象を初の包括調査、180件超を体系化

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Transformerで意味のないトークンに注意が集中する「Attention Sink」現象を初めて網羅的にサーベイ。 180件超の研究を活用・解釈・緩和の3軸で分類し、KVキャッシュ圧縮や量子化など9シナリオの指針を提供。 LLMの長文処理・軽量化の実装に直接役立つ実践的フレームワークとして注目される。

Attention Sink Transformerサーベイ KVキャッシュ圧縮 LLM推論効率化ハルシネーション対策

3日前 ★3

マルチモーダルAI統合評価基盤「TorchUMM」が公開

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

14モデル・12ベンチマーク・5ポスト学習手法を統一プロトコルで比較できる初のコードベースが公開された。テキスト・画像統合モデル（UMM）の評価・分析・ポスト学習を一元化し、公平な再現可能比較を実現。単純なSFTが性能を損なうケースも判明し、ポスト学習設計の指針としてAI研究者に広く活用が期待される。

マルチモーダルLLM 評価フレームワークポスト学習画像生成・編集ベンチマーク

AIフロントライン

要約済み 72

未要約 28