AIフロントライン

AIフロントライン https://ai-frontline.jp/ 公式ソースだけを集めたAI最前線（日本語要約） ja Fri, 17 Apr 2026 09:04:48 +0000 意味表現から映像を生成する新フレームワーク「Re2Pix」発表 https://huggingface.co/papers/2604.11707 b008af9bf4ec6f9560aefa2e63a35b56663deea0 Fri, 17 Apr 2026 09:00:17 +0000 hf-papers video prediction autonomous driving hierarchical generation diffusion model semantic representation 意味表現を先に予測してから映像を生成する二段階フレームワーク「Re2Pix」が発表された。 DINOv2特徴空間での意味予測と拡散モデルを組み合わせ、学習収束をFID/FVDで最大7倍高速化。 Vista・Cosmos-Predict 2と競合する性能を達成し、動画生成AIの効率化に新たな道筋を示す。新手法Switch-KD、小型VLMの精度を大幅改善 https://huggingface.co/papers/2604.14629 923473443d0ed6c2ad7198f961b1875ccb995663 Fri, 17 Apr 2026 09:00:17 +0000 hf-papers 知識蒸留マルチモーダルAI モデル圧縮 VLM 視覚言語モデルの知識蒸留手法「Switch-KD」が発表され、小型モデルの性能向上を実現。教師モデルの言語経路に視覚情報を注入する統一テキスト確率空間での蒸留が特徴で、0.5Bモデルが10ベンチマークで平均3.6点向上。エッジデバイス向け高性能VLM開発に新たな選択肢を提供し、モデル軽量化研究を加速させる。研究者ら、仮想細胞でLLM幻覚を克服する自律推論エージェントを開発 https://huggingface.co/papers/2604.11661 355023ec16a95b0524b6f033003ee3a09533ce97 Fri, 17 Apr 2026 07:20:27 +0000 hf-papers 仮想細胞遺伝子発現予測機械論的推論幻覚検証 LLMの生物学応用を妨げる幻覚問題を解決するVCR-Agentが発表された。知識検索と検証器を組み合わせDAG形式の機械論的説明を自律生成し、18,950件の検証済みデータで遺伝子発現予測精度を大幅改善。仮想細胞研究へのAI活用を加速させ、創薬・疾患メカニズム解明に貢献する可能性がある。 OneHOI、人物と物体の自然なインタラクションをAIで統合生成 https://huggingface.co/papers/2604.14062 d12b1e3951479c7dad8b2fdaf1dd00ab010b13ef Fri, 17 Apr 2026 07:20:27 +0000 hf-papers HOI生成画像編集拡散モデル姿勢推定統合フレームワーク人物と物体のインタラクション（HOI）の生成と編集を単一モデルで統合する新手法「OneHOI」が発表された。拡散モデルをベースに接触点・姿勢・物体配置を同時最適化し、既存の専用手法を上回る品質を達成。 CG・ゲーム・ロボティクス分野でのリアルな動作シーン生成への応用が期待される。 LLM呼び出しを軽量MLで代替、最大100%削減を実現 https://huggingface.co/papers/2604.14531 fe27227b6634a454b98cd7ce8ba1c4cfe7902615 Fri, 17 Apr 2026 07:20:27 +0000 hf-papers LLMルーティングコスト最適化意図分類継続学習説明可能AI 研究者らがLLMの出力ログを活用し、安価なMLモデルへ段階的に置き換えるTRACERを発表。品質を保つパリティゲート機構により、77クラスで完全代替・150クラスでも高い代替率を達成。 APIコストを大幅削減できるため、LLMを活用する企業の運用効率化に直結する成果。推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証 https://huggingface.co/papers/2603.27844 44f6ff37f3ca780901b1fda953685e7e68329612 Fri, 17 Apr 2026 06:00:17 +0000 hf-papers 数学推論推論時最適化 AIMO 3の検証で、多様プロンプトによる多数決投票の改善効果は±2点にとどまることが判明した。高温サンプリングが既に誤りを十分分散させており、プロンプト多様化は冗長で精度低下を招く。同一計算予算ではモデル能力の8点差が推論時工夫を4倍上回り、基盤モデル強化の重要性が再確認された。 LLM不要のエージェント記憶システム「SuperLocalMemory V3.3」公開 https://huggingface.co/papers/2604.04514 bd8fca9bf7cb13d93d60f71b5e2bb7e6590cc3ab Fri, 17 Apr 2026 06:00:17 +0000 hf-papers エージェントメモリ生物模倣AI Zero-LLM 認知アーキテクチャ生物模倣型の忘却・量子化・マルチチャネル検索を統合したエージェント向け記憶システムが公開された。 LLMへの依存を排除しつつ既存手法を上回る記憶精度と軽量動作を実現と主張。自律エージェント開発において低コスト・高効率なメモリ管理の新たな選択肢となる可能性。 GlobalSplat、3DGS冗長性を99%超削減する新手法を発表 https://huggingface.co/papers/2604.15284 8d9ce260526fde0733bf4c2a10010ae4dd83d843 Fri, 17 Apr 2026 06:00:17 +0000 hf-papers 3D Gaussian Splatting Novel View Synthesis Feed-Forward推論シーン再構成グローバル潜在トークンを活用したフィードフォワード型3DGSフレームワーク「GlobalSplat」が発表された。固定16Kガウシアンで冗長性99%超削減、PSNR 28.5・推論78ms・ディスク4MBという高効率を実現。視点数に依存しないコンパクト表現により、3Dシーン再構成のリアルタイム活用が現実的な射程に入る。新階層型ロボットシステム、π₀比42.7%向上を達成 https://huggingface.co/papers/2604.14125 721eaeaa3de98c2a07e2924c453840001a91ada2 Fri, 17 Apr 2026 06:00:17 +0000 hf-papers ロボット操作階層制御視覚的接地具身知能 VLAモデル視覚接地を活用した階層型ロボット操作システム「HiVLA」が論文で発表された。 VLMプランナーとDiT行動エキスパートをバウンディングボックスで接続し、視覚認識と動作生成を明確に分離。 RoboTwin 2.0ベンチマークで平均成功率83.3%を記録し、既存手法π₀を大幅に上回った。圧縮センシングでLLM推論を動的最適化する新手法 https://arxiv.org/abs/2604.14156 5ef2d085ece68b18d88cabeef321f3dca3be6630 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai LLM圧縮動的推論構造的プルーニング圧縮センシング理論を応用し、LLMの計算経路をタスク・トークンごとに動的に選択する新フレームワークが発表された。プルーニングとプロンプト圧縮を統合し、スパース回復によって不要な計算を削減する推論効率化を実現。モデルサイズを維持しつつ推論コストを削減できる可能性があり、LLMの実用展開コスト低減に貢献が期待される。 LLM長期記憶をゲームで評価する新ベンチマーク登場 https://arxiv.org/abs/2604.14158 e5e1fdca431a88b06666e1270d364085ad59195e Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai ベンチマーク長期記憶 LLM評価ゲーム型AI 研究者らがゲーム型インタラクティブシナリオでLLMの長期記憶を評価する「MemGround」を発表。 3層階層的な記憶能力をQA・MFU・MFCOなど多次元指標で定量評価し、動的追跡や階層的推論も計測可能。静的タスク中心だった既存評価の限界を補い、実用的なエージェント開発の指針となりうる。 LLM搭載IMEで深いパーソナライズ入力を実現——オンデバイス展開も対応 https://arxiv.org/abs/2604.14159 e8e1428be849bd80c19a0878b6ac8d8015437cac Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai IME オンデバイスAI パーソナライズモバイルAI 入力システム研究チームがLLMを統合したモバイル向け入力メソッド「HUOZIIME」を発表した。階層的メモリ機構でユーザー固有の入力パターンを継続学習し、個人に最適化された変換を実現。オンデバイス動作に向けた最適化により、クラウド不要でプライバシーを保ちながら低遅延を達成する。原子力制御室向けAIエージェント基盤「NuHF Claw」が登場 https://arxiv.org/abs/2604.14160 02dbb1862fc7ac6e6386bdbecc54422ac876a3b3 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 安全クリティカルシステム LLMエージェント原子力認知リスク管理人間信頼性解析原子力発電所の制御室オペレーターを支援するリスク制約型AIエージェントフレームワーク「NuHF Claw」が発表された。リアルタイムで認知状態を推定しつつ確率論的安全評価と連携、ハルシネーション抑制機構を内蔵する。安全クリティカル分野へのAIエージェント適用における新たな設計指針を示す研究として注目される。 LLM、論文のデータ漏洩を自動検出——6モデルが一致した診断 https://arxiv.org/abs/2604.14161 e92cc32b4964c06c46f51ebdc816e4a6268d90c9 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai LLMエージェント研究品質評価データリークピアレビュー自動化研究者らがLLMを用いてML論文の方法論的欠陥を自動検出できるか検証した。 6種類のLLMがジェスチャー認識論文の被験者レベルのデータ漏洩を正確に特定。査読・再現性検証の自動化に向けた有力なアプローチとして注目される。査読スコアとコメントに大きな乖離、「丁寧さ原則」を解明 https://arxiv.org/abs/2604.14162 722693a1c441558d590a936a14f1d36ff37fa531 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 査読分析自然言語処理学術評価 ICLR2021〜2025の3万件超の査読データを分析した研究が発表された。スコアベースの採否予測は91%の精度だが、テキストベースでは81%に留まることが判明。礼儀正しいコメントが実際の評価を隠す構造的バイアスが示され、AI査読ツール開発に影響を与えそうだ。 LLMで海難救助通信を自動解析するフレームワーク登場 https://arxiv.org/abs/2604.14163 30e812130bcf57174fb6fc2f636bbf2eceb0c4f1 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 海上安全情報抽出 LLM応用海上遭難通信からリアルタイムに重要情報を抽出するLLMフレームワーク「SeaAlert」が発表された。 GMDSS規格の短文・雑音通信やASR誤りに対応し、合成データで学習データ不足を克服。海上救助の初動対応を支援し、安全分野におけるLLM実用化の可能性を示す。推論モデルのSFT劣化問題、新フレームワーク「TESSY」で解決 https://arxiv.org/abs/2604.14164 164394df20b15e8bb3d3dec91f8a58a18d7a5e95 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 推論モデルファインチューニング合成データ知識蒸留教師モデルの合成データでSFTを行うと推論モデルの性能が低下する問題を解決するTESSYフレームワークが発表された。教師と学生モデルを交互に活用し、スタイル分布の乖離を防ぎながらQwen3-8Bなどの推論能力を向上させる。 GPT-OSS-120Bを教師に用いたコード生成タスクで有効性を実証し、高品質SFTデータ合成の新たな指針となる。マルチAIエージェントで臨床エビデンス抽出を自動化 https://arxiv.org/abs/2604.14165 9d0c25c2d575cc57c71f2c044077e9dceab2e316 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 医療AI マルチエージェントエビデンス抽出システマティックレビュー Human-in-the-Loop 研究チームがPDFから直接、臨床エビデンス表を生成するマルチエージェントシステム「EviSearch」を発表。 PDF照会・検索・調停の3モジュールがセル単位の出典情報を保証し、人間監査を効率化する。腫瘍学試験ベンチマークでテキスト解析ベースラインを大幅に上回り、医療AI分野に新たな手法を提示。階層的RAGでサイバー脅威の自動分析精度が向上 https://arxiv.org/abs/2604.14166 8ffefbc6b2fcd357070b0d29827e4da132223887 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai サイバーセキュリティ MITRE ATT&CK CTI 情報検索 MITRE ATT&CKフレームワークへの攻撃手法IDの自動付与に階層的RAGを適用した新手法が発表された戦術→技術の2段階検索により、従来のフラットRAGの限界を克服し精度・効率を大幅改善 CTI(サイバー脅威インテリジェンス)分析の自動化を加速し、セキュリティアナリストの負担軽減に貢献 LoRAとICL組み合わせ手法、中国語修辞認識で3冠 https://arxiv.org/abs/2604.14167 e49c17ca9bcee7e2ffc73ee19434241dba0cbb69 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 教育AI NLP LoRA 修辞認識モデルアンサンブル CCL 2025の中国語作文修辞認識評価で、LoRAとIn-context Learningを融合した手法が全3トラック1位を獲得した。 JSON形式の出力構造化とキーの中国語化によりLLMへの修辞知識統合を実現し、認識精度を向上。教育・作文支援分野におけるLLM活用の有効性を示す成果として注目される。 SAGEA、逆推論搭載の多言語LLM「Celer 2.6」を公開 https://arxiv.org/abs/2604.14168 085d36a7a400251dddad92b556bc16fec445965c Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai LLM 多言語モデルマルチモーダル推論強化南アジア言語 SAGEAが5B/10B/27Bの3サイズ展開する汎用LLM「Celer 2.6」を公開した。逆推論（IR）パイプラインによる自己検証機構で幻覚や連鎖誤差を低減する設計が特徴。ヒンディー語・ネパール語向け独自トークナイザを搭載し、南アジア市場への展開を狙う。建設PJ議事録をRAGで時系列検索、意思決定追跡を効率化 https://arxiv.org/abs/2604.14169 3fafa5bbcae98716d1ca578f820613a1bd74ad52 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 建設業議事録検索 RAG 時系列検索ドメイン特化大規模建設プロジェクトの議事録から意思決定履歴を時系列で検索するRAGシステムが提案された。セマンティック検索とLLMを組み合わせ、時刻注釈付きの回答を自然言語で取得できる対話型UIを実現。建設・製造など文書量が膨大な業界でのLLM実務活用の可能性を示すケーススタディとなる。 RAGの精度を高める新フレームワーク登場、反復推論で安定化 https://arxiv.org/abs/2604.14170 47546eeef4d914e162d1462ff37184a052339506 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai RAG改善質問応答反復推論証拠集約ステートレス検索と平坦なコンテキスト表現というRAGの根本的課題を解決する新フレームワークが発表された。取得文書を構造化推論ユニットに変換し、証拠プールで支持・非支持情報を永続的に管理する独自設計を採用。ノイズの多い検索環境でも安定した回答精度を実現し、RAGを活用する開発者に実践的な改善指針を提供する。 Llama・Mistral・Qwen、ネパール語対応力を比較検証 https://arxiv.org/abs/2604.14171 d6c51a53e1760c1234592af3f403fe04785cdc9a Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 低資源言語NLP 多言語LLM ファインチューニングベンチマーク約8BパラメータのLLM3種（Llama-3.1、Mistral-7B、Qwen3）をローマ字ネパール語で体系的に比較した研究が発表。ゼロショットとQLoRAファインチューニングの両条件下で、流暢性・音声的一貫性・意味整合性など7指標を測定。低資源言語への適応能力の差異を明らかにし、多言語LLM開発の指針となる知見を提供。 RAGでLLMの脆弱性分析精度を向上、幻覚も抑制 https://arxiv.org/abs/2604.14172 4c8cc1b4bb1964c6a4ccaf1eace2184a670b4374 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai セキュリティ脆弱性分析 RAG 知識競合 CVE LLMによる脆弱性（CVE）分析の知識競合・陳腐化を解決するRAGフレームワーク「CRVA-TGRAG」が発表された。教師モデル誘導型の2段階アーキテクチャにより、CVE検出精度の向上と誤情報生成の抑制を同時に実現。セキュリティ分野でのLLM実用化における信頼性課題に対し、具体的な解決策を提示する研究として注目される。アライメントLLMの知識抑制、超小型アダプタで修正成功 https://arxiv.org/abs/2604.14174 6cb3f68561b9b75c70f3c5d1372e58aa37bf714d Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai アライメントアダプタ対数確率政治バイアス知識抑制アライメント調整済みLLMが政治的センシティブな話題で示す知識抑制を修正する手法が発表された。わずか786Kパラメータ（ベースモデルの0.02%）の小型アダプタで抑制を修正し、未知事実に最大39%汎化。モデル本体を変えずに抑制された知識を引き出せ、LLMの透明性・解釈可能性研究に貢献。勾配エンタングル問題を解消する新手法EAGCが登場 https://arxiv.org/abs/2604.14176 c07dfad7ba0d86f4516c5bea9f4c349e1a15f33f Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 一般化カテゴリ発見勾配干渉表現学習プラグイン最適化未知クラスを含むデータ分類タスク（GCD）で、最適化の競合「勾配エンタングルメント」を定量分析し解決策を提案。アンカーモデルによる勾配整合とエネルギー認識弾性射影の2モジュール構成で、既知・未知クラスを同時改善。既存手法を複数ベンチマークで上回る性能を達成し、プラグイン型で既存モデルへの統合も容易。 LLM活用の音声英語フィードバック生成、SFTが最良と判明 https://arxiv.org/abs/2604.14177 4984ccc00e7af04e5aef485c05e765b540457a06 Fri, 17 Apr 2026 04:00:00 +0000 arxiv-cs-ai 音声言語教育文法誤り訂正教育的フィードバック LLMファインチューニング音声英語学習者向けの教育フィードバック生成データセット「SPFG」が新たに構築・公開された SFT・DPO・KTOの3手法でLLMを比較評価した結果、SFTが最も安定した性能向上を示した文法訂正と学習者適応フィードバックの同時生成を実現し、語学教育AIの実用化に道を開く再計算不要なKVキャッシュ再利用手法 https://huggingface.co/papers/2604.13226 bdda075d712cc4525c1771221d6ad85c400d97b8 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers KVキャッシュ RAG LLM推論高速化コンテキスト非依存知識蒸留 RAGシステムで同一文書を異なるクエリに再利用する際、KVキャッシュの再計算が不要な手法「KV Packet」を提案。文書キャッシュをヘッダ/トレーラのソフトトークンアダプタで包み、自己蒸留で境界の不整合を吸収する。 CacheBlendらと比べFLOPsを5〜6桁削減、TTFTを最大19倍短縮しながらF1スコアを維持する。 Claude Codeの設計空間を解剖する https://huggingface.co/papers/2604.14228 382cb5074d229676a40ddb5129c5a6bae9e13309 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers AIエージェントコーディングエージェントアーキテクチャ分析安全性設計 Claude CodeのTypeScriptソースを解析し、5つの価値観と13の設計原則を体系的に抽出した。パーミッション7層・5層圧縮パイプライン等の主要サブシステムの構造と意図を明確化。 AIロジックはコード全体の1.6%に過ぎず、98.4%が安全・実行インフラであることを示す。研究者ら、AIでWebページを自動生成する階層型エージェントを発表 https://huggingface.co/papers/2604.15309 9405c1ca95318c6ab04f6adbeecd96149625cd0b Fri, 17 Apr 2026 03:01:25 +0000 hf-papers Web Agent マルチモーダル生成 AIGC 階層的計画 UI/UX AIGCツールを統合した階層型マルチモーダルWebページ生成フレームワーク「MM-WebAgent」が発表された。グローバルレイアウトとローカル要素の2段階計画で画像・動画・チャートを一貫性をもって生成し、新ベンチマークで既存手法を大幅に上回る。 Webデザイン自動化の精度向上により、ノーコード開発やコンテンツ制作の効率化に貢献する可能性がある。 Deep Research AI評価基準「DR³-Eval」登場、Claude Sonnet 4が首位 https://huggingface.co/papers/2604.14683 62769d82418aca897472ce1c4ef4fddf5285b116 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers ベンチマーク評価 Deep Research LLMエージェントマルチモーダル情報検索研究者らが現実性・再現性・制御性を兼ね備えたDeep Research評価フレームワーク「DR³-Eval」を発表した。マルチモーダルなユーザーファイルと静的コーパスを用いた現実的な評価環境を実現し、主要モデルの幻覚問題も浮き彫りに。 Claude Sonnet 4が最高65.6%で首位に立ち、AIエージェント開発の標準ベンチマークとなる可能性がある。 LeapAlign、Fluxモデルで既存手法を全指標で凌駕 https://huggingface.co/papers/2604.15311 5b58b8f417353a16fac043c19e54ffaac4e40f4b Fri, 17 Apr 2026 03:01:25 +0000 hf-papers 画像生成ポスト学習フロー整合人間好みアライメント勾配最適化フロー整合モデルを人間の好みに合わせるポスト学習手法「LeapAlign」が発表された。長い生成軌跡を2ステップの「リープ軌跡」に圧縮し、早期ステップへの報酬勾配伝播を実現。 FluxモデルでGRPO系・直接勾配系の既存手法を全評価指標で上回り、画像生成AIの品質向上に貢献。バイトレベルで異種LLM蒸留を実現、シンプル手法で既存を凌駕 https://huggingface.co/papers/2604.07466 de9b3c8b783482749504096a835a8c313b3aab47 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers クロストークナイザー蒸留バイトレベルLM 知識蒸留モデル圧縮 LLM転送研究者らが異なるトークナイザーを持つLLM間の知識蒸留をバイトレベル変換で解決する手法を発表。教師モデルの出力をバイト確率に変換し軽量デコーダヘッドを追加するだけで、1B〜8B規模で既存手法以上の性能を達成。複雑な処理不要のシンプルなアプローチにより、異種LLM間のモデル圧縮・転用の実用化が大きく前進。新手法C2、報酬モデルの精度を大幅改善 https://huggingface.co/papers/2604.13618 d4eb7b9e26c4f78e0ebc98967d8a63a761cb1f5f Fri, 17 Apr 2026 03:01:25 +0000 hf-papers 報酬モデル選好学習 LLMアライメントルーブリック推論型検証二値選好データのみからルーブリック（評価基準）を自動生成し、LLMの報酬モデリングを強化する手法「C2」が発表された。協調生成器と批判的検証器を組み合わせ、RM-Benchで+6.5点、AlpacaEval 2.0でLC勝率+6.0点を既存手法に対して達成。 RLHFの品質向上に直結する研究で、より少ないアノテーションコストで高精度な報酬モデル構築が可能になる。強化学習で文書RAGを強化、GPT-4oを超える性能を達成 https://huggingface.co/papers/2604.14967 0031442a9b20d167b7e760496c54f35409930576 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers Visual RAG 文書理解強化学習マルチモーダル研究チームが大規模文書の視覚的質問応答に強化学習を組み合わせた新手法「UniDoc-RL」を発表。粗から細への2段階行動選択（ページ選択→領域拡大）と密な報酬設計で効率的な文書理解を実現。マルチページ文書QAベンチマークでGPT-4oやGeminiを上回り、RAG技術の新たな方向性を示す。長文脈RLを効率化する新手法「LongAct」登場 https://huggingface.co/papers/2604.14922 b18ceb0e490ad3ad270e9b27352090e94b0cc821 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers 長文脈理解強化学習スパース更新 LLM推論 LLMの活性化パターンを活用し、長文脈強化学習を効率化する手法「LongAct」が発表された。 Q/K表現の高振幅活性化に対応する上位30%の重みのみを選択的に更新し、LongBench v2で約8%向上を達成。複数のRLアルゴリズムで普遍的に効果を発揮し、長文脈AIの訓練効率改善に貢献する。 How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.14164 547c56db9337f2e7100be4d498b455a065c0d7e0 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers テンセント、3D世界を丸ごと再構成・生成するAIモデルを発表 https://huggingface.co/papers/2604.14268 99608d4e9bfab1dd0fca88cdbb3385884e639cec Fri, 17 Apr 2026 03:01:25 +0000 hf-papers 3D生成ワールドモデルマルチモーダル動画生成シーン再構成テンセントが静止画・動画から3Dシーンの再構成・生成・物理シミュレーションを一括処理するマルチモーダル基盤モデル「HY-World 2.0」を発表。単一モデルで三種の3D処理タスクを統合した汎用アーキテクチャを採用し、実世界シミュレーション精度を大幅に向上。ロボティクス・自動運転・メタバースなど3D空間を扱うAIアプリケーション開発の加速が期待される。研究者、LLMジェイルブレーク攻撃を80%削減する新防御手法を発表 https://huggingface.co/papers/2509.25843 322fabf90afbec04d38b645b1018f3eb79dedf4d Fri, 17 Apr 2026 03:01:25 +0000 hf-papers LLMセーフティジェイルブレーク防御メカニスティック解釈可能性活性化工学過去形への言い換えでLLMの安全フィルターを回避する「時制ジェイルブレーク」に対し、回路解析ベースの防御手法「ASGuard」が発表された。脆弱なアテンションヘッドを特定して活性化スケーリングで修正する手法で、4つのモデルで攻撃成功率を最大80%削減。汎用性能を損なわずにセキュリティを強化するパレート最適を実現し、LLM安全対策の実装に直接応用できる。 RAD-2が自動運転RL、衝突率56%超削減を実現 https://huggingface.co/papers/2604.15308 feb69852ff67491fe53c6e3d7ca9710c5e518078 Fri, 17 Apr 2026 03:01:25 +0000 hf-papers 自動運転強化学習拡散モデル軌跡計画クローズドループ訓練自動運転向け新フレームワーク「RAD-2」が、拡散モデルとRLを組み合わせた生成器-識別器構造を発表。時間一貫性を活用したTC-GRPOで報酬の信用割り当て問題を解消し、既存拡散プランナー比で衝突率56%超削減を達成。安全性と走行効率を両立する手法として、自動運転AIの実用化加速に貢献する可能性がある。 Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision https://huggingface.co/papers/2604.12002 3999ad1e0837295754d14229d125b9fd26865117 Fri, 17 Apr 2026 00:00:26 +0000 hf-papers 論文→スライド自動変換AIフレームワーク「ArcDeck」公開 https://huggingface.co/papers/2604.11969 b3155862974646507bf061c5b4b391e9b502b446 Thu, 16 Apr 2026 21:00:49 +0000 hf-papers スライド生成マルチエージェント談話解析学術プレゼン自動化データセット研究論文を一貫したナラティブフローを保ちながらスライドへ自動変換するマルチエージェントフレームワーク「ArcDeck」が発表された。修辞構造理論（RST）で談話構造を解析し、既存手法PPTAgentに対して100%の勝率を達成。評価用データセット「ArcBench」も同時公開され、プレゼン資料作成の自動化研究に新たな基準を提示した。連続拡散モデルが初めて離散拡散に匹敵、言語モデルの常識覆す https://huggingface.co/papers/2604.11748 638bc1c81839fa26a7dce5422090e20fce4ddc24 Thu, 16 Apr 2026 21:00:49 +0000 hf-papers 拡散言語モデルテキスト生成ノイズスケジューリング自己条件付け連続拡散研究チームが連続拡散型言語モデル「LangFlow」を発表、離散拡散モデルと同等の性能を初めて達成。 Bregman発散によるFlow Matchingとeのノイズスケジューラを採用し、LM1BベンチマークでPPL 30.0を記録。自己回帰モデルをゼロショットタスクで上回る結果も示し、非自己回帰型LLMの可能性を大きく広げる。 ClaudeがTransformers→MLX移植PRを自動生成 https://huggingface.co/blog/transformers-to-mlx 48afc81fb0a9c7dcafd3ee74c0c304a4cd0ff83c Thu, 16 Apr 2026 18:00:49 +0000 hf-blog AI Agent MLX OSS コード自動変換 Transformers AnthropicのClaudeを活用し、TransformersモデルをApple MLXへ自動移植するPRエージェント手法が公開された。約1.5万語のスキルガイドでモデルを訓練し、OSSの暗黙的設計規約に準拠した高品質なPRを自動生成する。 AIエージェントがOSSコントリビューターの作業を代替・支援する新たな事例として注目される。 GoogleがChromeにAIモードを搭載、Geminiで対話型検索 https://blog.google/products-and-platforms/products/search/ai-mode-chrome 41df6fa88d2d339843330492864c917f496d8829 Thu, 16 Apr 2026 17:00:00 +0000 google-blog-ai Google Chrome AI検索 Gemini ブラウザ機能 GoogleはChromeブラウザに「AIモード」を導入し、Geminiを活用した対話型ウェブ検索機能を提供開始した。 URLバーやサイドパネルから自然言語で質問し、リアルタイムのウェブ情報を要約・取得できる。 AIによるウェブ体験の刷新として、検索エンジンの在り方を大きく変える可能性がある。 Google、Geminiアプリに自分が登場する画像生成機能を追加 https://blog.google/innovation-and-ai/products/gemini-app/personal-intelligence-nano-banana 79eaecd4404b843537d6aa9b1d1c652af9e0340f Thu, 16 Apr 2026 16:00:00 +0000 google-blog-ai Gemini 画像生成パーソナライズ GoogleはGeminiアプリに「Personal Intelligence」機能を追加し、ユーザー自身の写真を使ったパーソナライズ画像生成を実現した。 Gemini Nanoによるオンデバイス処理で、個人の外見や環境を反映した画像をプライバシー配慮型で生成できる。自分が登場するシーンを手軽に作れる体験は、AI画像生成の新たなユースケースとして注目される。 LLMスキルをコンパイル実行、速度50倍・トークン40%削減 https://huggingface.co/papers/2604.03088 7ba98bd325b2ae6c001211270efa5e8da92af5af Thu, 16 Apr 2026 15:00:49 +0000 hf-papers エージェントコンパイラスキル最適化 LLM実行基盤並列化研究チームがAIエージェントのスキルをAOT/JITコンパイルで異種LLM・環境に移植可能にする「SkVM」を発表。 8モデル・3ハーネスの評価でタスク完了率+15.3%、トークン消費40%削減、最大50倍の高速化を達成。マルチエージェント開発のコスト削減と実用化加速に大きく貢献する可能性がある。 Sentence Transformers、VLMの埋め込みモデル学習に対応 https://huggingface.co/blog/train-multimodal-sentence-transformers cda2d0b1dc422da5efc72263634d799b8b98e545 Thu, 16 Apr 2026 15:00:49 +0000 hf-blog multimodal embedding sentence-transformers VDR fine-tuning Sentence TransformersがVLMを用いたマルチモーダル埋め込み・再ランクモデルの学習機能を正式サポート。 Qwen3-VL-2BをVDRタスクでファインチューニングし、NDCG@10=0.947を達成——4倍大のモデルも凌駕。小型VLMの高精度化が容易になり、マルチモーダル検索システムの開発コスト削減に貢献。音声テキスト自動同期ツール「easyaligner」公開 https://huggingface.co/blog/KBLab/easyaligner 8ba7609e10c1f4f067ed64348246a604c8e3fc05 Thu, 16 Apr 2026 12:21:14 +0000 hf-blog 強制アラインメント音声処理データセット構築多言語対応音声とテキストを単語レベルで自動的に時刻対応させるPythonライブラリ「easyaligner」が公開された。 VAD・音響特徴抽出・Viterbiアルゴリズムの3段階処理で、数時間分の音声を分割なしに一括処理可能。字幕生成や音声コーパス構築など、音声AIの学習データ整備を大幅に効率化する。