HuggingFace Blog
要約済み 46
-
15時間前 ★3ClaudeがTransformers→MLX移植PRを自動生成The PR you would have opened yourself
AnthropicのClaudeを活用し、TransformersモデルをApple MLXへ自動移植するPRエージェント手法が公開された。 約1.5万語のスキルガイドでモデルを訓練し、OSSの暗黙的設計規約に準拠した高品質なPRを自動生成する。 AIエージェントがOSSコントリビューターの作業を代替・支援する新たな事例として注目される。
-
18時間前 ★4Sentence Transformers、VLMの埋め込みモデル学習に対応Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers
Sentence TransformersがVLMを用いたマルチモーダル埋め込み・再ランクモデルの学習機能を正式サポート。 Qwen3-VL-2BをVDRタスクでファインチューニングし、NDCG@10=0.947を達成——4倍大のモデルも凌駕。 小型VLMの高精度化が容易になり、マルチモーダル検索システムの開発コスト削減に貢献。
-
20時間前 ★3音声テキスト自動同期ツール「easyaligner」公開easyaligner: Forced alignment of text and audio, made easy
音声とテキストを単語レベルで自動的に時刻対応させるPythonライブラリ「easyaligner」が公開された。 VAD・音響特徴抽出・Viterbiアルゴリズムの3段階処理で、数時間分の音声を分割なしに一括処理可能。 字幕生成や音声コーパス構築など、音声AIの学習データ整備を大幅に効率化する。
-
1日前 ★3HCompany、AI操作エージェント「HoloTab」を無償公開Meet HoloTab by HCompany. Your AI browser companion.
HCompanyがChrome拡張「HoloTab」を無償リリース。自然言語指示だけでウェブ操作・データ収集を自動化するAIエージェントだ。 独自開発の35Bパラメータモデル「Holo3」が視覚認識と行動計画を統合し、反復作業を代替する。 コーディング不要でブラウザ自動化を実現し、ノンエンジニアのワークフロー効率化に貢献する可能性がある。
-
2日前 ★3訓練不要でTTSに感情表現、LLM重み3%移植で実現Darwin-TTS: We Gave a TTS Model 3% of an LLM's Brain — It Started Showing Emotion
LLMのFFN重みをTTSモデルに3%ブレンドするだけで感情的な音声合成を実現する手法「Darwin-TTS」が発表された。 追加学習・データ・GPU不要で約10秒で適用可能な初のクロスモーダル重み転送を達成。 Qwen3系モデルのアーキテクチャ一致を活用した本手法は、TTS開発のコスト削減に大きく貢献する。
-
3日前 ★3インド109言語の音声データセット「VAANI」公開、低リソース研究を加速When Speech AI Meets the Long Tail of Languages: Inside the VAANI Dataset
Googleらがインド109言語・165地区を網羅する大規模音声データセット「VAANI」を公開した。 話者15万人超・総収録3万時間超で、59の未文書化言語を初めて収録している。 地域音声変異の保存により、低リソース言語の音声認識・合成研究の飛躍的な進展が期待される。
-
3日前 ★3ターミナル特化コーディングAI「LiteCoder」公開、ベースラインを大幅超えReleasing LiteCoder-Terminal-SFT
ターミナル操作に特化したコーディングエージェント「LiteCoder-Terminal-SFT」が30B・4Bの2モデルでオープンソース公開。 11,255軌跡のデータセットと602環境を同梱、Terminal Bench Proで30BモデルがPass@1 31.5%を達成し既存ベースラインを大幅上回る。 エージェント開発者や研究者にとって実用的なターミナルAIの構築・評価基盤となる注目のリリース。
-
3日前 ★3mRNA言語モデル、165ドルで25種対応を実現Training mRNA Language Models Across 25 Species for $165
RoBERTaベースのコドン最適化モデルを25生物種対応の単一モデルとして構築・公開。 4×A100 GPUで55時間・約165ドルという低コストで学習を完了し、CAIスピアマン相関0.404を達成。 既存の専用モデルを上回る性能を低予算で実現し、生物情報学AIの民主化に貢献。
-
4日前 ★4訓練不要で744B超え——Darwin-27Bが最新手法で世界5位"Darwin-27B-Opus: Surpassing the Foundation Model Without Training"
研究チームがFFN層を進化的アルゴリズムでブレンドする新手法「Darwin-27B-Opus」を発表。 27BモデルがGPQA Diamondで86.9%を達成し、744Bの巨大モデルを上回る性能を実証。 H100×1台・約2時間という低コストで実現し、効率的なモデル強化の新たな道を開く。
-
5日前 ★3IBM、3B軽量VLMをOSSで公開——企業文書解析に特化Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents
IBMが3Bパラメータの視覚言語モデル「Granite 4.0 3B Vision」をApache 2.0ライセンスで公開。 表・チャート・帳票の構造化抽出に特化し、独自技術で大規模モデルに匹敵するベンチマーク性能を実現。 軽量・商用利用可・Docling連携対応で、企業のドキュメントAI導入ハードルを大幅に下げる。
-
5日前 ★3Gradio、バックエンド単独利用を可能にする新機能を公開Any Custom Frontend with Gradio's Backend
HuggingFaceがGradioのバックエンドを任意のフロントエンドと組み合わせられる「Gradio Server」機能を公開。 キュー管理・ZeroGPU対応・gradio_client互換を維持しつつ、約50行のPythonでMLバックエンドを構築可能。 UIの自由度が大幅に向上し、本番環境向けAIアプリ開発のハードルが下がる。
-
5日前 ★4Falcon Perception、0.6BモデルでSAM 3を大きく超える性能を達成Falcon Perception
オープン語彙セグメンテーション・物体検出モデル「Falcon Perception」(0.6B)が公開された。 早期融合Transformerを採用し、SAM 3を空間理解で+21.9pt、属性認識で+9.2pt上回る。 コンパニオンのFalcon OCR(0.3B)はGPT-4oやDeepSeek OCR v2をも凌駕し、軽量モデルの可能性を示す。
-
5日前 ★4H Company、PC操作AIでSOTA更新——GPT-5.4超えHolo3: Breaking the Computer Use Frontier
H CompanyがGUI操作エージェント「Holo3」をApache 2.0ライセンスで公開した。 35Bパラメータ(活性10B)ながらOSWorld-Verifiedで78.85%を達成し、GPT-5.4やClaude Opus 4.6を上回る。 合成データと強化学習の3段階パイプラインで企業向けマルチアプリ自動操作を実現し、小規模モデルの可能性を示した。
-
5日前 ★4GoogleがGemma 4公開、スマホでも動くマルチモーダルAIWelcome Gemma 4: Frontier multimodal intelligence on device
GoogleがApache 2.0ライセンスのマルチモーダルモデル群「Gemma 4」(2.3B〜31B)を公開。 PLE・共有KVキャッシュなど新アーキテクチャで効率・長文脈処理を大幅改善、画像・音声・動画に対応。 ブラウザやスマホ上でも動作可能な軽量設計で、エッジAI開発の選択肢が一気に広がる。
-
5日前 ★3SafetensorsがPyTorch Foundation傘下に、標準化加速へSafetensors is Joining the PyTorch Foundation
Hugging Face発のモデル重み保存形式SafetensorsがPyTorch Foundationへ移管された。 Pickleと異なり任意コード実行不可・ゼロコピー読込対応で、安全性と速度を両立する形式。 ベンダー中立のガバナンス下でPyTorchコア統合やFP8量子化対応が計画され、業界標準化が進む。
-
5日前 ★3AIエージェントが実務から自己学習、成功率74%向上ALTK‑Evolve: On‑the‑Job Learning for AI Agents
研究チームがAIエージェントの過去実行履歴から再利用可能な原則を抽出・蓄積するフレームワーク「ALTK-Evolve」を発表。 AppWorldベンチマークの難問成功率が19.1%→33.3%と大幅に改善、長期記憶による継続的な性能向上を実証。 Claude CodeやOpenAI Codexにプラグイン形式で統合可能で、実用的なエージェント開発に即座に活用できる。
-
5日前 ★3Sentence Transformers v5.4、テキスト・画像・音声・動画を統一APIで埋め込み対応Multimodal Embedding & Reranker Models with Sentence Transformers
Sentence Transformers v5.4がリリースされ、テキスト・画像・音声・動画を単一APIで埋め込み可能に。 Qwen3-VLなど最新マルチモーダルモデルを活用したクロスモーダル検索・リランキングを実装。 Retrieve & Rerankパイプラインにより、RAGシステムの検索精度向上が期待される。
-
5日前 ★3Waypoint-1.5公開、消費者GPUでリアル世界生成を実現Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs
World Labsがリアルタイム映像世界モデル「Waypoint-1.5」を公開した。 720p/60FPS対応の2層構成で前版比約100倍のデータ学習により環境一貫性が大幅向上。 RTX 3090からApple Siliconまで幅広く対応し、ゲーム・シミュレーション分野への普及が加速する見込み。
-
6日前 ★3llama.cppでOCRモデルのローカル実行が可能にUsing OCR models with llama.cpp1 day ago•19
llama.cppがGGUF形式でGLM-OCRなど軽量OCRモデルの実行をサポート。 4GB VRAM以下のGPUやCPUでも動作し、Q8_0量子化でパフォーマンスとサイズのバランスを調整可能。 サーバーモードによるAPI連携も実現し、外部サービス不要のローカルOCR環境が個人でも構築できる。
-
8日前 ★3非生成AI手法で法務文書レビューの幻覚ゼロを実現Building Harvey-style tabular review from scratch, but better3 days ago•7
Harvey風の法務文書レビューを、生成AIを使わない手法で再構築した研究が公開された。 知識グラフ抽出・法務特化埋め込み・QA型エンティティリンクの3段階パイプラインで、幻覚ゼロ・低コスト・高精度を達成。 Harveyなど生成AI法務ツールの信頼性課題に代替アプローチを示し、エンタープライズ法務AI開発者に注目される。
-
9日前 ★3Darwin V6、進化的アルゴリズムでモデルマージを刷新Darwin V6: Diagnostic-Guided Evolutionary Model Merging4 days ago•11
診断誘導型の進化的モデルマージ手法「Darwin V6」が発表された。 テンソル単位の静的解析とCMA-ES進化アルゴリズムで最適なマージ比率を自動探索し、GPQA Diamondで+5.8%の性能向上を達成。 均一マージに依存してきたモデル統合の手法を根本から見直す新たなパラダイムを提示した。
-
9日前 ★4研究者、生成LLMを双方向エンコーダに変換する新手法を発表BidirLM: Turning Generative LLMs into the Best Open-Source Omnimodal Encoders4 days ago•23
因果的LLMを2段階適応(マスク予測+対比学習)で双方向エンコーダに転換する「BidirLM」が登場。 テキスト・画像・音声を統合する250GPU時間の軽量学習で、MTEB/MIEBにて最高水準の性能を達成。 既存の生成モデルをRAGや検索基盤に転用できる道を開き、エンコーダ開発コストの大幅削減に貢献。
-
9日前 ★3Codexが3万論文OCRを自律設計、コスト半減How we OCR'ed 30,000 papers using Codex, open OCR models and Jobs4 days ago•39
arXiv上のHTML未対応論文3万件をMarkdownへ変換するOCRパイプラインをOpenAI Codexが自律的に構築。 オープンOCRモデルとHugging Face Jobsを組み合わせ、処理コストを約850ドルに抑えAPI比最大68%削減。 LLMによるインフラ設計・実行の自動化が示され、研究データ整備の新たな手法として注目される。
-
14日前 ★3EAGLE3、LLM推論を最大6.5倍高速化と発表Speculative Decoding in Practice: How EAGLE3 Makes LLMs Faster Without Changing Their Outputs9 days ago•5
UC BerkeleyらがEAGLE3を発表、投機的デコーディングでLLM推論速度を最大6.5倍に向上。 三層特徴融合による高精度ドラフトモデルで出力品質を数学的に保証、H100単体でも1.39倍を実証。 GPUの遊休リソースを活用しサーバーコスト約40%削減が見込まれ、商用LLM運用に直接応用可能。
-
14日前 ★3AIエージェントにスタートアップ経営させるベンチマーク登場YC-Bench: Can Your AI Agent Run a Startup Without Going Bankrupt?9 days ago•6
20万ドル・1年間のスタートアップ経営をAIに任せる「YC-Bench」が公開された。 12モデル中、資金を増やせたのはClaude Opus・GLM-5・GPT-5.4の3モデルのみ。 推論と実行の乖離や持続的記憶の活用が、エージェント実用化の鍵と示した。
-
14日前 ★2アルメニア語初の包括的LLMベンチマーク公開ArmBench-LLM 1.0: Benchmarking LLMs on Armenian Language Tasks9 days ago•7
アルメニア語7タスクでLLMを評価する初の包括的ベンチマーク「ArmBench-LLM 1.0」が公開された。 Gemini 3 Flashが最高スコアかつ低コストで首位、OSSのQwen 3.5-27Bが600B超モデルを凌駕。 低リソース言語へのLLM対応評価手法として、多言語AI開発に重要な指針を提供する。
-
17日前 ★3Codexでモデル移植が数時間に短縮、開発者が実証How I contributed a new model to the Transformers library using Codex12 days ago•44
Hugging Face開発者がOpenAI Codexを活用し、VidEoMTモデルをTransformersライブラリに数時間で移植することに成功した。 従来は数週間〜数ヶ月を要していた作業をAIエージェントが劇的に短縮し、progress.mdによる記憶管理など実践的ノウハウも公開。 OSS貢献の障壁低下とAIエージェント活用の新たな可能性を示す事例として注目を集めている。
-
1ヶ月前 ★3NVIDIAが4B小型ハイブリッドモデルを公開、エッジAIに最適化Nemotron 3 Nano 4B: A Compact Hybrid Model for Efficient Local AI25 days ago•62
NVIDIAがMamba+Transformerのハイブリッド構造を採用した4BパラメータモデルNemotron 3 Nano 4Bを公開。 9Bモデルからの蒸留により4Bクラス最高水準の指示追従・エージェント性能を実現、FP8で1.8倍高速化。 Jetson/RTXなどエッジデバイスでのローカルAI活用を大幅に拡大する可能性がある。
-
1ヶ月前 ★4SenseTime、エンコーダ不要のマルチモーダルAIを発表NEO-unify: Building Native Multimodal Unified Models End to End
SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。 データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。
-
2ヶ月前 ★4LightOn、1BパラメータでGPT-4V級OCRを実現LightOnOCR-2-1B: a lightweight high-performance end-to-end OCR model family
LightOnが軽量エンドツーエンドOCRモデル「LightOnOCR-2-1B」を公開した。 OlmOCR-Benchで83.2点を達成し、9B超の大型モデルを性能・処理速度で上回る。 Apache 2.0ライセンスで無償公開され、エッジ環境での高精度OCR導入が現実的に。
-
2ヶ月前 ★3llama.cpp、Anthropic API互換に対応——Claude CodeをローカルでNew in llama.cpp: Anthropic Messages APIJan 19•43
llama.cppのサーバーがAnthropicのMessages API形式をネイティブサポート。 ツール使用・ビジョン・拡張思考・ストリーミングなど主要機能を網羅。 Claude Codeなどのクライアントをクラウド不要でローカルモデルに接続可能に。
-
3ヶ月前 ★2PPO損失関数を数学的に完全導出——LLM強化学習の仕組みを解説Deriving the PPO Loss from First PrinciplesDec 25, 2025•40
強化学習アルゴリズムPPOの損失関数を基礎原理から段階的に導出する教育コンテンツが公開された。 REINFORCE→アドバンテージ推定→重点サンプリング→クリッピングという流れで数式ベースに解説。 LLMのRLHFやDPOを理解する上での基礎固めとして、AI研究者・エンジニアに有益な資料となる。
-
5ヶ月前 ★2LLM拒否機構の精密除去法、性能劣化を最小化Projected AbliterationOct 25, 2025•42
LLMの拒否行動を除去するabliteration手法の改良版が研究者により発表された。 拒否方向を直交成分のみに制限し、Gemma 3 12Bで有効性を実証。 拒否と有害性が別々に符号化されている知見はLLM安全研究に新たな示唆を与える。
-
6ヶ月前 ★2低コストロボットでACT訓練、3回目で成功率75%How I Trained Action Chunking Transformer (ACT) on SO-101: My Journey, Gotchas, and LessonsSep 30, 2025•66
低コストロボットSO-101にAction Chunking Transformerを実装した実践記録が公開された。 初回はカメラ配置・データ多様性の不足で成功率10%に終わったが、データ戦略の改善で75%を達成。 ロボット学習参入者にとってカメラ設定やデータ収集の落とし穴を示す実用的なガイドとなる。
-
7ヶ月前 ★4PII保護SLMシリーズ公開、GPT-4.1に迫る性能Anonymizer SLM series: Privacy-first PII replacement models (0.6B/1.7B/4B)
外部LLM送信前にPIIをローカル検出・置換する小型言語モデル(0.6B〜4B)シリーズがリリースされた。 GRPO強化学習により1.7B/4Bモデルがスコア9.2〜9.55/10を達成し、GPT-4.1(9.77)に肉薄する性能を実現。 プライバシー規制対応が求められる企業や医療・法務分野での実用導入を大きく後押しする。
-
8ヶ月前 ★4GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111
研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。
-
1年前 ★2エッジAI時代の本命SLM、主要モデルを徹底解剖Small Language Models (SLM): A Comprehensive OverviewFeb 22, 2025•147
1M〜10Bパラメータの小規模言語モデル(SLM)を網羅的に解説した技術記事が公開された。 Llama3.2・Phi-3.5・Gemma3など主要SLMを比較し、蒸留・量子化等の圧縮技術を体系整理。 エッジ・モバイル展開を目指す開発者にとって実践的な参照資料となる内容。
-
1年前 ★2LLM強化学習を徹底解説——PPOとDPOの理論と限界Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM AlignmentFeb 11, 2025•116
RLHFの各手法(PPO・GAE・DPO)の数学的導出をチェスの比喩で段階的に解説した技術記事が公開された。 オンライン学習のPPOとオフライン学習のDPOを理論面から比較し、それぞれの長短を明示。 DPOの分布外応答リスクやデータ品質依存といった実用上の落とし穴も具体例付きで指摘。
-
1年前 ★1消費者向けGPUでLLMを効率ファインチューニング、LoRA+量子化で50MBに圧縮Fine-Tuning Your First Large Language Model (LLM) with PyTorch and Hugging FaceFeb 11, 2025•115
PyTorchとHugging Faceを使い、Phi-3 MiniをLoRAと4bit量子化で効率的にファインチューニングする手法が公開された。 学習パラメータをわずか0.33%に絞り、6GB GPUで約35分・アダプタサイズ50MBを実現。 高価なGPUなしでLLMカスタマイズが可能になり、個人開発者や研究者の参入障壁を大幅に下げる。
-
1年前 ★2DeepSeek-R1採用のGRPO、PPOとの違いをわかりやすく解説DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning KnowledgeFeb 7, 2025•286
強化学習の予備知識不要でPPOとGRPOを解説した技術入門記事が公開された。 GRPOはPPOから価値関数ネットワークを除き、グループ平均で代替する手法でメモリ・計算コストを大幅削減。 DeepSeek-R1の訓練効率の秘密を理解したいLLM開発者・研究者に必読の内容。
-
1年前 ★3MoE LLMの負荷分散、DeepSeek-V3手法がベストプラクティスにA Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons
研究者らがMoE LLMにおける負荷分散戦略の歴史的変遷を体系的にレビューした論文を発表。 GShard〜DeepSeek-V3まで各手法を比較し、ルーティング崩壊やトークンドロップの根本原因を分析。 DeepSeek-V3のバイアスベース補助損失フリー手法が最新の設計指針として注目される。
-
1年前 ★1Transformerのテンソル変化、図解付き解説記事が公開Mastering Tensor Dimensions in TransformersJan 12, 2025•158
Transformerの各層(Embedding→Attention→FFN→LM Head)におけるテンソル形状の変化を図解付きで体系的に解説した技術記事が公開された。 Multi-Head Attentionでのヘッド分割・転置・マスク処理を具体的な数値例で追跡し、Cross-Attentionも網羅。 モデル実装や内部構造の理解を深めたいエンジニア・研究者にとって実践的な学習リソースとなる。
-
1年前 ★3専門UI操作でGPT-4oが0.8%——新BM公開✴️ ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use
高解像度プロ向けGUIでのAI操作能力を評価するベンチマーク「ScreenSpot-Pro」が公開された CAD・IDEなど23種の専門アプリで1581タスクを収録し、人間の専門家が注釈付け GPT-4oのスコアはわずか0.8%と壊滅的で、現行モデルの実務UI対応の限界を浮き彫りにした
-
1年前 ★2Hugging Faceでゼロから学ぶRAG実装ガイド公開Code a simple RAG from scratch
RAGシステムをスクラッチで構築するチュートリアルがHugging Faceより公開された。 ドキュメント分割・埋め込み・検索・生成の4ステップを最小構成で丁寧に解説。 LLMへの外部知識統合を学びたい開発者にとって実践的な入門資料となる。
-
1年前 ★2VQ-VAEのベクトル量子化をPyTorchで完全解説Understanding Vector Quantization in VQ-VAE
VQ-VAEの核心であるベクトル量子化の仕組みをPyTorch実装で段階的に解説する技術記事が公開された。 コードブック距離計算・最近傍選択・STE(Straight-Through Estimator)による勾配近似まで全工程を網羅。 生成モデルや音声合成の基盤技術を深く理解したいAI開発者にとって実践的な学習リソースとなる。
-
1年前 ★3LLM安全機構を無効化する新手法「アブリテレーション」公開Uncensor any LLM with abliterationJun 13, 2024•838
LLMの拒否行動を制御する残差ストリーム上の「拒否方向」を特定・除去する手法が公開された。 再学習不要で重み直交化により安全フィルタを恒久的に無効化し、DPOファインチューニングで性能低下を回復する。 AI安全機構の構造的脆弱性を示す研究として、LLM開発者・セキュリティ研究者コミュニティに広く影響を与える。