HuggingFace Blog

15時間前 ★3

The PR you would have opened yourself

AnthropicのClaudeを活用し、TransformersモデルをApple MLXへ自動移植するPRエージェント手法が公開された。約1.5万語のスキルガイドでモデルを訓練し、OSSの暗黙的設計規約に準拠した高品質なPRを自動生成する。 AIエージェントがOSSコントリビューターの作業を代替・支援する新たな事例として注目される。

AI Agent MLX OSS コード自動変換 Transformers

18時間前 ★4

Sentence Transformers、VLMの埋め込みモデル学習に対応

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Sentence TransformersがVLMを用いたマルチモーダル埋め込み・再ランクモデルの学習機能を正式サポート。 Qwen3-VL-2BをVDRタスクでファインチューニングし、NDCG@10=0.947を達成——4倍大のモデルも凌駕。小型VLMの高精度化が容易になり、マルチモーダル検索システムの開発コスト削減に貢献。

multimodal embedding sentence-transformers VDR fine-tuning

20時間前 ★3

音声テキスト自動同期ツール「easyaligner」公開

easyaligner: Forced alignment of text and audio, made easy

音声とテキストを単語レベルで自動的に時刻対応させるPythonライブラリ「easyaligner」が公開された。 VAD・音響特徴抽出・Viterbiアルゴリズムの3段階処理で、数時間分の音声を分割なしに一括処理可能。字幕生成や音声コーパス構築など、音声AIの学習データ整備を大幅に効率化する。

強制アラインメント音声処理データセット構築多言語対応

1日前 ★3

HCompany、AI操作エージェント「HoloTab」を無償公開

Meet HoloTab by HCompany. Your AI browser companion.

HCompanyがChrome拡張「HoloTab」を無償リリース。自然言語指示だけでウェブ操作・データ収集を自動化するAIエージェントだ。独自開発の35Bパラメータモデル「Holo3」が視覚認識と行動計画を統合し、反復作業を代替する。コーディング不要でブラウザ自動化を実現し、ノンエンジニアのワークフロー効率化に貢献する可能性がある。

ブラウザ自動化 AIエージェントコンピュータユース Chrome拡張

2日前 ★3

訓練不要でTTSに感情表現、LLM重み3%移植で実現

Darwin-TTS: We Gave a TTS Model 3% of an LLM's Brain — It Started Showing Emotion

LLMのFFN重みをTTSモデルに3%ブレンドするだけで感情的な音声合成を実現する手法「Darwin-TTS」が発表された。追加学習・データ・GPU不要で約10秒で適用可能な初のクロスモーダル重み転送を達成。 Qwen3系モデルのアーキテクチャ一致を活用した本手法は、TTS開発のコスト削減に大きく貢献する。

音声合成クロスモーダル重み転送

3日前 ★3

インド109言語の音声データセット「VAANI」公開、低リソース研究を加速

When Speech AI Meets the Long Tail of Languages: Inside the VAANI Dataset

Googleらがインド109言語・165地区を網羅する大規模音声データセット「VAANI」を公開した。話者15万人超・総収録3万時間超で、59の未文書化言語を初めて収録している。地域音声変異の保存により、低リソース言語の音声認識・合成研究の飛躍的な進展が期待される。

低リソース言語音声データセット多言語インド語

3日前 ★3

ターミナル特化コーディングAI「LiteCoder」公開、ベースラインを大幅超え

Releasing LiteCoder-Terminal-SFT

ターミナル操作に特化したコーディングエージェント「LiteCoder-Terminal-SFT」が30B・4Bの2モデルでオープンソース公開。 11,255軌跡のデータセットと602環境を同梱、Terminal Bench Proで30BモデルがPass@1 31.5%を達成し既存ベースラインを大幅上回る。エージェント開発者や研究者にとって実用的なターミナルAIの構築・評価基盤となる注目のリリース。

コーディングエージェント SFT ターミナル操作オープンソース

3日前 ★3

mRNA言語モデル、165ドルで25種対応を実現

Training mRNA Language Models Across 25 Species for $165

RoBERTaベースのコドン最適化モデルを25生物種対応の単一モデルとして構築・公開。 4×A100 GPUで55時間・約165ドルという低コストで学習を完了し、CAIスピアマン相関0.404を達成。既存の専用モデルを上回る性能を低予算で実現し、生物情報学AIの民主化に貢献。

mRNA コドン最適化バイオインフォマティクス言語モデルタンパク質工学

4日前 ★4

訓練不要で744B超え——Darwin-27Bが最新手法で世界5位

"Darwin-27B-Opus: Surpassing the Foundation Model Without Training"

研究チームがFFN層を進化的アルゴリズムでブレンドする新手法「Darwin-27B-Opus」を発表。 27BモデルがGPQA Diamondで86.9%を達成し、744Bの巨大モデルを上回る性能を実証。 H100×1台・約2時間という低コストで実現し、効率的なモデル強化の新たな道を開く。

モデルマージ進化的アルゴリズム GPQA 効率的AI開発 FFN移植

5日前 ★3

IBM、3B軽量VLMをOSSで公開——企業文書解析に特化

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

IBMが3Bパラメータの視覚言語モデル「Granite 4.0 3B Vision」をApache 2.0ライセンスで公開。表・チャート・帳票の構造化抽出に特化し、独自技術で大規模モデルに匹敵するベンチマーク性能を実現。軽量・商用利用可・Docling連携対応で、企業のドキュメントAI導入ハードルを大幅に下げる。

マルチモーダル企業向けAI 文書理解オープンソース IBM

5日前 ★3

Gradio、バックエンド単独利用を可能にする新機能を公開

Any Custom Frontend with Gradio's Backend

HuggingFaceがGradioのバックエンドを任意のフロントエンドと組み合わせられる「Gradio Server」機能を公開。キュー管理・ZeroGPU対応・gradio_client互換を維持しつつ、約50行のPythonでMLバックエンドを構築可能。 UIの自由度が大幅に向上し、本番環境向けAIアプリ開発のハードルが下がる。

Gradio フロントエンド MLOps FastAPI Hugging Face

5日前 ★4

Falcon Perception、0.6BモデルでSAM 3を大きく超える性能を達成

Falcon Perception

オープン語彙セグメンテーション・物体検出モデル「Falcon Perception」（0.6B）が公開された。早期融合Transformerを採用し、SAM 3を空間理解で+21.9pt、属性認識で+9.2pt上回る。コンパニオンのFalcon OCR（0.3B）はGPT-4oやDeepSeek OCR v2をも凌駕し、軽量モデルの可能性を示す。

マルチモーダルセグメンテーション OCR 軽量モデルオープンソース

5日前 ★4

H Company、PC操作AIでSOTA更新——GPT-5.4超え

Holo3: Breaking the Computer Use Frontier

H CompanyがGUI操作エージェント「Holo3」をApache 2.0ライセンスで公開した。 35Bパラメータ（活性10B）ながらOSWorld-Verifiedで78.85%を達成し、GPT-5.4やClaude Opus 4.6を上回る。合成データと強化学習の3段階パイプラインで企業向けマルチアプリ自動操作を実現し、小規模モデルの可能性を示した。

computer-use GUI-agent OSWorld open-weight enterprise-automation

5日前 ★4

GoogleがGemma 4公開、スマホでも動くマルチモーダルAI

Welcome Gemma 4: Frontier multimodal intelligence on device

GoogleがApache 2.0ライセンスのマルチモーダルモデル群「Gemma 4」（2.3B〜31B）を公開。 PLE・共有KVキャッシュなど新アーキテクチャで効率・長文脈処理を大幅改善、画像・音声・動画に対応。ブラウザやスマホ上でも動作可能な軽量設計で、エッジAI開発の選択肢が一気に広がる。

マルチモーダルオンデバイスAI オープンソース MoE Google

5日前 ★3

SafetensorsがPyTorch Foundation傘下に、標準化加速へ

Safetensors is Joining the PyTorch Foundation

Hugging Face発のモデル重み保存形式SafetensorsがPyTorch Foundationへ移管された。 Pickleと異なり任意コード実行不可・ゼロコピー読込対応で、安全性と速度を両立する形式。ベンダー中立のガバナンス下でPyTorchコア統合やFP8量子化対応が計画され、業界標準化が進む。

Safetensors PyTorch モデル配布セキュリティオープンソース

5日前 ★3

AIエージェントが実務から自己学習、成功率74%向上

ALTK‑Evolve: On‑the‑Job Learning for AI Agents

研究チームがAIエージェントの過去実行履歴から再利用可能な原則を抽出・蓄積するフレームワーク「ALTK-Evolve」を発表。 AppWorldベンチマークの難問成功率が19.1%→33.3%と大幅に改善、長期記憶による継続的な性能向上を実証。 Claude CodeやOpenAI Codexにプラグイン形式で統合可能で、実用的なエージェント開発に即座に活用できる。

エージェント長期記憶自己改善 IBM Research

5日前 ★3

Sentence Transformers v5.4、テキスト・画像・音声・動画を統一APIで埋め込み対応

Multimodal Embedding & Reranker Models with Sentence Transformers

Sentence Transformers v5.4がリリースされ、テキスト・画像・音声・動画を単一APIで埋め込み可能に。 Qwen3-VLなど最新マルチモーダルモデルを活用したクロスモーダル検索・リランキングを実装。 Retrieve & Rerankパイプラインにより、RAGシステムの検索精度向上が期待される。

マルチモーダル埋め込みモデル Sentence Transformers リランキング RAG

5日前 ★3

Waypoint-1.5公開、消費者GPUでリアル世界生成を実現

Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs

World Labsがリアルタイム映像世界モデル「Waypoint-1.5」を公開した。 720p/60FPS対応の2層構成で前版比約100倍のデータ学習により環境一貫性が大幅向上。 RTX 3090からApple Siliconまで幅広く対応し、ゲーム・シミュレーション分野への普及が加速する見込み。

世界モデルリアルタイム生成消費者GPU ビデオ生成インタラクティブ

6日前 ★3

llama.cppでOCRモデルのローカル実行が可能に

Using OCR models with llama.cpp1 day ago•19

llama.cppがGGUF形式でGLM-OCRなど軽量OCRモデルの実行をサポート。 4GB VRAM以下のGPUやCPUでも動作し、Q8_0量子化でパフォーマンスとサイズのバランスを調整可能。サーバーモードによるAPI連携も実現し、外部サービス不要のローカルOCR環境が個人でも構築できる。

OCR llama.cpp GGUF ローカル推論量子化

8日前 ★3

非生成AI手法で法務文書レビューの幻覚ゼロを実現

Building Harvey-style tabular review from scratch, but better3 days ago•7

Harvey風の法務文書レビューを、生成AIを使わない手法で再構築した研究が公開された。知識グラフ抽出・法務特化埋め込み・QA型エンティティリンクの3段階パイプラインで、幻覚ゼロ・低コスト・高精度を達成。 Harveyなど生成AI法務ツールの信頼性課題に代替アプローチを示し、エンタープライズ法務AI開発者に注目される。

法務AI 知識グラフ文書レビュー NLP 埋め込みモデル

9日前 ★3

Darwin V6、進化的アルゴリズムでモデルマージを刷新

Darwin V6: Diagnostic-Guided Evolutionary Model Merging4 days ago•11

診断誘導型の進化的モデルマージ手法「Darwin V6」が発表された。テンソル単位の静的解析とCMA-ES進化アルゴリズムで最適なマージ比率を自動探索し、GPQA Diamondで+5.8%の性能向上を達成。均一マージに依存してきたモデル統合の手法を根本から見直す新たなパラダイムを提示した。

model-merging evolutionary-algorithm open-weight benchmark

9日前 ★4

研究者、生成LLMを双方向エンコーダに変換する新手法を発表

BidirLM: Turning Generative LLMs into the Best Open-Source Omnimodal Encoders4 days ago•23

因果的LLMを2段階適応（マスク予測＋対比学習）で双方向エンコーダに転換する「BidirLM」が登場。テキスト・画像・音声を統合する250GPU時間の軽量学習で、MTEB/MIEBにて最高水準の性能を達成。既存の生成モデルをRAGや検索基盤に転用できる道を開き、エンコーダ開発コストの大幅削減に貢献。

エンコーダマルチモーダルモデルマージ埋め込みオープンソース

9日前 ★3

Codexが3万論文OCRを自律設計、コスト半減

How we OCR'ed 30,000 papers using Codex, open OCR models and Jobs4 days ago•39

arXiv上のHTML未対応論文3万件をMarkdownへ変換するOCRパイプラインをOpenAI Codexが自律的に構築。オープンOCRモデルとHugging Face Jobsを組み合わせ、処理コストを約850ドルに抑えAPI比最大68%削減。 LLMによるインフラ設計・実行の自動化が示され、研究データ整備の新たな手法として注目される。

OCR 大規模処理 Hugging Face Codex オープンモデル

14日前 ★3

EAGLE3、LLM推論を最大6.5倍高速化と発表

Speculative Decoding in Practice: How EAGLE3 Makes LLMs Faster Without Changing Their Outputs9 days ago•5

UC BerkeleyらがEAGLE3を発表、投機的デコーディングでLLM推論速度を最大6.5倍に向上。三層特徴融合による高精度ドラフトモデルで出力品質を数学的に保証、H100単体でも1.39倍を実証。 GPUの遊休リソースを活用しサーバーコスト約40%削減が見込まれ、商用LLM運用に直接応用可能。

推論高速化投機的デコーディング EAGLE3 LLM最適化

14日前 ★3

AIエージェントにスタートアップ経営させるベンチマーク登場

YC-Bench: Can Your AI Agent Run a Startup Without Going Bankrupt?9 days ago•6

20万ドル・1年間のスタートアップ経営をAIに任せる「YC-Bench」が公開された。 12モデル中、資金を増やせたのはClaude Opus・GLM-5・GPT-5.4の3モデルのみ。推論と実行の乖離や持続的記憶の活用が、エージェント実用化の鍵と示した。

ベンチマーク AIエージェント長期推論スタートアップシミュレーション

14日前 ★2

アルメニア語初の包括的LLMベンチマーク公開

ArmBench-LLM 1.0: Benchmarking LLMs on Armenian Language Tasks9 days ago•7

アルメニア語7タスクでLLMを評価する初の包括的ベンチマーク「ArmBench-LLM 1.0」が公開された。 Gemini 3 Flashが最高スコアかつ低コストで首位、OSSのQwen 3.5-27Bが600B超モデルを凌駕。低リソース言語へのLLM対応評価手法として、多言語AI開発に重要な指針を提供する。

ベンチマーク低資源言語多言語LLM アルメニア語

17日前 ★3

Codexでモデル移植が数時間に短縮、開発者が実証

How I contributed a new model to the Transformers library using Codex12 days ago•44

Hugging Face開発者がOpenAI Codexを活用し、VidEoMTモデルをTransformersライブラリに数時間で移植することに成功した。従来は数週間〜数ヶ月を要していた作業をAIエージェントが劇的に短縮し、progress.mdによる記憶管理など実践的ノウハウも公開。 OSS貢献の障壁低下とAIエージェント活用の新たな可能性を示す事例として注目を集めている。

Codex HuggingFace Transformers コーディングエージェントモデル移植

1ヶ月前 ★3

NVIDIAが4B小型ハイブリッドモデルを公開、エッジAIに最適化

Nemotron 3 Nano 4B: A Compact Hybrid Model for Efficient Local AI25 days ago•62

NVIDIAがMamba+Transformerのハイブリッド構造を採用した4BパラメータモデルNemotron 3 Nano 4Bを公開。 9Bモデルからの蒸留により4Bクラス最高水準の指示追従・エージェント性能を実現、FP8で1.8倍高速化。 Jetson/RTXなどエッジデバイスでのローカルAI活用を大幅に拡大する可能性がある。

エッジAI モデル圧縮 Mamba NVIDIA 軽量LLM

1ヶ月前 ★4

SenseTime、エンコーダ不要のマルチモーダルAIを発表

NEO-unify: Building Native Multimodal Unified Models End to End

SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。

マルチモーダル画像生成エンコーダフリー統合モデル SenseTime

2ヶ月前 ★4

LightOn、1BパラメータでGPT-4V級OCRを実現

LightOnOCR-2-1B: a lightweight high-performance end-to-end OCR model family

LightOnが軽量エンドツーエンドOCRモデル「LightOnOCR-2-1B」を公開した。 OlmOCR-Benchで83.2点を達成し、9B超の大型モデルを性能・処理速度で上回る。 Apache 2.0ライセンスで無償公開され、エッジ環境での高精度OCR導入が現実的に。

OCR 軽量モデル文書解析視覚言語モデル RLVR

2ヶ月前 ★3

llama.cpp、Anthropic API互換に対応——Claude Codeをローカルで

New in llama.cpp: Anthropic Messages APIJan 19•43

llama.cppのサーバーがAnthropicのMessages API形式をネイティブサポート。ツール使用・ビジョン・拡張思考・ストリーミングなど主要機能を網羅。 Claude Codeなどのクライアントをクラウド不要でローカルモデルに接続可能に。

llama.cpp Anthropic API ローカルLLM Claude Code

3ヶ月前 ★2

PPO損失関数を数学的に完全導出——LLM強化学習の仕組みを解説

Deriving the PPO Loss from First PrinciplesDec 25, 2025•40

強化学習アルゴリズムPPOの損失関数を基礎原理から段階的に導出する教育コンテンツが公開された。 REINFORCE→アドバンテージ推定→重点サンプリング→クリッピングという流れで数式ベースに解説。 LLMのRLHFやDPOを理解する上での基礎固めとして、AI研究者・エンジニアに有益な資料となる。

PPO RLHF 強化学習 LLMファインチューニング教育

5ヶ月前 ★2

LLM拒否機構の精密除去法、性能劣化を最小化

Projected AbliterationOct 25, 2025•42

LLMの拒否行動を除去するabliteration手法の改良版が研究者により発表された。拒否方向を直交成分のみに制限し、Gemma 3 12Bで有効性を実証。拒否と有害性が別々に符号化されている知見はLLM安全研究に新たな示唆を与える。

LLM安全性 abliteration モデル編集 refusal除去機械的解釈可能性

6ヶ月前 ★2

低コストロボットでACT訓練、3回目で成功率75%

How I Trained Action Chunking Transformer (ACT) on SO-101: My Journey, Gotchas, and LessonsSep 30, 2025•66

低コストロボットSO-101にAction Chunking Transformerを実装した実践記録が公開された。初回はカメラ配置・データ多様性の不足で成功率10%に終わったが、データ戦略の改善で75%を達成。ロボット学習参入者にとってカメラ設定やデータ収集の落とし穴を示す実用的なガイドとなる。

ロボティクス模倣学習 Action Chunking Transformer 実践ガイド

7ヶ月前 ★4

PII保護SLMシリーズ公開、GPT-4.1に迫る性能

Anonymizer SLM series: Privacy-first PII replacement models (0.6B/1.7B/4B)

外部LLM送信前にPIIをローカル検出・置換する小型言語モデル（0.6B〜4B）シリーズがリリースされた。 GRPO強化学習により1.7B/4Bモデルがスコア9.2〜9.55/10を達成し、GPT-4.1（9.77）に肉薄する性能を実現。プライバシー規制対応が求められる企業や医療・法務分野での実用導入を大きく後押しする。

PII匿名化プライバシー保護小型言語モデル強化学習エッジAI

8ヶ月前 ★4

GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新

From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111

研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。

RLHF 強化学習 LLM訓練 MoE ポリシー最適化

1年前 ★2

エッジAI時代の本命SLM、主要モデルを徹底解剖

Small Language Models (SLM): A Comprehensive OverviewFeb 22, 2025•147

1M〜10Bパラメータの小規模言語モデル（SLM）を網羅的に解説した技術記事が公開された。 Llama3.2・Phi-3.5・Gemma3など主要SLMを比較し、蒸留・量子化等の圧縮技術を体系整理。エッジ・モバイル展開を目指す開発者にとって実践的な参照資料となる内容。

SLM モデル圧縮エッジAI 知識蒸留 LoRA

1年前 ★2

LLM強化学習を徹底解説——PPOとDPOの理論と限界

Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM AlignmentFeb 11, 2025•116

RLHFの各手法（PPO・GAE・DPO）の数学的導出をチェスの比喩で段階的に解説した技術記事が公開された。オンライン学習のPPOとオフライン学習のDPOを理論面から比較し、それぞれの長短を明示。 DPOの分布外応答リスクやデータ品質依存といった実用上の落とし穴も具体例付きで指摘。

RLHF PPO DPO LLMアライメント強化学習

1年前 ★1

消費者向けGPUでLLMを効率ファインチューニング、LoRA+量子化で50MBに圧縮

Fine-Tuning Your First Large Language Model (LLM) with PyTorch and Hugging FaceFeb 11, 2025•115

PyTorchとHugging Faceを使い、Phi-3 MiniをLoRAと4bit量子化で効率的にファインチューニングする手法が公開された。学習パラメータをわずか0.33%に絞り、6GB GPUで約35分・アダプタサイズ50MBを実現。高価なGPUなしでLLMカスタマイズが可能になり、個人開発者や研究者の参入障壁を大幅に下げる。

fine-tuning LoRA quantization Hugging Face PyTorch

1年前 ★2

DeepSeek-R1採用のGRPO、PPOとの違いをわかりやすく解説

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning KnowledgeFeb 7, 2025•286

強化学習の予備知識不要でPPOとGRPOを解説した技術入門記事が公開された。 GRPOはPPOから価値関数ネットワークを除き、グループ平均で代替する手法でメモリ・計算コストを大幅削減。 DeepSeek-R1の訓練効率の秘密を理解したいLLM開発者・研究者に必読の内容。

GRPO PPO DeepSeek-R1 強化学習 LLMアライメント

1年前 ★3

MoE LLMの負荷分散、DeepSeek-V3手法がベストプラクティスに

A Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons

研究者らがMoE LLMにおける負荷分散戦略の歴史的変遷を体系的にレビューした論文を発表。 GShard〜DeepSeek-V3まで各手法を比較し、ルーティング崩壊やトークンドロップの根本原因を分析。 DeepSeek-V3のバイアスベース補助損失フリー手法が最新の設計指針として注目される。

MoE 負荷分散 LLM DeepSeek ルーティング

1年前 ★1

Transformerのテンソル変化、図解付き解説記事が公開

Mastering Tensor Dimensions in TransformersJan 12, 2025•158

Transformerの各層（Embedding→Attention→FFN→LM Head）におけるテンソル形状の変化を図解付きで体系的に解説した技術記事が公開された。 Multi-Head Attentionでのヘッド分割・転置・マスク処理を具体的な数値例で追跡し、Cross-Attentionも網羅。モデル実装や内部構造の理解を深めたいエンジニア・研究者にとって実践的な学習リソースとなる。

Transformer テンソル操作チュートリアル Attention機構

1年前 ★3

専門UI操作でGPT-4oが0.8%——新BM公開

✴️ ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use

高解像度プロ向けGUIでのAI操作能力を評価するベンチマーク「ScreenSpot-Pro」が公開された CAD・IDEなど23種の専門アプリで1581タスクを収録し、人間の専門家が注釈付け GPT-4oのスコアはわずか0.8%と壊滅的で、現行モデルの実務UI対応の限界を浮き彫りにした

GUI Grounding Benchmark Computer Use 高解像度UI

1年前 ★2

Hugging Faceでゼロから学ぶRAG実装ガイド公開

Code a simple RAG from scratch

RAGシステムをスクラッチで構築するチュートリアルがHugging Faceより公開された。ドキュメント分割・埋め込み・検索・生成の4ステップを最小構成で丁寧に解説。 LLMへの外部知識統合を学びたい開発者にとって実践的な入門資料となる。

RAG チュートリアル検索拡張生成実装入門

1年前 ★2

VQ-VAEのベクトル量子化をPyTorchで完全解説

Understanding Vector Quantization in VQ-VAE

VQ-VAEの核心であるベクトル量子化の仕組みをPyTorch実装で段階的に解説する技術記事が公開された。コードブック距離計算・最近傍選択・STE（Straight-Through Estimator）による勾配近似まで全工程を網羅。生成モデルや音声合成の基盤技術を深く理解したいAI開発者にとって実践的な学習リソースとなる。

VQ-VAE 離散表現学習生成モデル実装解説

1年前 ★3

LLM安全機構を無効化する新手法「アブリテレーション」公開

Uncensor any LLM with abliterationJun 13, 2024•838

LLMの拒否行動を制御する残差ストリーム上の「拒否方向」を特定・除去する手法が公開された。再学習不要で重み直交化により安全フィルタを恒久的に無効化し、DPOファインチューニングで性能低下を回復する。 AI安全機構の構造的脆弱性を示す研究として、LLM開発者・セキュリティ研究者コミュニティに広く影響を与える。

機械的解釈可能性アライメント LLM安全性ファインチューニング

AIフロントライン

要約済み 46

未要約 5