LLMファインチューニング

2件の記事

要約済み 2

arxiv-cs-ai 7時間前 3
LoRAを多項式展開で強化する新手法PERAが登場
Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

研究者らがLoRAの線形構造を多項式展開で拡張する新手法「PERA」を発表した。ランクや推論コストを増やさずに高次の非線形相互作用をモデル化し、表現力を大幅向上。ファインチューニングの精度向上が求められる開発現場に新たな選択肢を提供する。

解説 PERAはLoRAの重み更新に多項式展開を導入する新手法。LoRAはΔW=BAという双線形形式（2つの低ランク行列の積）で重み更新を近似するが、この線形構造はパラメータ間の一次依存関係しか表現できず、非線形な特徴相互作用の学習が制限される。PERAでは各低ランク因子に多項式展開（元の特徴xからx², x·yなどの高次項を生成）を適用し、より豊かな非線形結合を合成してから行列積を計算する。これにより適応空間が多項式多様体へと変換され、表現力が大幅に向上する。理論解析ではLoRAと比較して高い表現容量と特徴活用効率を実証しており、実験ではLLMのベンチマーク（常識推論・数学・コード生成等）でDoRA・LoRA+等の既存変種を上回る性能を示している。重要なのはランクや推論コストを増加させずに実現している点で、実用的なPEFT改良として高い価値を持つ。

PEFT LoRA拡張 LLMファインチューニング多項式展開
hf-blog 3ヶ月前 2
PPO損失関数を数学的に完全導出——LLM強化学習の仕組みを解説
Deriving the PPO Loss from First PrinciplesDec 25, 2025•40

強化学習アルゴリズムPPOの損失関数を基礎原理から段階的に導出する教育コンテンツが公開された。 REINFORCE→アドバンテージ推定→重点サンプリング→クリッピングという流れで数式ベースに解説。 LLMのRLHFやDPOを理解する上での基礎固めとして、AI研究者・エンジニアに有益な資料となる。

解説 PPOはChatGPTやClaudeなどの主要LLMのRLHFに使われる中核アルゴリズムだが、本記事は新手法の提案ではなく既存手法の教育的解説。REINFORCE→TRPO→PPOの数学的導出を一貫して追い、DPOやGRPOなど新世代手法を理解するための基礎固めに最適。開発者・研究者がRLHF系手法を実装・改良する際の理論的バックボーンとして実用的価値がある。

PPO RLHF 強化学習 LLMファインチューニング教育