オープンソース
要約済み 12
-
hf-papers 1日前 4NVIDIAら、音声言語モデルでGemini超えを達成Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
NVIDIAらが音声・環境音・音楽を統合理解する大規模モデル「Audio Flamingo Next」を公開した。 最大30分の長尺音声に対応し、20以上のベンチマークでGemini 2.5 ProやGPT-4oに匹敵・凌駕する性能を実現。 完全オープンな初のフルオープン音声言語モデルとして、音声AI研究の民主化に貢献する。
解説 Audio Flamingo Next(AF-Next)はNVIDIAとメリーランド大学が共同開発した次世代の大規模音声言語モデル(LALM)。音声・環境音・音楽を統一的に処理し、最大30分の長尺音声を扱える点が大きな特徴。アーキテクチャはWhisperベースの音声エンコーダ「AF-Whisper」、MLP音声アダプタ、Qwen-2.5-7BをバックボーンとするLLMで構成。長文脈対応にはRoPEの代わりに絶対タイムスタンプを利用した「RoTE(Rotary Time Embeddings)」を採用し、時間的位置表現を強化。学習は事前学習・中間学習・事後学習・CoT学習の4段階カリキュラムで行われ、GRPOベースの強化学習も活用。新手法「Temporal Audio Chain-of-Thought」では推論ステップを音声のタイムスタンプに紐づけることで長尺音声の時間的推論精度を向上させた。訓練データは約1億800万サンプル・約100万時間に及ぶ。LongAudioBenchではGemini 2.5 Pro(60.4)を大幅に上回る73.9を達成。LibriSpeechのWER(単語誤り率)も1.54%と最高水準。Instruct・Think・Captionerの3バリアントをフルオープンで公開しており、実用性と再現性が高い。 -
arxiv-cs-ai 1日前 3AIエージェントの「自己喪失」問題、複数アンカー記憶で解決へPersistent Identity in AI Agents: A Multi-Anchor Architecture for Resilient Memory and Continuity
コンテキスト超過時にAIエージェントが同一性を失う問題に対し、新たなアーキテクチャが提案された。 人間の分散記憶を模倣したRAG+RLMハイブリッド検索により、記憶を自動ルーティングするsoul.pyを実装。 エージェント開発における「連続性の欠如」という根本課題に、実用的な解法を示した点で注目される。
解説 本論文はAIエージェントが抱える「破滅的忘却」問題に取り組む。現状のLLMベースエージェントはコンテキストウィンドウ(モデルが一度に処理できる文字数の上限)を超えると会話履歴が要約・切り捨てられ、過去の文脈だけでなく「自己としての連続性」まで失われると指摘する。著者らはこれを単一メモリストアへの過度な依存という設計上の欠陥と捉え、アルツハイマー病や海馬損傷などの神経科学的知見を参照する。人間の記憶は手続き記憶・エピソード記憶・感情的連続性など複数の独立したシステムに分散しているため、一部が損傷しても同一性が保たれる。この知見を基に提案するsoul.pyは、アイデンティティファイル(自己定義の固定記述)とメモリログ(経験の時系列記録)を分離した構成要素として管理し、どちらかが欠損しても他方から自己を再構成できるマルチアンカー設計を採用する。検索にはRAG(外部知識の埋め込み検索)とRLM(強化学習的メモリ選択)を組み合わせたハイブリッド方式を用い、クエリの種類に応じて最適な記憶領域へ自動ルーティングする。GPT-4oやClaudeなどの既存モデルとの直接ベンチマーク比較は示されていないが、単一コンテキスト依存の従来アーキテクチャに対する概念的優位性を論じており、長期稼働エージェント開発の設計指針として実用的示唆を持つ。 -
hf-blog 1日前 3ターミナル特化コーディングAI「LiteCoder」公開、ベースラインを大幅超えReleasing LiteCoder-Terminal-SFT
ターミナル操作に特化したコーディングエージェント「LiteCoder-Terminal-SFT」が30B・4Bの2モデルでオープンソース公開。 11,255軌跡のデータセットと602環境を同梱、Terminal Bench Proで30BモデルがPass@1 31.5%を達成し既存ベースラインを大幅上回る。 エージェント開発者や研究者にとって実用的なターミナルAIの構築・評価基盤となる注目のリリース。
解説 LiteCoder-Terminal-SFTは、ターミナル環境でのコーディングタスクに特化した小中規模エージェントモデルのリリース。30B(MoE構成)と4Bの2サイズを公開し、訓練データ・実行環境もオープンソース化した点が特徴。 【手法】Claude Agent SDKを活用した5段階の環境合成パイプラインにより、テキスト記述からHarform形式の実行可能な環境を自動生成。Dockerfile・参照解答・テストスイートを含む11,255軌跡(平均27.4ターン)を構築。Terminus-2(86.6%)、OpenHands(7.1%)、Claude Code(6.3%)の3種エージェントフレームワークから軌跡を収集する「マルチスキャフォールド学習」を採用。 【結果】Terminal Bench Proにて30BモデルがPass@1 31.5%(旧preview比+9.5pt)、4BモデルはQwen3-4B-Instructの3.5%に対し15.5%と大幅改善。Terminal Bench 1.0でも30BモデルがPass@1 24.38%でQwen3ベースラインの18.44%を上回る。 【意義】GPT-4oやClaudeといった大規模クローズドモデルに依存せず、4B〜30B規模のオープンモデルでターミナルエージェントの実用性を高めた実践的な貢献。RL訓練コスト削減を目指す「ワールドモデル」探索も並行して公開されており、今後の強化学習研究への布石となっている。 -
hf-blog 3日前 3IBM、3B軽量VLMをOSSで公開——企業文書解析に特化Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents
IBMが3Bパラメータの視覚言語モデル「Granite 4.0 3B Vision」をApache 2.0ライセンスで公開。 表・チャート・帳票の構造化抽出に特化し、独自技術で大規模モデルに匹敵するベンチマーク性能を実現。 軽量・商用利用可・Docling連携対応で、企業のドキュメントAI導入ハードルを大幅に下げる。
-
hf-blog 3日前 4Falcon Perception、0.6BモデルでSAM 3を大きく超える性能を達成Falcon Perception
オープン語彙セグメンテーション・物体検出モデル「Falcon Perception」(0.6B)が公開された。 早期融合Transformerを採用し、SAM 3を空間理解で+21.9pt、属性認識で+9.2pt上回る。 コンパニオンのFalcon OCR(0.3B)はGPT-4oやDeepSeek OCR v2をも凌駕し、軽量モデルの可能性を示す。
解説 わずか0.6BパラメータでSAM 3を大幅に上回り、特に空間理解・関係推論・密集シーンで圧倒的な差を見せる。SAM 3が苦手なOCR連携グラウンディングや複合的プロンプトへの対応力が際立つ。Falcon OCR(0.3B)もGPT-5.2やMistral OCR 3を超える精度を達成しており、エッジデバイスやコスト重視の本番環境での視覚理解パイプラインに大きな選択肢を与える。開発者にとってはvLLM対応やMLX統合など実デプロイの容易さも魅力。 -
hf-blog 3日前 4GoogleがGemma 4公開、スマホでも動くマルチモーダルAIWelcome Gemma 4: Frontier multimodal intelligence on device
GoogleがApache 2.0ライセンスのマルチモーダルモデル群「Gemma 4」(2.3B〜31B)を公開。 PLE・共有KVキャッシュなど新アーキテクチャで効率・長文脈処理を大幅改善、画像・音声・動画に対応。 ブラウザやスマホ上でも動作可能な軽量設計で、エッジAI開発の選択肢が一気に広がる。
解説 Gemma 4はオープンソースでありながらLMArenaスコア約1450とフロンティア級の性能を達成。特にMoE版(26B-A4B)は実効4Bパラメータで31B密モデルに迫る性能を示し、エッジデバイス展開の可能性を大きく広げた。GPT-4oやClaude、Geminiといったプロプライエタリモデルに対抗しうるオープンモデルとして、開発者がローカル環境で高性能マルチモーダルAIを活用できる選択肢が増えた点が重要。 -
hf-blog 3日前 3SafetensorsがPyTorch Foundation傘下に、標準化加速へSafetensors is Joining the PyTorch Foundation
Hugging Face発のモデル重み保存形式SafetensorsがPyTorch Foundationへ移管された。 Pickleと異なり任意コード実行不可・ゼロコピー読込対応で、安全性と速度を両立する形式。 ベンダー中立のガバナンス下でPyTorchコア統合やFP8量子化対応が計画され、業界標準化が進む。
解説 SafetensorsはPickleベースの危険な重み形式を置き換える目的で普及し、Hugging Face Hub上の数万モデルで標準採用されている。今回のPyTorch Foundation移管により、単一企業プロジェクトからベンダー中立のエコシステム基盤へ昇格した。PyTorchコアのシリアライゼーション標準化、CUDA/ROCm直接ロード、テンソル並列対応が予定されており、vLLMやDeepSpeedなど推論・学習基盤との統合が加速する。開発者にとってはモデル配布・ロードの安全性と速度が業界標準として保証される意義がある。 -
hf-blog 7日前 4研究者、生成LLMを双方向エンコーダに変換する新手法を発表BidirLM: Turning Generative LLMs into the Best Open-Source Omnimodal Encoders4 days ago•23
因果的LLMを2段階適応(マスク予測+対比学習)で双方向エンコーダに転換する「BidirLM」が登場。 テキスト・画像・音声を統合する250GPU時間の軽量学習で、MTEB/MIEBにて最高水準の性能を達成。 既存の生成モデルをRAGや検索基盤に転用できる道を開き、エンコーダ開発コストの大幅削減に貢献。
解説 生成LLMの膨大な事前学習投資を埋め込みタスクに再利用する実用的手法。MNTP+対比学習の2段階パイプラインと重みマージにより、わずか250GPU時間でテキスト・画像・音声対応の統合エンコーダを構築できる点が画期的。OpenAI embeddingやCohere等の商用APIに対抗するオープンソース選択肢として開発者に直接的な恩恵があり、新たな専門モデルが出るたびにマージで拡張可能なモジュール性も研究者にとって魅力的。 -
google-blog-ai 29日前 3GoogleがAI時代のOSSセキュリティ強化に本格投資Our latest investment in open source security for the AI era
GoogleはAIを活用したオープンソースセキュリティへの新たな投資計画を発表した。 AI駆動のセキュリティツール導入でOSSの脆弱性検出・対応を自動化・高速化する。 セキュリティコミュニティとの連携強化により、AI時代のソフトウェア供給網防御に貢献。
-
google-blog-ai 1ヶ月前 3Google、野生動物識別AI「SpeciesNet」をOSS公開How our open-source AI model SpeciesNet is helping to promote wildlife conservation
Googleがカメラトラップ画像から動物の種を自動識別するAI「SpeciesNet」をオープンソースで公開した。 研究機関や環境NGOが無償で利用でき、野生動物の生態調査・個体数監視を大幅に効率化できる。 AI技術による生物多様性保全の民主化を推進し、科学コミュニティへの貢献が期待される。
-
gh-mistral 1年前 3Mistral AI、画像理解モデル「Pixtral-12B」を正式公開mistralai/mistral-inference v1.4.0: Pixtral 👀
Mistral AIがマルチモーダルモデル「Pixtral-12B」をmistral-inferenceライブラリv1.4.0で公開した。 12Bパラメータで画像入力に対応し、CLIやPython APIから画像の質問・分析が可能。 オープンソースの軽量マルチモーダルモデルとして、開発者が手軽に画像AI機能を実装できる選択肢が増える。
-
gh-mistral 1年前 2Mistral公式推論ライブラリv1.0.4リリースmistralai/mistral-inference v1.0.4 - Mistral-inference
Mistral AIが公式推論ライブラリmistral-inferenceのv1.0.4をリリース。 7B・8x7B・8x22B等の全Mistralモデルに対応した推論実行が可能。 pipインストールで簡単に導入でき、ツール呼び出し機能もサポート。