音声生成

2件の記事

要約済み 2

stability-blog 7ヶ月前 4
Stability AI、商用音声生成モデル「Stable Audio 2.5」公開
Stability AI Introduces Stable Audio 2.5, the First Audio Model Built for Enterprise Sound Production at Scale

Stability AIがエンタープライズ向け音声生成AI「Stable Audio 2.5」を正式発表した。テキストから高品質な音楽・効果音を生成し、商用ライセンスでのAPI提供を開始。大規模な音声制作ワークフローへの組み込みを可能にし、コンテンツ制作業界に変革をもたらす可能性がある。

解説 Stability AIは音声生成AIの新モデル「Stable Audio 2.5」を発表した。同シリーズは拡散モデル（Diffusion Model）を用いたテキストから音声への生成技術を採用しており、テキストプロンプトを入力するだけでBGM・効果音・環境音などを高品質に生成できる。2.5では特にエンタープライズ（企業）用途を強く意識した設計となっており、大量生成・バッチ処理・API連携などスケールでの運用を前提としたアーキテクチャが特徴。従来モデルと比べ音質・生成時間・スタイルコントロールが改善され、44.1kHzのステレオ出力に対応。商用利用が可能なライセンス体系を提供することで、ゲーム・映像制作・広告・ポッドキャストなど幅広い産業での導入障壁を下げた。競合のSuno・Udoなどと比較して、オープンな重みの公開とエンタープライズAPIの両立を図る点がStability AIの差別化ポイントとなっている。音声・音楽制作のプロフェッショナルや、アプリに音声生成を組み込みたい開発者にとって実用的な選択肢が増えたと言える。

Stable Audio 音声生成テキスト→オーディオエンタープライズAI Stability AI
stability-blog 11ヶ月前 4
Stability AIとArm、オンデバイス音声生成モデルを共同リリース
Stability AI and Arm Collaborate to Release Stable Audio Open Small, Enabling Real-World Deployment for On-Device Audio Generation

Stability AIとArmが協力し、クラウド不要で動作する軽量音声生成モデル「Stable Audio Open Small」を公開。 Arm搭載デバイス上でリアルタイム音声生成が可能な設計で、スマートフォンやIoT端末への展開を想定。エッジAIの実用化を加速し、プライバシー重視・低遅延な音声生成アプリの開発に道を開く。

解説 Stability AIとArm（半導体IP大手）が共同で「Stable Audio Open Small」をリリースした。これはStability AIが公開しているオープンソースの音声生成モデル「Stable Audio Open」を、Armのチップアーキテクチャ（スマートフォンや組み込み機器に広く採用）向けに最適化した軽量版である。従来の大規模音声生成モデルはクラウドサーバー上での推論が前提だったが、本モデルはArmのNPU（ニューラル処理ユニット）やGPUを活用し、端末内で完結する推論（オンデバイス推論）を実現する。量子化・プルーニングなどのモデル圧縮技術によりモデルサイズを削減しながら、実用水準の音声生成品質を維持している。主なメリットは、①通信遅延がなくリアルタイムに近い生成が可能、②音声データをクラウドに送信しないためプライバシーが向上、③オフライン環境でも動作、の3点。ゲーム・映像制作・音楽アプリ・モバイルツールなど幅広いユースケースでの活用が期待される。開発者にとっては、Armベースのデバイス（AndroidスマートフォンやApple Siliconなど）向けアプリへの音声生成機能の組み込みが現実的な選択肢となる点で重要な発表である。

音声生成エッジAI オンデバイス Arm Stability AI