Stable Audio

1件の記事

要約済み 1

stability-blog 7ヶ月前 4
Stability AI、商用音声生成モデル「Stable Audio 2.5」公開
Stability AI Introduces Stable Audio 2.5, the First Audio Model Built for Enterprise Sound Production at Scale

Stability AIがエンタープライズ向け音声生成AI「Stable Audio 2.5」を正式発表した。テキストから高品質な音楽・効果音を生成し、商用ライセンスでのAPI提供を開始。大規模な音声制作ワークフローへの組み込みを可能にし、コンテンツ制作業界に変革をもたらす可能性がある。

解説 Stability AIは音声生成AIの新モデル「Stable Audio 2.5」を発表した。同シリーズは拡散モデル（Diffusion Model）を用いたテキストから音声への生成技術を採用しており、テキストプロンプトを入力するだけでBGM・効果音・環境音などを高品質に生成できる。2.5では特にエンタープライズ（企業）用途を強く意識した設計となっており、大量生成・バッチ処理・API連携などスケールでの運用を前提としたアーキテクチャが特徴。従来モデルと比べ音質・生成時間・スタイルコントロールが改善され、44.1kHzのステレオ出力に対応。商用利用が可能なライセンス体系を提供することで、ゲーム・映像制作・広告・ポッドキャストなど幅広い産業での導入障壁を下げた。競合のSuno・Udoなどと比較して、オープンな重みの公開とエンタープライズAPIの両立を図る点がStability AIの差別化ポイントとなっている。音声・音楽制作のプロフェッショナルや、アプリに音声生成を組み込みたい開発者にとって実用的な選択肢が増えたと言える。

Stable Audio 音声生成テキスト→オーディオエンタープライズAI Stability AI