要約
Stability AIとArmが協力し、クラウド不要で動作する軽量音声生成モデル「Stable Audio Open Small」を公開。 Arm搭載デバイス上でリアルタイム音声生成が可能な設計で、スマートフォンやIoT端末への展開を想定。 エッジAIの実用化を加速し、プライバシー重視・低遅延な音声生成アプリの開発に道を開く。
公式ソースだけを集めたAI最前線(日本語要約)
Stability AI and Arm Collaborate to Release Stable Audio Open Small, Enabling Real-World Deployment for On-Device Audio Generation
Stability AIとArmが協力し、クラウド不要で動作する軽量音声生成モデル「Stable Audio Open Small」を公開。 Arm搭載デバイス上でリアルタイム音声生成が可能な設計で、スマートフォンやIoT端末への展開を想定。 エッジAIの実用化を加速し、プライバシー重視・低遅延な音声生成アプリの開発に道を開く。
Stability AIとArm(半導体IP大手)が共同で「Stable Audio Open Small」をリリースした。これはStability AIが公開しているオープンソースの音声生成モデル「Stable Audio Open」を、Armのチップアーキテクチャ(スマートフォンや組み込み機器に広く採用)向けに最適化した軽量版である。
従来の大規模音声生成モデルはクラウドサーバー上での推論が前提だったが、本モデルはArmのNPU(ニューラル処理ユニット)やGPUを活用し、端末内で完結する推論(オンデバイス推論)を実現する。量子化・プルーニングなどのモデル圧縮技術によりモデルサイズを削減しながら、実用水準の音声生成品質を維持している。
主なメリットは、①通信遅延がなくリアルタイムに近い生成が可能、②音声データをクラウドに送信しないためプライバシーが向上、③オフライン環境でも動作、の3点。ゲーム・映像制作・音楽アプリ・モバイルツールなど幅広いユースケースでの活用が期待される。
開発者にとっては、Armベースのデバイス(AndroidスマートフォンやApple Siliconなど)向けアプリへの音声生成機能の組み込みが現実的な選択肢となる点で重要な発表である。