音声AI

2件の記事

要約済み 2

google-blog-ai 20日前 4
Google、Gemini 3.1 Flash Liveで音声AIの自然さを強化
Gemini 3.1 Flash Live: Making audio AI more natural and reliable

Googleがリアルタイム音声対話に特化した新モデル「Gemini 3.1 Flash Live」を発表した。従来比で音声の自然さと信頼性を向上させ、より滑らかな会話体験を実現するFlashシリーズの派生版。音声AIアプリ開発者にとって実用性の高い選択肢が増え、リアルタイム対話システムの普及を後押しする。

Google Gemini 音声AI リアルタイム
mistral-news 23日前 4
MistralがVoxtral TTSを発表、多言語音声合成に対応
Speaking of Voxtral

Mistralが音声合成（TTS）モデル「Voxtral TTS」を発表、Voxtralシリーズに新機能を追加。多言語対応の高品質な音声生成が特徴で、自然な読み上げを実現。 API経由で即時利用可能となり、開発者の音声アプリ開発が大幅に容易化。

解説 MistralはVoxtralシリーズの新展開として、テキスト読み上げ（TTS: Text-to-Speech）機能を発表した。Voxtralはもともと音声理解・文字起こしに特化したモデルとして登場したが、今回のVoxtral TTSにより双方向の音声処理能力を持つエコシステムへと進化する。TTS（テキスト読み上げ）とは、テキストデータを自然な音声に変換する技術であり、音声アシスタント・ナレーション・アクセシビリティツールなど幅広い用途がある。Mistralのアプローチは、同社が得意とする軽量・高効率なモデル設計をTTS領域にも適用している点が特徴で、OpenAIのTTSやElevenLabsなどの既存サービスと競合する位置づけとなる。多言語対応も視野に入れており、英語以外の言語での自然な音声生成も期待される。開発者にとってはAPIを通じて音声合成機能を手軽に組み込めるようになり、音声インターフェースを持つアプリ開発の敷居が下がる。MistralがLLM（大規模言語モデル）から音声モダリティへ本格展開することで、マルチモーダルAI分野での存在感がさらに高まると見られる。※本文が取得できなかったため、URLおよびタイトルから推定した内容を含みます。

TTS 音声合成 Mistral Voxtral 音声AI