音声AI
要約済み 2
-
google-blog-ai 20日前 4Google、Gemini 3.1 Flash Liveで音声AIの自然さを強化Gemini 3.1 Flash Live: Making audio AI more natural and reliable
Googleがリアルタイム音声対話に特化した新モデル「Gemini 3.1 Flash Live」を発表した。 従来比で音声の自然さと信頼性を向上させ、より滑らかな会話体験を実現するFlashシリーズの派生版。 音声AIアプリ開発者にとって実用性の高い選択肢が増え、リアルタイム対話システムの普及を後押しする。
-
mistral-news 23日前 4MistralがVoxtral TTSを発表、多言語音声合成に対応Speaking of Voxtral
Mistralが音声合成(TTS)モデル「Voxtral TTS」を発表、Voxtralシリーズに新機能を追加。 多言語対応の高品質な音声生成が特徴で、自然な読み上げを実現。 API経由で即時利用可能となり、開発者の音声アプリ開発が大幅に容易化。
解説 MistralはVoxtralシリーズの新展開として、テキスト読み上げ(TTS: Text-to-Speech)機能を発表した。Voxtralはもともと音声理解・文字起こしに特化したモデルとして登場したが、今回のVoxtral TTSにより双方向の音声処理能力を持つエコシステムへと進化する。TTS(テキスト読み上げ)とは、テキストデータを自然な音声に変換する技術であり、音声アシスタント・ナレーション・アクセシビリティツールなど幅広い用途がある。Mistralのアプローチは、同社が得意とする軽量・高効率なモデル設計をTTS領域にも適用している点が特徴で、OpenAIのTTSやElevenLabsなどの既存サービスと競合する位置づけとなる。多言語対応も視野に入れており、英語以外の言語での自然な音声生成も期待される。開発者にとってはAPIを通じて音声合成機能を手軽に組み込めるようになり、音声インターフェースを持つアプリ開発の敷居が下がる。MistralがLLM(大規模言語モデル)から音声モダリティへ本格展開することで、マルチモーダルAI分野での存在感がさらに高まると見られる。※本文が取得できなかったため、URLおよびタイトルから推定した内容を含みます。