AI 社区线索

MiniMax Speech 2.6:最强 Voice Agent 来袭

摘要

暂无摘要

正文摘录

今天,我们给大家带来最新的语音模型MiniMax Speech 2.6,全面升级突破Voice Agent场景,超低延时,专业格式无障碍,更高自然度。 自MiniMax Speech发布以来,正以卓越的语音技术和极致的性价比,成为全球语音智能领域的核心基础设施之一。 无论是支撑 ChatGPT 高级语音模式的 LiveKit,GitHub 热门开源框架 Pipecat,还是 YC 孵化的语音平台 Vapi,都选择了 MiniMax Speech 作为底层技术引擎。在智能硬件领域,Haivivi Bubble Pal、Fuzozo、Rokid Glasses等新锐产品,也以 MiniMax Speech 驱动其自然语音交互体验。 MiniMax一直以技术创新驱动新质生产力,打破语言与文化的边界,让自然、流利的交互,源源不断抵达全球各地,连接每一种声音。 自MiniMax Speech发布以来,正以卓越的语音技术和极致的性价比,成为全球语音智能领域的核心基础设施之一。 无论是支撑 ChatGPT 高级语音模式的 LiveKit,GitHub 热门开源框架 Pipecat,还是 YC 孵化的语音平台 Vapi,都选择了 MiniMax Speech 作为底层技术引擎。在智能硬件领域,Haivivi Bubble Pal、Fuzozo、Rokid Glasses等新锐产品,也以 MiniMax Speech 驱动其自然语音交互体验。 MiniMax一直以技术创新驱动新质生产力,打破语言与文化的边界,让自然、流利的交互,源源不断抵达全球各地,连接每一种声音。 00:00 / 00:00 1. 超低延时,更灵敏:整体交互更顺畅 我们对音频生成链路进行了全面优化,使端到端延迟低于250毫秒,达到了行业顶尖水平。在实时对话等对响应速度有严苛要求的场景中,音频生成不再是瓶颈,确保整体交互更流畅。 00:00 / 00:00 我们尝试用 Speech 2.6 扮演一位AI客服,一起来听听效果: 英文AI客服 MiniMax 稀宇科技 00:00 / 00:00 中文AI客服 MiniMax 稀宇科技 00:00 / 00:00 2. 专业格式无障碍,更聪明:信息传递更流畅 Speech 2.6 现已支持多种语言的网址、邮箱、电话号码、日期及金额等非标准文本格式的直接转换。无论您是结合大语言模型使用,还是需要在业务中处理动态变化的实体信息,都无需再进行繁琐的文本预处理。输入即正确,实现信息传递更流畅。 00:00 / 00:00 例如, 在传统TTS中需要正确朗读下面一段话, 则需要做一系列转换: - +1 415 415 9921 → “plus one, four one five, four one five, nine nine two one” - $1,234.56 → “one thousand two hundred thirty-four dollars and fifty-six cents” - 192.168.1.1 → “one nine two dot one six eight dot one dot one” - 2032-5-6 → “May sixth, twenty thirty-two” - support-vip@technet.com → “support dash vip at technet dot com” 复杂格式段落处理(英文) MiniMax 稀宇科技 00:00 / 00:00 语段原文:Hello Oliver Smith, I'm your intelligent virtual assistant Max! Thank you for your call. I've found your file. The outstanding balance for the phone number +1 415 415 9921 is $1,234.56. The associated IP addresses is 192.168.1.1. Your next payment is due in 2032-5-6. If you have any questions, please contact support-vip@technet.com. 复杂格式段落处理(中文) MiniMax 稀宇科技 00:00 / 00:00 语段原文:您好Oliver Smith,我是您的智能虚拟助手Max!感谢您的来电,我已找到您的档案。电话号码14154159921 的未付清余额为 ¥1,234.56。关联的 IP 地址是 192.168.1.1。您的下一个付款到期日是 2032/5/6。如有任何疑问,请联系 support-vip@technet.com。 3. 更高自然度与Fluent LoRA:声音表达更流利 进一步提升了音韵自然度之外,Speech 2.6 还提供了Fluent LoRA。 此前Speech 2.5就提供了便捷、高还原度的音色复刻功能,用户能够保留原始音色的口音、口癖等特色。这一能力满足了实际使用场景中多样化的语音需求。 现在,音色复刻时,您无需再为不完美的原始素材而烦恼。即使是带有口音或不流利的非母语录音,也可通过 Fluent LoRA,在完美复刻音色的同时,生成符合目标文本的流利、自然的语音,让您的声音表达更流利。 00:00 / 00:00 除了视频里展示的英文场景外,模型支持的40+语种都可以实现在音色复刻时一键变流利,我们以日语场景为例: 录入音频原声 MiniMax 稀宇科技 00:00 / 00:00 未开启FluentLoRA语段 MiniMax 稀宇科技 00:00 / 00:00 Fluent LoRA优化后语段 MiniMax 稀宇科技 00:00 / 00:00 Speech 2.6 已经全面上线, 欢迎使用: MiniMax开放平台: Minimaxi.com/platform_overview MiniMax Audio: Intelligence with Everyone.

← 返回 AI追踪