JustDEV

摘要

暂无摘要

正文摘录

今天，我们给大家带来最新的语音模型MiniMax Speech 2.6，全面升级突破Voice Agent场景，超低延时，专业格式无障碍，更高自然度。自MiniMax Speech发布以来，正以卓越的语音技术和极致的性价比，成为全球语音智能领域的核心基础设施之一。无论是支撑 ChatGPT 高级语音模式的 LiveKit，GitHub 热门开源框架 Pipecat，还是 YC 孵化的语音平台 Vapi，都选择了 MiniMax Speech 作为底层技术引擎。在智能硬件领域，Haivivi Bubble Pal、Fuzozo、Rokid Glasses等新锐产品，也以 MiniMax Speech 驱动其自然语音交互体验。 MiniMax一直以技术创新驱动新质生产力，打破语言与文化的边界，让自然、流利的交互，源源不断抵达全球各地，连接每一种声音。自MiniMax Speech发布以来，正以卓越的语音技术和极致的性价比，成为全球语音智能领域的核心基础设施之一。无论是支撑 ChatGPT 高级语音模式的 LiveKit，GitHub 热门开源框架 Pipecat，还是 YC 孵化的语音平台 Vapi，都选择了 MiniMax Speech 作为底层技术引擎。在智能硬件领域，Haivivi Bubble Pal、Fuzozo、Rokid Glasses等新锐产品，也以 MiniMax Speech 驱动其自然语音交互体验。 MiniMax一直以技术创新驱动新质生产力，打破语言与文化的边界，让自然、流利的交互，源源不断抵达全球各地，连接每一种声音。 00:00 / 00:00 1. 超低延时，更灵敏：整体交互更顺畅我们对音频生成链路进行了全面优化，使端到端延迟低于250毫秒，达到了行业顶尖水平。在实时对话等对响应速度有严苛要求的场景中，音频生成不再是瓶颈，确保整体交互更流畅。 00:00 / 00:00 我们尝试用 Speech 2.6 扮演一位AI客服，一起来听听效果：英文AI客服 MiniMax 稀宇科技 00:00 / 00:00 中文AI客服 MiniMax 稀宇科技 00:00 / 00:00 2. 专业格式无障碍，更聪明：信息传递更流畅 Speech 2.6 现已支持多种语言的网址、邮箱、电话号码、日期及金额等非标准文本格式的直接转换。无论您是结合大语言模型使用，还是需要在业务中处理动态变化的实体信息，都无需再进行繁琐的文本预处理。输入即正确，实现信息传递更流畅。 00:00 / 00:00 例如, 在传统TTS中需要正确朗读下面一段话, 则需要做一系列转换: - +1 415 415 9921 → “plus one, four one five, four one five, nine nine two one” - $1,234.56 → “one thousand two hundred thirty-four dollars and fifty-six cents” - 192.168.1.1 → “one nine two dot one six eight dot one dot one” - 2032-5-6 → “May sixth, twenty thirty-two” - support-vip@technet.com → “support dash vip at technet dot com” 复杂格式段落处理（英文） MiniMax 稀宇科技 00:00 / 00:00 语段原文：Hello Oliver Smith, I'm your intelligent virtual assistant Max! Thank you for your call. I've found your file. The outstanding balance for the phone number +1 415 415 9921 is $1,234.56. The associated IP addresses is 192.168.1.1. Your next payment is due in 2032-5-6. If you have any questions, please contact support-vip@technet.com. 复杂格式段落处理(中文) MiniMax 稀宇科技 00:00 / 00:00 语段原文：您好Oliver Smith，我是您的智能虚拟助手Max！感谢您的来电，我已找到您的档案。电话号码14154159921 的未付清余额为 ¥1,234.56。关联的 IP 地址是 192.168.1.1。您的下一个付款到期日是 2032/5/6。如有任何疑问，请联系 support-vip@technet.com。 3. 更高自然度与Fluent LoRA：声音表达更流利进一步提升了音韵自然度之外，Speech 2.6 还提供了Fluent LoRA。此前Speech 2.5就提供了便捷、高还原度的音色复刻功能，用户能够保留原始音色的口音、口癖等特色。这一能力满足了实际使用场景中多样化的语音需求。现在，音色复刻时，您无需再为不完美的原始素材而烦恼。即使是带有口音或不流利的非母语录音，也可通过 Fluent LoRA，在完美复刻音色的同时，生成符合目标文本的流利、自然的语音，让您的声音表达更流利。 00:00 / 00:00 除了视频里展示的英文场景外，模型支持的40+语种都可以实现在音色复刻时一键变流利，我们以日语场景为例：录入音频原声 MiniMax 稀宇科技 00:00 / 00:00 未开启FluentLoRA语段 MiniMax 稀宇科技 00:00 / 00:00 Fluent LoRA优化后语段 MiniMax 稀宇科技 00:00 / 00:00 Speech 2.6 已经全面上线, 欢迎使用: MiniMax开放平台: Minimaxi.com/platform_overview MiniMax Audio: Intelligence with Everyone.

← 返回 AI追踪

MiniMax Speech 2.6：最强 Voice Agent 来袭