在 GenAI 时代,伴随大模型的持续迭代以及企业/用户对 AI 能力需求的升级,具备能听会说、响应快、随时打断等能力的多模态大模型正在加速落地,近期 MiniMax 、商汤、豆包等多家主流大模型厂商针对实时语音模型的密集更新也体现了这一趋势。
在 AI 交互体验不断升级的趋势下,基于在对话式智能体搭建和用户体验方面的深刻理解,声网 Conversational AI Engine (对话式 AI 引擎)来了,并具备以下核心优势:超低响应延迟(实测中位数 650ms)、优雅打断(懂倾听、更懂人心)、对话人声锁定(95%纯净对话)、全 5A 适配(Anytime, Anywhere, Any Device, Any Network, Any Model)。
650ms 超低延时是声网 Conversational AI Engine 的核心优势之一,如下图所示,实测延时均低于 650ms。
Any Model:全模型敏捷适配 解锁下一代智能对话体验
声网 Conversational AI Engine 突破传统框架限制,基于全球主流 Conversational AI Agents 开源框架 TEN Framework 构建,不仅实现了行业领先的超低响应延迟,更具备全模型适配的核心优势。
全栈模型兼容体系
通过独创的全模型适配架构技术,支持第三方云端大模型服务、企业私有化模型及本地化部署的开源模型无缝接入,实现跨架构模型的敏捷适配。
零改造接入体验
依托标准化 API,不止新模型,老模型也可实现一键式快速接入,平均接入周期大幅缩短,有效保障企业 AI 模型资产的无损迁移与持续价值转化。
自研 AI VAD 优雅打断对话、更懂人心
在真实的语音对话中,打断对方并提出新疑问是很常见的现象,而在对话式 AI 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时优雅打断。通过下方视频也可以更直观地看到声网方案的优雅打断效果。
智能屏蔽背景人声、噪声 误打断率较 ChatGPT 降低50%
误打断是当下大模型语音交互存在的一个明显痛点,在人与 Agent 交互过程中一旦出现了嘈杂的背景人声与环境噪音干扰,大模型会误触发打断机制,停止交互。对此,声网技术团队针对当前大模型语音技术特性,结合多年积累的 AI 降噪等音频对话处理能力,智能屏蔽交互中的各类背景人声与噪声干扰,即使在商场、地铁站、咖啡店等夹杂背景人声的嘈杂环境中,也能保证对话应答精准、流畅。
我们也对声网 Conversational AI Engine 与 ChatGPT 进行了测试对比,在噪杂的环境下,声网的方案误打断率较 ChatGPT 降低 50%。
不惧弱网80%丢包仍能稳定交流
多模态大模型在离开理想的网络环境下,如何保障交互的稳定、流畅,也是很多 AI 企业在着力优化的方向。声网凭借在音视频领域积累了深厚的技术优势与场景实践,通过实时网络覆盖、网络超强适应、海量终端适配等优势打造全球一致的端云覆盖体验。
例如,在网络不稳定的室外环境,声网的智能路由+抗弱网算法可以做到各种复杂网络环境下的跨区域丝滑互动,即使在面临 80%丢包的情况下人与 Agent 也能稳定交流。
同时,现实场景中由于用户硬件设备的差异,不同的设备可能对于语音处理效果产生影响,性能相对差一些的设备可能会产生更高的延时,需要音视频 SDK 做到海量设备的兼容性,提供统一的低延时传输。声网的 RTC SDK 支持30+平台开发框架,30000+终端机型适配,中低端机型覆盖广,帮助 AI 厂商解决了多设备兼容性的后顾之忧。
声网 Conversational AI Engine 是行业首个实现 650ms 超低延时响应的对话式 AI 解决方案,自研 AI VAD 技术也处于行业领先,智能打断效果优于多家主流的多模态大模型,此次对音频技术的改进带来的误打断率的降低也明显优于 ChatGPT 等主流大模型,整体方案已实现了多项行业领先,助力人与 Agent 互动更加自然、流畅。
目前声网 Conversational AI Engine 已开放 Private Beta 版本邀请测试,如您想体验 Demo 或获取产品测试接入的服务支持,可咨询声网官方公众号。
文章来自互联网,不代表电脑知识网立场。发布者:老车新路,转载请注明出处:https://www.pcxun.com/n/351083.html