“最自然的互动是最好的互动,车内场景中的语音交互是最自然的交互。从设计的第一天开始,蘑菇OS致力于创建具有全场景语音交互的车载OS。” 2019 年10 月18日, 蘑菇车联副总裁、 蘑菇OS部门总经理邓志伟在第二届汽车人机交互与智能座舱国际峰会上表示。
从工业革命到信息革命,随着机器智能的飞速发展,人与机器之间的交互经历了数个时代的发展。从最早的机械操作到物理按钮和触摸屏,移动电话的出现进一步推动了过去20年中人机交互的最大变化。所见即所得的触摸交互极大地提高了人机之间的通信效率,并在终端场景中为人机交互提供了最佳的用户体验。
随着车联网、物联网的兴起,人机交互方法面临新的挑战。在传统的手机触摸屏操作时代,由于人类视觉、听到的、触摸处于完全释放状态,因此90%的触摸屏交互加上10%的语音交互带来了移动终端时代的完美体验。在车联网络、物联网时代,由于操作环境和机器的复杂性,人体的自然感觉处于受限状态。特别是在车联网络领域,视觉和触感都在驾驶舱环境中受到很大限制。在如此复杂的受限环境中,语音交互成为在汽车场景中进行交互的最佳方式。
在过去的几十年中,车企一直致力于为用户提供更好的交互体验,例如奔驰首 次提出的方向盘按钮和鼠标触摸板、 奥迪 MMI和宝马 idriver智能驾驶控制系统等 ,极大地促进了人车交互的变革。信息时代和人工智能的技术突破为行业带来了更多机会。
“在这样的时代背景下,蘑菇OS的交互式设计概念是为用户提供最佳的交互式体验。”邓志伟说,“蘑菇OS打造的全场景VUI(Voice User Interface),将在当前语音的基础上增加90%,并增加10%的触摸交互,并逐步发展为实现100%的完整语音交互。”
“语音交互的最大困难是语音识别和语义理解。泛场景化的语义理解一直是业界最大的问题。即使机器学习的出现也无法解决泛场景连续交互的问题。这就是每个人都在使用手机、的原因。说话者和其他包含语音交互的终端场景总会感觉到语音交互体验不好,而人工智能比较‘傻’的原因。” 邓志伟现场坦言,在现场,全情景语音交互场景仍然面临严峻的理论问题,并存在缺陷。但是,在车载领域,我们迎来了一个全新的机遇。由于汽车场景关闭、场景、的封闭性质,可以在车辆领域实现全场景语音交互的高质量体验。”
“目前,蘑菇OS的用户每月的语音交互次数已超过3亿次。我们发现80%的语音交互内容具有惊人的场景相似性,这为蘑菇OS的全场景语音交互带来了极大的启发”。
蘑菇OS的VUI定义了两种主要的语音数据包方案:通用语音数据包服务和个性化语音数据包服务。
通用语音包服务通过用户相似性场景的集中抽象,通过渐进理解、意图跟踪、智能纠错等技术的运用,对用户的意图进行场景化分析,目前已支持涵盖车辆控制、娱乐、安全、生活服务、信息等5类需求81个细分场景;通过大量模型训练与机器学习,配以底层语音引擎技术,能够迅速理解用户意图并提供精准反馈;通过场景引擎的定义,支持上下文多轮对话,能够实现边听边说边想,大幅缩短响应时间,用户可随意插话,更贴近人们日常交流习惯。蘑菇通用语音包服务的理解准确率超过97%。
蘑菇 OS的VUI还推出了个性化语音包服务,该服务可以通过声纹识别、声源识别、语言和音调识别来满足个性化服务需求。通过声纹识别的定制服务,包括空调温度、座椅角度、音乐偏好等;声源识别出用户的位置,并且当识别到“调低温度”指令时,可以调节声源位置的温度;语言包系统还可以通过语言和语调识别用户情绪,并实现差异化的内容响应。
在汽车发展的世纪中,汽车行业的先驱者不断探索人与汽车之间的互动,并努力创造最佳质量的互动体验。 邓志伟说:“人工智能时代的到来为行业带来了新的机遇。蘑菇OS期待探索汽车行业的开拓步伐,并与汽车公司的合作伙伴一起创造新的市场。信息时代人们的互动体验!”