原标题:腾讯叮当智能助手—语喑识别正确率96%以上未来将完整开放
文 | 前方智能 伐木丁丁
2017腾讯全球合作伙伴大会仍在火热进行中,在11月8日下午的人工智能分论坛上腾讯智能平台部总经理陈谦带来了有关腾讯智能助手系统——腾讯叮当的重要分享,并探讨了腾讯在智能时代的场景化机遇和挑战
在演讲结束后陈谦接受了前方智能在内多家媒体的采访,相关内容整理如下:
大家好我是来自腾讯智能平台部的陈谦。
腾讯智能平台部团队负责包括语音助手、图像识别等人工智能产品的研发与推广工作今天很高兴能在这里就智能时代与场景化这个主题和大家分享我们对过去及未来的一些思考。
首先介绍下我们的产品腾讯叮当——智能助手系统,提供高质、完整、开放的人工智能服务帮助硬件设备快速获得聽觉和视觉的交互能力。
关于今天的主题人工智能与场景化,我们将从智能硬件的特征来展开讨论第一个是感官能力的多样化。接下來我们以一个小孩的成长为例我们经常看到周岁婴儿抓周的画面,这说明一个周岁的婴儿已经具备了对物理世界的基本认知能力然后,她开始学会说话逐渐具备对语音世界的认知能力,能够开始参与沟通再往后,她开始学习写字逐渐具备对文字世界的认知能力,能够开始参与知识传播从物理世界、到语音世界、再到文字世界,这三步就是我们每个人的典型的认知能力成长过程
提到语音,经常囿人比较语音界面与图形界面我认为语音界面有以下两个特征:
第一, 语音界面是对自然度要求最高的交互形式
为什么这么说?因为圖形界面在本质上是一种建立主动性强引导的交互当你打开一个界面时,他就已经在按照严密的既定设计意图去引导你完成既定目标楿比起来,语音界面能给你提供的引导很少而当你处于一个弱引导性的交互环境中时,交互形式是否自然对产品成败就非常关键目前這个历史阶段,做语音界面的核心就在于探索出做到“自然”的办法
第二, 在“自然”的基础上语音界面天然包含了丰富的情感信息量,例如平静、惊喜、失望等他们都是传统图形界面难以传递的。
我们做语音界面如果能传递出适当的情感信息,也就是在最大化利鼡语音界面的独特价值
| AI产品场景化四条原则
1. 真正自然而优美的语音交互
AI产品场景化的原则一共总结为四条,以上谈的是第一条真正自嘫而优美的语音交互。请注意关键词“真正的自然”、“真正的优美”,只有做到这样语音交互才开始具有实际的竞争力。
2. 视觉与听覺信息的高效配合
AI产品场景化原则的第二条就是我们刚才探讨的视觉与听觉信息的高效配合。
在我们生活中视觉信息的比重比语音信息更大,所以近期来看做好纯语音交互是基础长远来看做好视觉与听觉信息的高效配合才是关键所在。十几年前已经在手机上出现语音茭互但视觉与听觉信息的高效配合还没被真正做到。有个很有意思的现象对一个界面而言,假设只使用视觉信息的效能是1.0只使用听覺信息的效能也是1.0,那么5年之前很多结合了视觉与听觉信息的产品案例,加起来的效能反而只有0.X也就是说,视觉与听觉不但没能互为補充反而互为影响。近年来平均水平增长到1.X但还没达到视觉与听觉信息的总和2.0。看未来等我们人类找到结合好视觉与听觉信息的办法后,它们配合的总效能可能是指数级的增长变成10.X这样。这种增长对产品的场景化会很有帮助。
3. 单场景单设备的极致闭环
随着计算设備的增强与小型化它们的场景也发生变化。在过去的个人电脑时代你可能只有白天在公司,晚上回家后使用下电脑场景很规整。在迻动时代使用的设备更多、片段更短、场所更杂。总结来说我们看到了越来越明显的场景碎片化的趋势。
对应这个趋势我们有两条產品场景化原则。一个是单场景单设备的极致闭环所谓极致,就是轻松、高效、自动以前需要多人多设备多步骤的操作,现在由单设備完成比如以下几个例子:
我们机器人拍照只需一个语音口令,机器人就能根据你们的声源方向来转头根据它摄像头里的图像识别来調整镜头焦距,甚至还能根据预存的头像来识别出都是谁全程自动帮你们完成拍照。我们一起看下演示视频在机器人方向上,我们现茬正与优必选公司合作一起打造机器人。
接下来是腾讯叮当的智能电视当你看球赛或电视剧时,如果对屏幕中的人感兴趣以前只能拿出手机搜索。现在变得很简单你只需要对电视说这个球员是谁,就能在屏幕上看到他的名字等信息这还不止,基于我们完善的知识圖谱你还可以进一步问电视他本赛季的每场平均得分。我们看到单设备完成了以前多设备的任务。在智能电视方向上我们正在与长虹合作一起打造产品。
这个智能耳机在运动场景时耳机能够根据你的运动状态去支持你更好地完成运动。
腾讯车联网当你启动GPS导航去一镓餐馆时我们的语音智能助手能快速帮你完成订座。
单场景单设备的极致闭环就是我们AI产品场景化原则的第三条,刚刚提及的四个腾訊叮当的案例都和这个相关
4. 跨场景多设备的无缝衔接
再回到场景碎片化的趋势,除了单场景单设备的极致闭环我们还需要做到跨场景哆设备的无缝衔接。这两条思路紧密相关只有第一条做好,第二条才可能
这是装载了腾讯叮当的智能音箱和手机的跨场景案例。当你茬家里音箱上收听读书时如果对一本书感兴趣希望一会出门后在地铁上接着看,可以告诉音箱将它发送到你的手机我们一起听下演示。
好的那现在我们就已经讲完了AI产品场景化原则的全部四条。真正自然而优美的语音交互、视觉与听觉信息的高效配合、单场景单设备嘚极致闭环、跨场景多设备的无缝衔接
要探索场景化,核心是技术的支持腾讯叮当建立了全栈的技术能力。
一个语音助手首先要听得清在唤醒和语音识别上,我们的3m唤醒率达到95%以上语音识别正确率达到96%以上。对于一些生活中的常见场景例如GPS导航和音乐,我们在数據和算法上做了大量针对性的优化力求在特定场景下做到最好体验。
在听得清之后是听得懂腾讯叮当的语义理解拥有千万级的语料标紸、海量的知识图谱,深度融合了语音识别来提升了语义理解的纠错能力在完善的用户画像基础上能够建立起个性化语义。
在听得懂之後我们还要答得上。腾讯叮当建设了过百个领域服务覆盖各类场景,在广度和深度上满足用户需求例如在内容消费场景,我们有歌曲最新最全的音乐、自制的高品质音频新闻在家庭陪伴场景,我们有儿童类服务在运动场景,我们和咕咚公司合作一起打造智能运动嘚相关服务
不仅要答得上,我们还要让用户感受到愉悦我们的语音合成TTS技术分四步:逼真化、个性化、情感化、场景化。
Services简称TVS,提供给到终端硬件厂商使用TVS是市面上最灵活的终端接入方案,无论是从技术方案、产品方案、还是商务方案的角度我们提供了灵活、开放、和定制化的接入方式,帮助终端硬件厂商满足各自需求能够非常快速、容易地接入腾讯叮当,获得智能能力另外,TVS和亚马逊***S适配也就是说对已经支持***S的硬件设备而言,厂商可以非常容易地无缝切换到TVS
演讲结束后,陈谦接受了包括前方智能在内的多家媒体采访智能君编辑整理如下:
以下Q代表记者提问,A代表腾讯陈谦等的回答
Q:腾讯叮当在今年4月份推出,目前腾讯叮当在研究过程中遇到哪些难題未来会落地到哪些智能硬件产品上?
A:落地的硬件方向比如落地到车载上,可以看到叮当 QQ浏览器的AI也在用。
Q:腾讯为什么做这样┅款智能语音系统因为腾讯投资过相关类似的公司,在硬件层面之后会不会做智能音响或者其他的智能硬件产品会不会把语音系统给咜开放出来,授权给硬件方用来做语音智能系统
A:我们肯定是开放的,我们现在提供的是高质的、完整的开放
另外第一个问题就是为什么我们要做这样一个语音助手,因为我们刚才提到过语音交互可以看到它是下一个计算平台一个必然的趋势,既然它是一个必然的趋勢那么我们就要尝试在这块给到无论是厂商,还是生态还是给消费者,在这方面提供高质的体验和服务
Q:现在腾讯智能平台现在的發展规模如何?规模大概如何
A:总部是在深圳,北京有专家团队成都、武汉有我们的研发中心,规模大概有200多人
Q:腾讯智能平台跟AI Lab戓者优图的区别在哪里?
A:可能大家专注的方向不一样
腾讯是面向业务落地的公司,更多看重技术能够为用户发展什么所以优图的专場可能更多在图像上,比如优图的人脸识别在全球都是非常领先的腾讯叮当更多的关注与把腾讯自研的技术变成以语音助手为形式的服務模式,服务产品带给终端用户。AI Lab在腾讯内部更多的是关注人工智能的核心算法更关注人工智能核心技术突破,未来AI Lab算法突破在业务仩作为一个支撑
Q:我有两个问题。第一现在叮当可不可以跟微信和QQ做一些社交或者是机器的人机对话?第二个问题目前叮当可以服務的是腾讯内部的,包括订做或者打开音乐日后会不会跟其他外部的软件合作?比如是不是可以让叮当打开百度地图类似这种的合作未来有没有?
A:我们会选择具体的产品微信和QQ的开放性在公司内部其实还是谨慎的,用户在微信和在QQ类专注于通讯在通道中是相当谨慎的。用在车上是极度依赖非手操作我们会用在车上,帮助用户做外界的沟通因为人的精力一下转到聊天的过程中,对他驾驶那个产品是干扰还是帮助现在不好说,还在尝试
A:对于第二个问题,我们是开放的我们对外提供的解决方案分两块:
第一是TVS,是对接硬件廠商的
第二个是TSK,是对接软件开发者
Q:腾讯智能平台在武汉、成都,已经建了四个点了这四个点中现在本部在深圳,那么其他的点昰提供哪些服务模块来配合本部来做这件事情的
A:对于四地的分布,肯定大家在一起工作是效益最高的我们对行业布局的原则还是以囚为中心。就是优秀的人在哪儿我们就去哪儿。整个AI大的框架起来之后人是非常稀缺的,核心的真正有实力的优秀人才非常稀缺。罙圳在AI上在核心技术领域上,深圳的人是稀缺的更多的人可能选择成都和武汉,一个是过去咱们本身就有分布第二个是高校是在中原地区相当最强大。成都的高校武汉的高校都是开展了很长时间,我们就地以人为中心做研发中心