企业场景下，我们怎么思考音箱和人的交互？

Ella_2017

31人赞赏了该文章 1,033次浏览编辑于2018年10月26日 11:14:17

本篇文章字数4284，阅读时间约12分钟。

智能音箱在国内市场上并不少见，小爱同学、天猫精灵、叮咚叮咚、若琪……品牌信口说来。有人认为它将会占领每个家庭的客厅，成为随应随答的家庭管家；也有人认为除了家庭，它更应该走向办公场所，像电影《Her》中看到的那样，为你整理邮件、整理文件夹，进行数据分析，给你提供更科学的工作建议。

智能语音交互技术运用在电影中如此深入人心且又顺理成章，所有“懒惰”的人都翘首盼着这项技术早日进入千家万户，亿万企业。然而艺术总是美好的，现实中的自然语音技术能为我们做哪些事情，又会给企业办公带来怎样颠覆性的改变呢？本文仅作为引玉之砖，探讨一下音箱与人的交互，期待与广大同仁们碰撞出更激烈的思维火花。

人机交互趋势：效率更高、交互更简单、输入方式更多元

人和社会的进步离不开工具的运用，机器也是工具中的一种。当信息时代的人们都习惯了用鼠标键盘向机器输入指令，并且获得反馈的时候。有没有人思考过，在这之前我们是怎么让机器按照人类的指令行动的？或者有没有进一步思考，未来机器怎么理解人类的指令？

人机交互的研究在个人理解看，就是一门提高人与机器的交流舒适度的学问。让我们穿越到上世纪五六十年代，如果看到界面是像左边这个图，你可能一脸茫然：这怕不是坏掉了吧？没错，这就是那个时代人们和机器的沟通渠道——命令行。

↑↑↑ CLI和GUI（YouTube截图）

但如果给你右边这样的界面了，你肯定就喜滋滋了，这才是人们熟悉的图形界面嘛！你知道怎么打开应用程序去编辑文档，知道怎么用键盘打字输入，将屏幕放大缩小。喜滋滋的原因是因为这样的操作比上面的命令行简单了太多，没有计算机知识的人也能操作。所以，人机交互的趋势应该是朝着效率更高、交互更简单、输入方式更多元的方向去改变。从命令行界面（CLI）到图形用户界面（GUI），下一个用户界面应该是自然用户界面（NUI）了。

什么是NUI呢？试想一下，早上你跟同事见面的交流方式是怎样的？远望点头微微笑，走近挥手说早安……这就是最自然的行为，运用自己的视觉、听觉、触觉等进行信息交流。如果你用这一套来对付你身边的电脑、手机、电视机、空调，以目前最前沿的技术看，它们仅仅只能在非常有限的场景下，理解你的部分意思。比如你现在能靠面部识别来进入办公楼，但不能在实现站在电脑面前，它就能自动从黑屏进入到桌面。你能通过音箱用声音给自己定个早上7点的闹钟，但不能通过音箱编辑你今天要排版的微信推文。

语音办公，国外企业做到什么地步了？

之所以还不能做到流畅自然，是因为音箱的表现在稳定性和准确率上还有提升空间。那为什么个人市场上又这么火爆呢？是因为C端用户能够接受音箱给出一些俏皮的、模糊的回答。但B端用户不同，他是希望能更高效地完成工作的，最好音箱一句废话也没有，问什么答什么。在这种精准度的要求下，利用语音来办公还停留在处理一些非关键业务的基础上。

亚马逊在2017年11月发布了Alexa for Business这一开放性平台。第三方应用或软件接入后，可以处理诸如日程提醒、订会议室、找工位、控制办公室设备等事务。Salesforce是一家土生土长的云服务供应商，经过3~5年的收购整合，“进化”出了AI 能力，在自家原有的ERP软件中嵌入了Einstein。在2018年4月份，他们发布了一个demo，可以用google assistant打开salesforce中的报表。在8月份他们又发布了Einstein voice，更加强化了语音交互这个功能；同期还发布了一个根据公司业务定制的voice bot。微软本身也是做办公软件的，2018年1月份，Cortana研发部的VP声明要做办公数字助理，利用好微软系列办公组件dynamics的海量数据，实现语音查看业务数据的功能。

捕获.JPG

↑↑↑ 语音数字梳理调研（截图）

调研发现，主流公司倾向于开发自己的智能语音交互平台，非主流公司倾向于接入大平台的服务，做数字化助理或聊天机器人。最后这个产品是嵌入PC还是移动端亦或是音箱，只是一个形式问题。大多数会选择嵌入在原有的ERP或CRM产品中，音箱目前是作为一个demo展示平台能力的载体，实际应用最多的还是移动App端的语音助手，比如Tact。当然在企业场景下，音箱作为一个独立的产品存在也是有优势的，我们总结了以下三点：

① 远场收音效果好。在十几人开会的地方，你要通过手机查数据，先掏出手机，解锁，然后打开App。如果是音箱呢，它放在离你3米远的会议桌上，你喊一声，它就能给出你要查的数据，而且能清晰地播报出声音。

② 业务专注性。手机是一个相对私人的物品，来自私人订制的干扰也比较多，促销短信、微信消息、知乎微博的推送……但是音箱很纯粹，你在做工作有关的事情时候，并不会被无关的娱乐信息打扰，因此工作集中度会更高。

③ 行为习惯养成。根据Canalys预测，2018年智能音箱的全球出货量将达到1亿台。美国知名互联网统计公司comScore也预测，到2020年，至少会有一半以上的互联网搜索会是语音搜索。说明用户的习惯已经在养成的路上了。而edison一项调研显示，有超过一半的音箱是摆在家庭客厅里面的，摆在其他地方或家庭办公室的不超过5%。不容置疑，如Amazon Alexa 基金的主管 Paul Bernard在融资Tact后所说，“我们看到了在企业中提供语音服务的巨大机会。”

先找准自己的核心场景和优势

那么我们自己做了什么样的努力呢？不是内部人员应该比较少知晓，从今年财务管理新世界开启之后，金蝶研究院成立了AI团队，期望将为智能语音找到一个合适的场景在企业落地。

C端音箱提供的服务是基于消费者在过去十几年中积累的数据，符合日常休闲生活，相对来说专业性较低。如果要音箱提供企业级服务，那必须是基于多年的企业ERP服务经验。这是我们做这个产品的巨大优势。

那么智能语音+ERP能做出什么场景呢？最容易想到的是将C端的查询功能移植到B端，用音箱来查一些核心的、宏观性的业务数据。比如这个月总收款多少？比上个月增加多少？关注的某个产品有没有增加大单？这些如果要打开电脑去查，一定有不少于10次以上的点击，然而可以通过一句话来搞定的时候，是不是会节省很多时间呢？

此外，音箱在C端经常被用到的一个功能是定闹钟，设置提醒。那么办公室的音箱，是不是也可以起到提醒作用？目前的金蝶云产品中是有预警提醒这个功能的，在业务数据或流程发生异常的时候，可以通过向云之家推送消息来提醒，但是这条消息夹杂在繁多的消息中，很容易被忽略或者得不到及时的处理。那么，将重要的信息通过音箱来提醒就可以避免漏掉了。

所以我们将场景聚焦在预警消息和主动查询上，这样还可以形成一个小闭环。即在异常的时候，进入业务查询数据，定位问题。布置给责任人之后，再次查询去确认看有没有完全解决。看到这个场景，音箱的使用目标也就确定了，其实并不是适合白领工人，只适合中高层、有独立办公空间的管理者，当然是在家里用还是在办公室用就看使用者的喜好啦！

调研-3.JPG

↑↑↑ 核心场景（PPT截图）

产品之路：寻寻觅觅凄凄惨惨戚戚

产品线其实很早就将智能语音做进了移动端，但结合并不深入。而且与移动端相比，在音箱端的交互是没有界面的，不需要动手动眼，交互入口更浅，这也是AI团队希望做出差异化的点。不过，后面在找音箱的合作厂商时，我们是有吃过亏的，这弯路暂且按下不表，反正就是寻寻觅觅，悲剧悲剧。

要求在8月8号的用户大会上发布金蝶25周年纪念版音箱，而我们6月底还没定下一家音箱供应商。7月初，在各种机缘巧合里应外合之下，我们决定直接用别人的音箱，但是选择了可以提供开放API接口的叮咚音箱，然后在上面定制开发轻应用。最后，我们的产品其实是这样搭起来的：

调研-4.png

↑↑↑ 系统架构（PPT截图）

你会看到人与音箱的交互只是最左边的一小部分，而后面却经过了至少三个系统。这样看起来略微笨重的后台有着巨大的隐患，因为任何一个环节的问题，背锅的总是我们团队。当然，主要是产品经理。后来证明确实如此，8月8号发布之后，用户体验上有诸多问题，我们的音箱表现不佳的原因主要有三点：①音箱溜号、返回超时的时候多，看起来音箱似乎卡住了，在没有任何反馈的情况下，极易引起暴怒情绪；②业务系统反馈值还是有界面的那一套，将一长条的选择列表念出，徒增用户的压力；③缺少异常处理环节，没有设置某个途径将用户从懵逼状态引导到正常的交互状态上来。面对扑面而来的抱怨，我们一方面收集需求、整理bug，将问题定位到对接的各个负责人，一方面赔笑给使用音箱的人：不好意思，我们正在改，正在优化中。对于整个团队来说，这都是一段里外不是人凄凄惨惨的日子。

↑↑↑ 产品形态（PPT截图）

当然，也是有收获的。在讨论场景以及新需求的价值时，我们研究出了一个价值评估维度，从不可替代性、实用价值、用户价值、市场价值和期待价值5个方面去评估应不应该做某个场景或某个需求。如果价值大于投入，那毋容置疑，是要做的；反之就不必浪费时间了。

也是有客户支持的。实际走访的一个客户给了我们很多建议，上面的核心场景就是根据用户的建议提炼出来的。没有他的证言，就无法推动产品的继续开发，更别提更新迭代了。这也证明了，客户需要才是产品活下去的王道。

也是有技术积累的。核心算法团队将代码的空间资源消耗降低了51%，并实现资源多进程复用。读写时间资源消耗降低97%；泛化准确率从73%提升到94%；误判率从9%降低到小于1%。（这个数据的解释权在我们团队的猫奴小哥哥那里，有质疑的请在留言中找我拿联系方式）

产品的未来与战略紧密相关

每次领导问到产品，都会表达：“一定要有产品思维！一个成功的产品一定要看有没有为核心用户创造有效价值，有没有为目标用户解决客观问题。” 作为一个当局者，我不得不承认，这个“定制版音箱”离成功还有很远的距离。我也不知道这个产品会不会有幸走到成功的那一天，但这个都是集团战略层面的问题了。就目前来看，我想我们是不是应该更集中一些，舍弃掉硬件？

亚马逊先开发了语音助理Alexa，通过Echo获得流量基础，然后开始推广自己的Alexa for business平台。金蝶本身具有一定的企业用户基础，只需要专注做好AI平台的建设。基于这么多年的企业ERP服务经验，如果金蝶能构建一个云端企业级自然语音交互服务平台，今后不仅可以对接叮咚的音箱，还可以对接到其他音箱和移动设备，还可以作为一项服务，提供给其他的企业管理软件。

不过平台的构建是一个耗费人力财力持久力的工作。核心算法工程师需要，整理数据的工程师也需要。据说BATH都有专门的人工智能数据工程师，是为数据打标签的人。正如思必驰的VP初敏在某次公开场合说道：“有多少人工就有多少智能，前期需要准备好数据。”

调研-2.png

↑↑↑ salesforce官网（截图）

最后还谈一点点关于小K角色的看法。我们给自己的企业人工智能平台定义为商务的，是在business context 下工作的，那么我们是不是就应该展示一个很严肃、很商务的形象呢？可以看看salesforce的智能助理Einstein。官网上，Einstein的形象是一个非常可爱的卡通小老头。他在野外帐篷边，烤火看星星，多么有情怀。在发布会上，他们用AR做了一个Einstein的形象来跟大家互动，多么有趣。

说了这么多，实际上我想表达，人总是视觉动物，看到产品的第一面，人们就会产生一个初期印象，对产品有一个期待。未来如果要给咱们的企业智能助理起名或者设计形象的时候，到底是应该偏商务还是偏可爱呢？或者再大胆一点，是否应该偏中国风呢？

31人点赞

还没有人点赞，快来当第一个点赞的人吧！

打赏

0人打赏

还没有人打赏，快来当第一个打赏的人吧！

赞 31 评论收藏 1