前言：本文是团员Zain的第3篇输出，欢迎有更多的团员们也来分享你的AI干货～

关于本篇

原文为默认文字，

有引用标识则为个人的笔记。

部分章节存在跳过某些小节的情况，请酌情阅读。

文章导读

不要为了使用语音交互而使用语音交互.

任何形式的交互都有其适应的场景，不仅仅是GUI、VUI、VUI+GUI，还包括多模态.多模态不是万能解决方案，要根据真实场景，寻找用户痛点（即”解放双方“）去设计VUI.

关于VUI，我认为全书的核心论点可以提炼为”找到用户使用VUI效能>使用GUI效能更高的点，然后去设计一个好功能/产品吧“.

VUI设计四个准则

质的准则：所说的话需是自己相信的真实的信患.

量的准则：所说的话需满足交际中所需的信息量，但不应超出交际所需的信息量.

相关准则：所说的话需与当前对话有关.

方式准则：说话需清晰，明了.

当你使用语音作为主要通道进行交互，线性传输的音频信息通过耳和口传递干人机之间时，很难徘除来自视觉通道信息的干扰。

此时我们可以通过视觉和语音的强关联性来强化语音交互(例如带屏幕的Echo show)，抑或是给用户的XX译者序视线设计一个落点，减少其他的视觉干扰.

视觉、听觉、味觉、嗔觉、触觉，以某一个近似恒定的频次和信息比例与外界进行交互，体现了知觉恒常性.

如果信息量超出人类某个感官（眼耳口鼻）的负载，可以增加其他感官去承载，并且要注意传递信息的一致性.

第1章导语

本章介绍VUI系统简史，以及VUI系统是否适合你和你的应用程序.本章还讲述了 "对话式"的含义，并对聊天机器人(chatbot)做了简介.

你要问你自己："VUI是否真的能给你的用户带来好处?”

重复，贯穿全书的要点：”找到用户使用VUI效能>使用GUI效能更高的点”

为了使自己被对方理解并进行有意义的交谈，谈话的参与者必须分享信息.

人类为什么要沟通？本质上是需要获取信息；如何沟通，把当下需要的信息不断的抛出来.

机器人应该用来提升用户体验，而不是仅仅用来减轻客户支持团队的工作量.

即便设计语音系统，第一优先考虑的依旧是用户而非内部团队，一个体验糟糕的语音交互系统很快就会对客户支持团队造成其他的影响.

第2章：语音用户界面基本设计

本章为读者创建一个VUI系统打下了基础.本章会以专题形式，阐述设计工具，会话信息确认、错误行为处理，以及如何处理新手用户和专家用户等基本设计原则.

2.2.3 设定用户期望

我很自然地说了 "微笑!”，然后照相机自动拍照了.干是我很快发现，说"1…2…3!"或者"逾子!”的时候它也会拍照。这是借助用户自然语言进行功能设计的绝佳例子。

AIPM要想办法通过某些渠道提前控制使用者对产品的预期。

2B的AI产品要在培训时点明现阶段支持什么,不支持什么,哪些场景靠AI是不靠谱的.不然客户购买了产品回去心理落差很大.又要有技巧的通过一些话术使得客户有期待.在商务会议场景下,又要适当的“放大”产品能力。

2C的AI产品通过前端交互引导、品牌认知广告一些方式,引导用户的对产品技术和体验的心智发展。

在上面，作者展示了再VUI场景下，优秀的产品设计，良好的用户体验，超出用户预期的例子。

3.2.4 设计工具

示例对话

视觉原型

流程图

4.2.5 确认策略

以下内容完整的介绍了如何为VUI设计一套体验良好的确认策略。但也仅仅是良好，达到优秀水平需要产品经理和算法不断针对具体细分场景去进行设计和算法优化，极度依赖实践经验。

a) 过度的确认也许能确保信息的准确度，但同时也会让人抓狂.。

b) 在决定VUI的确认策略时，可以参考以下几点：

错误的后果是什么?(会预订错误的航班吗?钱会被转移到错误的账户吗?旅行者会听到错误城市的天气吗?)

系统将以什么形式进行反馈?(会有音频提示吗?会有非文本的视觉反馈吗?比如hwonEcho上的光环.)

会有一个小屏幕吗?如智能手表或者像iphone那样的中号大小的屏幕?

以什么形式来确认是最合适的?(明确的确认还是含蓄的，或者是混合式的确认?)

c) 语音识别引擎通过置信度阈值来让你知道，它认为它的执行情况如何.

1. 显性确认即强制用户确认信息.

2. 隐性确认让用户知道他的话接收到了，但不需要他们确认.

(1) 方法一：三级置信度

用户：再买一些纸巾. VUI： (置信度大于80%，使用隐性确认)好的，已经为您i了购了更多纸巾……(置信度为43% ~ 79%，使用显性确认)我想您是希望订购更多纸巾，是吗? (置信度小于45%)对不起，我没有听淸您讲的话，您想买些什么?

(2) 方法二：隐性确认

世界上最高的山峰是什么?” 一个采用隐性确认的系统会马上回答说："世界上最高的山峰是珠穆朗玛峰.”它会将答案和连同原始的问题的一部分一同回复我，让我知道系统识别到了我的问题.

这里还有一些隐性确认的例子： • "旧金山的天气是……”• "好的，我已经为您预约了明天早上十点的会面.”• "好的，我给你讲一个故事……”• "猎豹是最快的陆地动物.”

(3) 方法三：非语言式确认

另一种确认方法汉需要使用行动反馈，而不需要口头响应.举个例子，假设你正在创建一个应用程序来控制你家的灯光开关.当你说："打开圣诞树的灯.”井且对应的灯光也应声开启时，

如果灯光要花几秒钟才能亮起来，那么此时让系统先回复"好的"或者"我知道了"来让用户知道后面会发生什么

还有一种不使用语音，但使用音频的确认方法是，使用一个"声音标识(earcon)"，即一个简短的，有识别度的声音.在511JVR 系统(提供交通和运输信息)中，当用户返回到主菜单时，会播放一个特定的短音效.

(4) 方法四：通用确认

让这类通用确认随机答复，可以让对话变得更有趣。

类似“PUA话术”。在需求明确后，情感是最重要的东西。

(5) 方法五：视觉确认

5.2.6 命令一控制模式和对话模式

a) 要知道您的—设计适合哪种类型，请先回答以下问题：

用户可以随时向系统询问/发出命令吗?(例如siri、GoogleNow， Amazon Echo， Houndo)

用户是否会参与d个有明确开始和结束的封闭式对话? (例如chatbot、游戏、虚拟角色.）

b) 1. 命令一控制模式

(1) 当用户按下按钮后，系统通常采用非语言性的音效(比如"B" 的一声)或者(也可能同时使用)视觉反馈(如声波线、点状动效、设备遂渐发光)的方式进行响应.然后用户就能知道，系统正在於听，自己可以开始说话了 (见图2-12).

(2) 当系统觉得用户己经说完时，通常会使用某种非语言的音效进行

提示(比如siri音调向上的音效)，然后作出响应。识别用户何时停止讲话又称为"终结点检测"(endpoht detection)，将在第4 章详细讨论这个问题。

(3) 谨慎确定你系统的时间窗口，即在用户说出唤醒词或按下按钮后，系统保持跨听状态的时长.如果时间太短，你会遗漏那些在说话之前有短暂犹豫的人说的话;如果时间太长，系统可能听到一些用户并不打算对系统说的话。根据经验来看，10秒是一个不错的起始长度.。

c) 2. 对话模式

通过更精细的设计，VUI系统可以处理一些常见的微妙的表达方式.例如，用户可能会在一件事务处理完毕时说一声"谢谢"。你可以设置系统忽略这种情况，或者回复"不用客气"，而不是提示或者报错。

关注峰终，和长尾。

6.2.7 对话式标识

a) 对话式标识是让用户了解交谈进展以及进展情况的重要方式.当系统在对话中使用了一些基本的对话礼仪后，用户的参与度会更高，并且会以同样的方式进行回复.它们就像"胶水"一样，将交互中的各个部分连接在一起.

b) 对话式标识包括以下3个方面。

时间线(”首先""完成一半了""最后”).

接收回执(”谢谢""知道了""好的"以及"我很抱歉”).

积极反馈("千得好""很高兴听到这个消息”)

了解语言学。

c) 写一个示例对话(即系统和用户之间的来回对话)，然后一人负责一个角色进行剧本朗读.你很快就能发现对话中呆板、不自然，以及显得过干冗长而让用户感受到挫败感的地方。

在整本书中，作者多次在不同的章节提到了该方法，可用作体验设计优化、系统测试多个地方。

7.2.8 异常处理

a) 下面有几种VUI可能出错的情况：

未检测到语音.

检测到语音，但没有识别.

语音被正确识别，但系统无法处理.

部分语音识别错误.

b) 1. 未检测到语音

(1) 到底使用哪种方式？这取决于你的APP.。当满足以下情况时，你应该"明确地说出来"：

你的系统只使用语音(比如IVR系统).

用户没有其他的回复方式(比如手机上的触控按键).

必须要用户回复后，系统才能继续进行任务/对话.

(2) 而下面这些情况，更适合"什么也不做"：

用户可以通过其他方式进行下一步操作(比如通过按键选择一个回复).

就算什么也不做，也不会中断对话.

当有一个视觉提示告诉用户系统没有理解时，

i) 为什么不能干脆谨慎些，在每次语音识别不到时都提醒用户再说一次呢?因为那样会很烦人。人类有许多方法来表明他们还不理解对方所说的话，最常见的(有效的)方式之一就是什么都不说。

想想两个人面对面对话的场景，在交谈的时候，我经常会当对方没有反馈时重复进行说明。

ii) VUI设计师应该利用人类已经适应的对话规则，而不是不断地告诉自己没有听懂(并使他们对系统失去信心)，使用一些微妙的反馈同样有效.。

在整本书中，作者也同样几次提及了这样一个设计观点“让语音系统尽可能适应人类语音，并且考虑用户情感”。

c) 2. 检测到语音，但没有识别

(1) 这种情况的处理策略和"未检测到语音"非常相似：

明确地说出来(比如，"对不起，我没听清楚.那个餐厅叫什么?”或者"对不起，你说什么?”).

i) 小心使用这样的回复."谁，我吗?”在头几次可能显得可爱，但我也看到一些用户披这些没用的回复激怒了.

但用户一直想追究、询问这个问题，怎么办。即便有随机选择答案回复，但是最多只能三五个很容易让人厌烦，这个时候可能要指引用户问别的。

有时候明确的告诉用户我还不能做什么，通过一个真诚的沟通方式，或许也不错。

(2)什么也不做。

让用户干等总不太好，所以语音唤醒率是业内最常用来评断技术水平和做商用公关宣传的指标。

我个人经验：在叫语音设备三次以上无法回应后（两次以内体验是OK的，但是多了也不行），很大概率会放弃，甚至“开口骂”，所以是不是可以检测用户抱怨设备的语句，开启语音唤醒。

d) 3. 语音被正确识别，但系统无法处理

(1) 如何处理这些情况？对用户可能会说到的所有情况做更完善的预测。关于如何通过数据收集来避免此问题，请参阅第5章.

e) 4. 部分语音识别错误

f) 5. 增强错误提示

(1) 如果你正在设计一个可以提供真人辅助的系统，可以为错误数量设置一个阔值.当达到该闽值时，将用户转移给人工助手。

8. 2.9 不要责怪用户

a) 在任何时候都不要责怪用户，你可以责怪其他的内容，至少你可以责怪系统。

和GUI产品一样，避免陷入“这么明显用户都不会用”的认知陷阱。

9. 2.10 新手和专家用户

a) "启动效应"是指某人受到某种特定的刺激后(例如一个词语或者图像)会影响他们对之后刺激的反应.例如，如果你一直在看一个关于路能(llamas) 的自然节目，然后有人要求你说出一个以字母"L"开头的动物，你很有可能说路能(llama)，而不是狮子(lion)。

(1) 让用户预先知道，你会问他们几个确定数量的问题也是一种利用启动效应的方式：它为后面会发生的事情提供了暗示，用户就会知道如何去准备。

(2) 如果你的VUI是以某种特定的方式来确认命令，它将促使用户在之后也使用类似的方式来进行表达.举例来说，如果我说：”我想听Barenaked Ladies的歌曲《Call and Answer))." 然后我的VUI回应："播放Barenaked Ladies 的《Call andAnswer»o"这样下次我可能就会直按说："播放。

虽然说语音交互系统的回复需要尽可能贴合人类语言学，但也可以利用一些设计方法在潜移默化中引导用户。

10.2.11 持续跟踪上下文

a) 用两个不同的词语指同一个东西的做法叫作指代，指代是沟通的重要组成部分，没有它，谈话很快就无法进行。

为什么需要持续跟踪上下文，因为信息一旦抛出来后，用户会认为对方已记录。

b) 要预先知道你的系统需要跟踪的所有内容可能有点难，但你可以从最基本的开始做起，并根据用户实际说的内容构建基础(详见第5章)。

11.2.12 帮助和其他通用部分

a) 当我在设计IVR系统时，我们会确保毎个状态都包含一组通用组件：重复、主菜单、帮助、操作和再见。

b) 尽管我们的IVR设计师已试图训练用户多年，用户依然不怎么习惯用这种通用短语.因此，不仅要考虑该提供何种类型的帮助，而且还需要考虑用户可能会如何表达。

例如，用户可能会问 "Alexa，你能做什么?".或者问Cortana， "你能为我做些什么?"，或者对Google说"OR GOOgle，我可以说什么?”事实上，如果你只是按了麦克风按钮而什么都不说，0K Google就会在屏幕上显示一些可以操作的例子。

我从来没有使用过帮助功能，可能因为现在的设备并没有承载太多任务型的需求。

c) 在GUI命令中设计一个"帮助" 或"信息"按钮，能让用户立马就知道如何使用帮助。

d) 用户需要一种方法来知道，它们真正能做的事有哪些。

e) 大家发现，人们已经习惯于在结束电话交谈时和对方说再见，并且当人们在使用IVR系统时依然经常这么做，甚至有时人们会因为直接挂断电话结束交谈而感到不舒服。

511IVR系统是这么做的：当置信度为中等，系统会说，"我想我听见你说再见了。你真的想退出系统吗?”

f) 返回"对子像Google这种交互路径短的产品来说，并不是必要功能；但是对于一个任务导向的对话而言，"返回"功能非常有用. 在不同的对话任务中，"返回"可能对应着不同的含义。

12.2.14 消除歧义

如何消除歧义：

如果可能的话，你可以依靠任何已知的信息来确定答案，而不用再次询问用户。

你还可以使用其他上下文线索进行判断。

如果没有足够的上下文信息来帮助判断，系统就需要让用户来进行确认。

d) 此外，一定确保系统对用户各种各样的回复形式都有的适应性：用户可能会说"伊利诺伊州的斯普林菲尔德"或只说"伊利诺伊州”，甚至回答说"第一个"（你可以继续拓展更多的可能性）。

e) 当一个用户的指令不明确时，也需要消除歧义。

f) 用户回答的信息超过了你的VUI系统可以处理的范围时，你也可能需要消除歧义。

13.2.13 延迟

(1) 延迟通常由以下原因产生。

糟糕的连接性能

系统处理进程

数据库访问.

(2) 告知用户关干延迟的情况("请稍等，正在査找相关记录”)，也可以用非语音和视觉的提示，比如延迟提示音(通常用干IVR系统)或者可视化效果(比如加载中的动态圓标)，。

(3) 如果在系统说"请稍等"之后，紧接着就继续对话的话，会给用户带来异样的感受.如果你已经给了用户一段延迟的感觉，就不要破坏这种感觉。

(4) 有时候处理语音时也可能发生延迟.因此，很多设备针对唤醒词都采用了本地化识别的方式，这样唤醒会更快。唤醒后，其他的音频还是会上传至云端进行识别处理。

这基本是现在的语音交互设备普遍的方案了。

13. 2.15 设计文档

a) 示例对话(sample dialogs) 和会话流(dialog flow)文档、

b) 提示列表有以下几种用途：

为配音演员提供需要录制的文案列表。

从用户那里得到确认。

为TTS引擎提供输入。

c) 关键短语

许多系统都支持通过指定关键短语而不是确切的句子，或者使用机器学习(通过输入一组样本)来映射用户的意图。

14.2.16 无障碍设计

a) 我们从无障碍设计中总结了一些在VUI设计中也颇为适用的做法：

交互应该是省时、高效的。

交互应该提供上下文语境.。

交互应该优先考虑个性化，而不是个性。

b) App：请告诉我你的完整地址.。用户：华盛顿哥伦比亚特区冥夕法尼亚大道1600号，邮编是20009o 这次用户只需要进行一次交互就能完成任务.就算你再追加一个确认提示(”你是说宾夕法尼亚州大街1600号，对吗?”). 相比上一种交互，完成同样任务所需的步骤还是减少了一半，给人感觉响应更加及时.。

c) 为你的用户提供控制语速的功能，尽管这个功能不是每个用户都用得上，但对干那些用得上的用户来说，这个功能可以让他们用起来更便捷。

d) 随时打断。

后续会有章节专门讲打断场景的设计。

e) 用户还有可能会忘记他们之前在做什么。这种时候，用户可求助于一个更明确的操作方式。

f) 用户随时可以请求帮助，并且帮助信息应该能帮助用户重新定位到他当前在应用程序中所处的上下文环境.下面这个例子展示了用户通常表达疑惑的方式. • "求助.”(help.) • "我该说什么? ” (what can 1 say t) • "我进行到哪一步了? ” (whereaml.? ) • "嗎…...我很疑惑."(Umm， I'm confused.) • [沉默](在APP提示用户说话之后)

帮助消息应将用户重新定向到当前会话的上下文，并提示用户如何执行下一步操作。

g) 有人提出了 "通用设计"的概念.当系统在设计和研发时充分考虑了残障人群时，最终受益的还有是那些没有残障的普通人。

为了确保你的系统可供所有人使用，我们不能只依据某些用户"首选"的摸式进行设计，否则其他人将无法使用你的系统. 此处最需要注意的是，设计者不应该去假设所有的用户会以某种模式来访问系统，所有的访问模式都应该随时可用。

对子有视觉或运动障碍的用户，务必确保所有的操作都可以通过语音UI界面进行.不要依赖LED指示灯，或者要求用户去看语音设备对座App的视觉界面.多模态交互应该可供用户选择，而不应要求用户去适应你.

许多设计原则适用于所有用户——我们总有因为压力或睡眠不足而认知能力受损的时候，我们都会变老，然后视力衰退，你可以通过调整对比度，字体大小，以及色彩饱和度来让文本更易干阅读，并具有良好可视性，而这就是好的设计。

未完待续……

第3章：人物模型、虛拟形象、演员和视频游戏

第4章：语音识别技术

第5章：语音用户界面设计进阶

第6章：语音用户界面的用户测试

第7章：完成VUI后，下一步该做什么

第8章：带语音功能的设备和汽车

附：团员Zain的历史文章汇总

1、《一文了解“智能货柜 ”（“新零售+AI”方向）_2 01 9 0 722》

2、《C V 领域“识别错误”场景介绍及解决方案（以智能货柜为例）2 019091 2》

3、《团员分享_〈语音用户界面设计〉读书摘录与笔记（上）_20200316》

-END-

以上内容，来自饭团“AI产品经理大本营”，点击这里可关注：http：//f an tu an。guokr 。net/groups/21 9/ （如果遇到支付问题，请先关注饭团的官方微信服务号“fantuan-app”）

---------------------

作者：黄钊hanniman，图灵机器人-人才战略官，前腾讯产品经理，7年AI实战经验，10年互联网背景，微信公众号/知乎/在行ID“hanniman”，饭团“AI产品经理大本营”，分享人工智能相关原创干货，200页PPT《人工智能产品经理的新起点》被业内广泛好评，下载量1万+。

复制图片
下载图片