前言：本文是团员Zain的第5篇输出，欢迎有更多的团员们也来分享你的AI干货～

在前一篇《团员分享_〈语音用户界面设计〉读书摘录与笔记（上）_20200316》已总结

第1章导语

第2章：语音用户界面基本设计

第3章：人物模型、虛拟形象、演员和视频游戏

第4章：语音识别技术

第5章：语音用户界面设计进阶

本章内容远超第2章中已涵盖的内容，包含了更复杂的自然语言理解、情感分析、数据收集和文本转语音策略.

1.5.1 不同类型的语音输入

a) 1. 受限回复

(1) 与比较长的句子相比，短句子往往更难进行语音识别的解读和处理，所以相较于"好 (fine)" 而言，“我很好 (lam fine)" 更容易被正确识别.

b) 2. 开放式对话

(1) 即使vul无法正确处理信息，也可以通过自然的、对话式的方式来获取信息（通用回复）。

c) 3. 分类输入

(1)采用通用回复。

d) 4. 通配符和逻辑表达式

2.5.2 消除歧义

为什么会发生歧义：

a) 1.没有足够的信息

b) 2.当系统只需要一个信息，而用户提供的信息不止一条时

3.5.3 处理否定

a) 虽然处理这些否定词需要做些额外的工作，但一旦你忽略它们就可能要付出高昂的代价。例如，”不要辣“变成了”辣“（忽视了否定词）。

4.5.4 捕获意图和对象

用户通常只有一个”意图“，一些更高级的系统可以独立确认用户对于某个对象的意图。

5.5.5 对话管理

有些人会提前就给出所有信息，有些人会一点点地给出信息，为了解决这个问题，APP需要知道系统会需要哪些信息（这些信息点有时也被成为slot），以及以什么样的顺ao序来获取这些信息。

如果涉及到复杂的工作流，PM必须依靠构建复杂的流程图以支撑这个工作，需要有很强的逻辑性和专业性。

6. 5.6 不要瞧着用户不管

实际上，对着用户说“我能帮助你什么吗？”并不是一个好问题，因为当前的语音助手只能做很少一部分事情。

所以发散的请求大概率是没有足够好的回应的，帮助和通用化回答依旧重要。

7.5.7 VUI要显示识别到的信息吗

a) 在更多对话式的系统中(即用户会与系统进行一系列的对话)，显示用户所说的内容反而会分散用户的注意力，有时甚至会留下负面的印象.

考虑用户使用语音助手的场景，例如语音输入法，VUI必须展示识别到的信息。在用户只关心结果/语音识别效果较差（需要大量后处理逻辑）的时候，或许可以不展示了。

8.5.8 情感分析和情绪检测

a) 定义：在一段文本中对表达的观点进行定义和归类的计算过程，用于确定用户对某一特定主题、产品，以及其他内容的态度是肯定的、否定的还是中性的.

b) 求稳妥，不愿冒险。确地判断用户的情感状态是非常关键的，错误的检测结果会使你付出高昂的代价。

识别不出情感状态可能会减分，弄错情感状态会导致减到负分（产品体验）。

c) 千万不要直接说出用户的情绪，

d) 相对的，你应该用情感和情绪分析来引导谈话。

无法准确识别情绪-》“你怎么了吗？”-》根据更多语料判断。

9.5.9 文本转语音和预录语音

a) 如果某些信息当前还用不到，就先不要问用户。

总会有些信息可以默默地获取到。

10.5.10 说话者确认

主要依赖于声纹识别技术用户需走一个声音注册流程。

11.5.11 "唤醒"词

a) Amazon花了很多时间来调整唤醒词的识别灵敏度，使其在识别过度与识别不足之间的平衡.

12.5.12 语境

a) 利用基于上下文的信息来让你的用户界面看起来更智能，并节约用户的时间.

例如，你可以确认你的用户在哪个时区，并采用恰当的问候方式。如，"早上好""下午好"等.你也可以使用定位信息.比如当用户正在搜索一个餐厅时，如果你知道此时用户是在家里，而不是在办公室，这个信息将会影响本次搜索结果.

如果你每天都要问你的用户昨晚睡得怎样，不要表现得好像昨天什么都没发生一样.你可以根据之前的一些信息来改变你的提问方式.虚拟助理与其问”你昨晚睡了多少小时?"，不如这样问”我知道你这个星期有点儿睡眠不足.昨晚你睡了多少个小时?

b) 如果你能记住这些简单的细节，它们都将使你的VUI更有代入感、更可信，也更讨人喜欢.

要建立一个和用户信息相关的信息库存，这个库存应该由短期信息和长期的信息构成，并且作用支撑与和用户对话的时候的语境选择和内容处理.

13.5.13 高级多模态交互

在这里作者只是举了很少的例以后如果有这种多模态交互的产品要好好的留意和观察.

14.5.14 自助数据集

a) 常见问题解答(FAQ)、客服记录表格一用户通过网站与你公司沟通的任何记录都可以使用.这也包括了用户与聊天机器人的聊天文字记录.

b)2. 呼叫中心数据

15.5.15 高级自然语言理解(NLU)

a) 但是用户其实并不介意一个任务是否需要多个步骤才能完成，只要问题与问题之间看起来是相关的，并且用户觉得问题能一步一步得到解决，用户可以容忍很多问题.

不是所有场景都需要快速的一次性解决。

b) 人们已经有了一套如何自然说话的规则，我们需要遵循这些规则.

全书中有很多点提到了该观点：让机器配合人，而不是让人配合机器。

第6章：语音用户界面的用户测试

本章详细介绍vul的用户测试，与移动应用和网站的用户测试有哪些不同.本章将介绍低保真测试方法，远程测试和实验室测试.本章还将介绍如何测试汽车，以及其他没备的WI系统.

1.6.3 为真实用户设计研究方案

如题。

2.6.4 早期测试

a) 1. 示例对话

(1)应该展示出最常用的会话路径，以及一些不常见但非常重要会话路径，如错误校正.

(2)重要的是从一开始就得到开发人员认可，而不是在开发后期再给他们"惊喜".

b) 2. 原型

c) 3. 绿野仙踪测试法

(1) WOZ测试是"语音系统设计过程创造性的一部分，而不是用来校准即将完成的、马上就要开放给用户使用的摸型.”

d) 4. 文字短信法

e) 5. 专注于简短的任务

f) 6. 持续给出"错误输出"(error-out)

g) 7. 先测试Gul (尽管vul尚未完成)

第7章：完成VUI后，下一步该做什么

本章概述了当你的VUI在投入实际使用后所需要用到的方法论，包括如何以及通过哪些信息来分析并提升你的VUI系统. 但不要等产品发布后再阅读本章，因为在系统开发时，你就需要知道哪些日志需要记录，这一点很重要.

在产品发布后再确定成功的衡量标准会使设计和使用双方产生挫败感.

1.7.1 预发布测试

a) 1. 对话遍历测试

对于更复条的系统而言，完整的对话遍历测试可能过干昂贵且难以实现，如果系统确实很复杂，你要确保测试尽可能多的最佳路径(以及常见错误路径》

b) 2. 识别测试

c) 3. 负载测试

2.7.2 效果评估

a) 例如在语音识别功能完成之前进行WOz测试，由"座师"播放提示;或者通过纯文本文件进行测试. 请记住，测试用户是否能够以愉悦的状态完成任务非常重要，不仅仅是看这个功能是否有效.

b) 1. 任务完成率

任务可以在对话结束之前就完成.

c) 2. 流失率

(1)可能存在的现象有：

用户提前完成任务(例如前面提到的査看银行余额的例子).

提示过于混乱.

高频出现无匹配内容或不合语法的现象(即用户表示在该状态下没有得到预期的应答).

用户没有感觉到有任何收获.

d) 3. 其他待跟踪顷目

(1)除了任务完成率和流失率外，还有一些有用的细节可以用来记录和分析，如用户在某个本应说话的时间点沉默了，或他们经常在某个地方打断系统语音.

e) 4. vul的使用时长

(1) 如果用户能感觉到系统的引导，持续时间长不一定是坏事.

f) 5. 语音打断

(1) 如果你的用户经常在一些特定的或意想不到的节点打断语音，那就需要检査这个节点的提示语，同时也要检查引导用户至这个节点提示语，

(2) 在某个特定节点，有经验的老用户打断率特别高.对干那些交互次数超过某个最小值的老用户，你可以有针对性地缩短提示，而不是为两种类型的用户提供相同的提示语.

g) 6. 语音与Gul (图形用户界面)

对按钮交互进行埋点，观察语音交互和GuI交互的占比.

在一开始唤醒语音的时候，语音终止的时间可以长一些，在检测到用户说话以后，语音终止的时间可以变得短一些. 在置信度比较低的时候，可以走上下文的逻辑.和语境判断获取信息库里面的信息而不是直接拿识别到的，很有可能的错误结果给到用户.

h) 7. 高频次超时无应答和无匹配内容

(1) 正确拒绝意味着用户说的话确实无匹配内容，因为它不是该状态下预期的回复.

这类响应被称为超域.

(2) 另一种类型的无匹配内容是错误拒绝，这种情况意味着用户说的话vul其实能够处理，只是没有做出应答.这种情况往往发生在还未进行大量用户测试的早期阶段，因为设计者没有预料到用户可以用不同的方式来表达他们的请求.

这类响应被称为在域.

(3) 有些情况下，用户虽然说话了但系统依然会出现故障，追踪此类故障点是VUI成功的关键.如果用户说话时，系统还会发生故障，那么他们很快就会对你的系统失去信心.这时你要拟出一个持续改进计划(通过重复提示让用户知道该说什么，修正流程问题，并通过添加关键短语以提高识別性能，重复试验你的自然语言理解模型)，这样你的系统才能迅速改善并把用户吸引回来.

i) 8. 导航

(1) 如果你的App有前进按钮或后退按钮，追踪其使用流程可能会有重大发现.

(2) 如果你的App有"重复"功能，要注意检査哪些节点大量使用了此功能.

(3) 如果你的用户不断问同一个问题，比如"这个星期天气怎么样?”最好深人研究一下原因.

这个最好还是用文本聚类的方式去做要不一个一个用户的去查看他们的语音日志会需要很庞大的工作量.

j) 9. 延迟

(1) 延迟表示识别器在语音结束时被触发到返回识别结果所需要的时间.

k) 10. 完整呼叫记录

(1) 所有的一切，包括系统说了什么，都被记录为一个连贯的区块.这需要更多的存储空间，通常只在调用的子集上执行。

大公司是怎么解决数据存储的问题的？纯粹使用数据存储优化技术或者是利用资金去支撑数据服务器吗？感觉以现在这个数据量增加的速度来看的话还不够.

3.7.3 曰志

a) 日志内容可以包括：

识别结果（当用户说话时，识别引擎听到的内容，及其可信度).

如果可以的话，记录N-Best列表(可能的假设列表).

每个状态下用户语音的音频，包括该时间点前后的语句(用于转录，因为识别结果无法100%准确).

识别器匹配的内容.

错误情况，包括无语音超时(包括计时信息)、无匹配内容和错误识别等.

状态名称(或其他跟踪用户在APP中的位置的方法).

延迟.

如果出现打断，记录打断信息.

b) 记录的音频信息必须是匿名的，不能用于其他用途.

4.7.4 转录

a) 记录每一个人的话语，然后进行离线转录.

5.7.5 发布阶段

a) 除非你从真实用户处收集到数据，否则你无法评估人们与系统对话时各种各样的方式.且你面对的这些用户的行为必须是真实的，有结果导向的，执行此任务对他们来说是非常重要的.

找到真实的用户去试用，而不是找你的同事或者上下级

6.7.6 调研

a)调研本质上是带有偏见的：一般来说，那些选择接受调査的人往往是那些最满意的或最不满意的人.

7.7.7 分析

a) 1.符合语法的数据正确接收：识别引擎返回正确答案.(“我最喜欢的颜色是红色.”→“红色”)

错误接收：识别引擎返回错误答案.(“我错过了那个问题，但我最喜欢蓝绿色.”一“蓝色”)

错误拒绝：识别引擎找不到一个合乎语法的合适匹配内容，干是选择拒绝给出答案.(”我认为洋红色很美-无匹配内容）

b) 2. 不合语法的数据•

正确拒绝：识别引擎正确地拒绝输入.("我想预定一个宾馆."一无匹配内容)

错误接收：识别引擎返回错误答案，因为输入内容不合语法.(”我在看报纸.”''—+ "红色”)

c) 3. 置信度阔值

d) 4. 语音终止超时 (end-of-speech)

看看用户是否经常被系统挂断.

e) 5. 中间结果与最终结果。一些ASR工具(包括Google的)，允许你实时收到中间结果.这意味着你的vul可以在用户说完之前就匹配用户输人内容.这样能使App反应更快，

g) 提示

(1) 如果你注意到很多无匹配内容的现象，一定要查看提示语.

8.7.8 工具

a) 在volio中有这样一个工具，可以便捷地展示特定状态下发生的无匹配内容.你可以通过拖拽添加新的关键短语，并将这些变化推送到测试环境中。

第8章：带语音功能的设备和汽车

最后一章侧重子之前章节中没有介绍过的VUI系统."设备" 一节将包括家庭助理设备和可穿戴设备."汽车和无人驾驶车辆"一节回顾了汽车VUI设计中的挑战和最佳实践.本章的大部分内容主要由这些领域的专家们贡献.

在设计汽车体验时1 安全性和可用性一样重要. 指导唯则明确指出，司机的视线不应该离开公路超过2秒，这在任何情况下都可能是过长的.在合理的时候，手机App可以把内容先暂存到屏幕上; 相比之下，汽车的VUI就没有这种功能.因此，VUI的设计坪需要设计出一个尽可能不依赖屏幕的VUI，而设计汽车语音交互的关健点在于帮助用户避免在开车时看手机的诱惑.

我特别喜欢走进家后，Alexa能够直接从车栽蓝牙中断的那部分开始播放小说.那是一种神奇的体验.

怎么感觉能马上导入我的网易云歌单进车载的歌单列表是一个很大的痛点.

vui不仅使用在电话上.它们的功能将扩展到汽车、你的手腕，甚至你的冰箱上.各类不同的没备都有各自不同的设计难题.

附：团员Zain的历史文章汇总

1、《一文了解“智能货柜”（“新零售+AI”方向）_20190722》

2、《CV领域“识别错误”场景介绍及解决方案（以智能货柜为例）20190912》

3、《团员分享_〈语音用户界面设计〉读书摘录与笔记（上）_20200316》

4、《团员分享_〈语音用户界面设计〉读书摘录与笔记（中）_20200320》

5、《团员分享_〈语音用户界面设计〉读书摘录与笔记（下）_20200323》

-END-

以上内容，来自饭团“AI产品经理大本营”，点击这里可关注：http：//fantuan。guokr。net/groups/219/ （如果遇到支付问题，请先关注饭团的官方微信服务号“fantuan-app”）

---------------------

作者：黄钊hanniman，图灵机器人-人才战略官，前腾讯产品经理，7年AI实战经验，10年互联网背景，微信公众号/知乎/在行ID“hanniman”，饭团“AI产品经理大本营”，分享人工智能相关原创干货，200页PPT《人工智能产品经理的新起点》被业内广泛好评，下载量1万+。