前言:本文是团员Zain的第5篇输出,欢迎有更多的团员们也来分享你的AI干货~
在前一篇《团员分享_〈语音用户界面设计〉读书摘录与笔记(上)_20200316》已总结
本章内容远超第2章中已涵盖的内容,包含了更复杂的自然语言理解、情感分析、数据收集和文本转语音策略.
(1) 与比较长的句子相比,短句子往往更难进行语音识别的解读和处理,所以相较于"好 (fine)" 而言,“我很好 (lam fine)" 更容易被正确识别.
(1) 即使vul无法正确处理信息,也可以通过自然的、对话式的方式来获取信息(通用回复)。
(1)采用通用回复。
为什么会发生歧义:
b) 2.当系统只需要一个信息,而用户提供的信息不止一条时
a) 虽然处理这些否定词需要做些额外的工作,但一旦你忽略它们就可能要付出高昂的代价。例如,”不要辣“变成了”辣“(忽视了否定词)。
用户通常只有一个”意图“,一些更高级的系统可以独立确认用户对于某个对象的意图。
有些人会提前就给出所有信息,有些人会一点点地给出信息,为了解决这个问题,APP需要知道系统会需要哪些信息(这些信息点有时也被成为slot),以及以什么样的顺ao序来获取这些信息。
如果涉及到复杂的工作流,PM必须依靠构建复杂的流程图以支撑这个工作,需要有很强的逻辑性和专业性。
实际上,对着用户说“我能帮助你什么吗?”并不是一个好问题,因为当前的语音助手只能做很少一部分事情。
所以发散的请求大概率是没有足够好的回应的,帮助和通用化回答依旧重要。
a) 在更多对话式的系统中(即用户会与系统进行一系列的对话),显示用户所说的内容反而会分散用户的注意力,有时甚至会留下负面的印象.
考虑用户使用语音助手的场景,例如语音输入法,VUI必须展示识别到的信息。在用户只关心结果/语音识别效果较差(需要大量后处理逻辑)的时候,或许可以不展示了。
a) 定义:在一段文本中对表达的观点进行定义和归类的计算过程,用于确定用户对某一特定主题、产品,以及其他内容的态度是肯定的、否定的还是中性的.
b) 求稳妥,不愿冒险。确地判断用户的情感状态是非常关键的,错误的检测结果会使你付出高昂的代价。
识别不出情感状态可能会减分,弄错情感状态会导致减到负分(产品体验)。
d) 相对的,你应该用情感和情绪分析来引导谈话。
无法准确识别情绪-》“你怎么了吗?”-》根据更多语料判断。
a) 如果某些信息当前还用不到,就先不要问用户。
总会有些信息可以默默地获取到。
主要依赖于声纹识别技术 用户需走一个声音注册流程。
a) Amazon花了很多时间来调整唤醒词的识别灵敏度,使其在识别过度与识别不足之间的平衡.
a) 利用基于上下文的信息来让你的用户界面看起来更智能,并节约用户的时间.
例如,你可以确认你的用户在哪个时区,并采用恰当的问候方式。如,"早上好""下午好"等.你也可以使用定位信息.比如当用户正在搜索一个餐厅时,如果你知道此时用户是在家里,而不是在办公室,这个信息将会影响本次搜索结果.
如果你每天都要问你的用户昨晚睡得怎样,不要表现得好像昨天什么都没发生一样.你可以根据之前的一些信息来改变你的提问方式.虚拟助理与其问”你昨晚睡了多少小时?",不如这样问”我知道你这个星期有点儿睡眠不足.昨晚你睡了多少个小时?
b) 如果你能记住这些简单的细节,它们都将使你的VUI更有代入感、更可信,也更讨人喜欢.
要建立一个和用户信息相关的信息库存,这个库存应该由短期信息和长期的信息构成,并且作用支撑与和用户对话的时候的语境选择和内容处理.
在这里作者只是举了很少的例 以后如果有这种多模态交互的产品 要好好的留意和观察.
a) 常见问题解答(FAQ)、客服记录表格一用户通过网站与你公司沟通的任何记录都可以使用.这也包括了用户与聊天机器人的聊天文字记录.
a) 但是用户其实并不介意一个任务是否需要多个步骤才能完成,只要问题与问题之间看起来是相关的,并且用户觉得问题能一步一步得到解决,用户可以容忍很多问题.
不是所有场景都需要快速的一次性解决。
b) 人们已经有了一套如何自然说话的规则,我们需要遵循这些规则.
全书中有很多点提到了该观点:让机器配合人,而不是让人配合机器。
本章详细介绍vul的用户测试,与移动应用和网站的用户测试有哪些不同.本章将介绍低保真测试方法,远程测试和实验室测试.本章还将介绍如何测试汽车,以及其他没备的WI系统.
如题。
(1)应该展示出最常用的会话路径, 以及一些不常见但非常重要会话路径,如错误校正.
(2)重要的是从一开始就得到开发人员认可,而不是在开发后期再给他们"惊喜".
(1) WOZ测试是"语音系统设计过程创造性的一部分,而不是用来校准即将完成的、马上就要开放给用户使用的摸型.”
本章概述了当你的VUI在投入实际使用后所需要用到的方法论,包括如何以及通过哪些信息来分析并提升你的VUI系统. 但不要等产品发布后再阅读本章,因为在系统开发时,你就需要知道哪些日志需要记录,这一点很重要.
在产品发布后再确定成功的衡量标准会使设计和使用双方产生挫败感.
对于更复条的系统而言,完整的对话遍历测试可能过干昂贵且难以实现,如果系统确实很复杂,你要确保测试尽可能多的最佳路径(以及常见错误路径》
a) 例如在语音识别功能完成之前进行WOz测试,由"座师"播放提示;或者通过纯文本文件进行测试. 请记住,测试用户是否能够以愉悦的状态完成任务非常重要,不仅仅是看这个功能是否有效.
任务可以在对话结束之前就完成.
(1)可能存在的现象有:
(1)除了任务完成率和流失率外,还有一些有用的细节可以用来记录和分析,如用户在某个本应说话的时间点沉默了, 或他们经常在某个地方打断系统语音.
(1) 如果用户能感觉到系统的引导,持续时间长不一定是坏事.
(1) 如果你的用户经常在一些特定的或意想不到的节点打断语音,那就需要检査这个节点的提示语,同时也要检查引导用户至这个节点提示语,
(2) 在某个特定节点,有经验的老用户打断率特别高.对干那些交互次数超过某个最小值的老用户,你可以有针对性地缩短提示,而不是为两种类型的用户提供相同的提示语.
对按钮交互进行埋点,观察语音交互和GuI交互的占比.
在一开始唤醒语音的时候,语音终止的时间可以长一些,在检测到用户说话以后,语音终止的时间可以变得短一些. 在置信度比较低的时候,可以走上下文的逻辑.和语境判断获取信息库里面的信息而不是直接拿识别到的,很有可能的错误结果给到用户.
(1) 正确拒绝意味着用户说的话确实无匹配内容,因为它不是该状态下预期的回复.
这类响应被称为超域.
(2) 另一种类型的无匹配内容是错误拒绝,这种情况意味着用户说的话vul其实能够处理,只是没有做出应答.这种情况往往发生在还未进行大量用户测试的早期阶段,因为设计者没有预料到用户可以用不同的方式来表达他们的请求.
这类响应被称为在域.
(3) 有些情况下,用户虽然说话了但系统依然会出现故障,追踪此类故障点是VUI成功的关键.如果用户说话时,系统还会发生故障, 那么他们很快就会对你的系统失去信心.这时你要拟出一个持续改进计划(通过重复提示让用户知道该说什么,修正流程问题, 并通过添加关键短语以提高识別性能,重复试验你的自然语言理解模型),这样你的系统才能迅速改善并把用户吸引回来.
(1) 如果你的App有前进按钮或后退按钮,追踪其使用流程可能会有重大发现.
(2) 如果你的App有"重复"功能,要注意检査哪些节点大量使用了此功能.
(3) 如果你的用户不断问同一个问题,比如"这个星期天气怎么样?”最好深人研究一下原因.
这个最好还是用文本聚类的方式去做 要不一个一个用户的去查看他们的语音日志会需要很庞大的工作量.
(1) 延迟表示识别器在语音结束时被触发到返回识别结果所需要的时间.
(1) 所有的一切,包括系统说了什么,都被记录为一个连贯的区块.这需要更多的存储空间,通常只在调用的子集上执行 。
大公司是怎么解决数据存储的问题的?纯粹使用数据存储优化技术或者是利用资金去支撑数据服务器吗?感觉以现在这个数据量增加的速度来看的话 还不够.
a) 日志内容可以包括:
a) 记录每一个人的话语,然后进行离线转录.
a) 除非你从真实用户处收集到数据,否则你无法评估人们与系统对话时各种各样的方式.且你面对的这些用户的行为必须是真实的,有结果导向的,执行此任务对他们来说是非常重要的.
找到真实的用户去试用,而不是找你的同事或者上下级
a)调研本质上是带有偏见的:一般来说,那些选择接受调査的人往往是那些最满意的或最不满意的人.
a) 1.符合语法的数据正确接收:识别引擎返回正确答案.(“我最喜欢的颜色是红色.”→“红色”)
错误接收:识别引擎返回错误答案.(“我错过了那个问题, 但我最喜欢蓝绿色.”一“蓝色”)
错误拒绝:识别引擎找不到一个合乎语法的合适匹配内容, 干是选择拒绝给出答案.(”我认为洋红色很美-无匹配内容)
b) 2. 不合语法的数据•
e) 5. 中间结果与最终结果。一些ASR工具(包括Google的),允许你实时收到中间结果.这意味着你的vul可以在用户说完之前就匹配用户输人内容.这样能使App反应更快,
(1) 如果你注意到很多无匹配内容的现象,一定要查看提示语.
a) 在volio中有这样一个工具,可以便捷地展示特定状态下发生的无匹配内容.你可以通过拖拽添加新的关键短语,并将这些变化推送到测试环境中。
最后一章侧重子之前章节中没有介绍过的VUI系统."设备" 一节将包括家庭助理设备和可穿戴设备."汽车和无人驾驶车辆"一节回顾了汽车VUI设计中的挑战和最佳实践.本章的大部分内容主要由这些领域的专家们贡献.
在设计汽车体验时1 安全性和可用性一样重要. 指导唯则明确指出,司机的视线不应该离开公路超过2秒,这在任何情况下都可能是过长的.在合理的时候,手机App可以把内容先暂存到屏幕上; 相比之下,汽车的VUI就没有这种功能.因此,VUI的设计坪需要设计出一个尽可能不依赖屏幕的VUI, 而设计汽车语音交互的关健点在于帮助用户避免在开车时看手机的诱惑.
我特别喜欢走进家后,Alexa能够直接从车栽蓝牙中断的那部分开始播放小说.那是一种神奇的体验.
怎么感觉能马上导入我的网易云歌单进车载的歌单列表是一个很大的痛点.
vui不仅使用在电话上.它们的功能将扩展到汽车、你的手腕, 甚至你的冰箱上.各类不同的没备都有各自不同的设计难题.
附:团员Zain的历史文章汇总
1、《一文了解“智能货柜”(“新零售+AI”方向)_20190722》
2、《CV领域“识别错误”场景介绍及解决方案(以智能货柜为例)20190912》
3、《团员分享_〈语音用户界面设计〉读书摘录与笔记(上)_20200316》
4、《团员分享_〈语音用户界面设计〉读书摘录与笔记(中)_20200320》
5、《团员分享_〈语音用户界面设计〉读书摘录与笔记(下)_20200323》
-END-
以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan。guokr。net/groups/219/ (如果遇到支付问题,请先关注饭团的官方微信服务号“fantuan-app”)
---------------------
作者:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,7年AI实战经验,10年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。