前言:本文是团员“加薪”的第1篇输出文章;也欢迎有更多的团员们来分享你的AI干货~
在饭团潜水一年,时间久了,也有想浮出水面的冲动,因为进入AI语音行业不算太久,饭团内已经有大量语音识别、语音合成分享文章了,硬核男人总怕跟别人与众相同,哈哈哈~ 今天,我来分享下在教育行业得到大量运用的语音测评技术。
一、语音评测的定义和分类
1、语音评测是啥腻——
2、语音评测目前常见分类有两种:朗读评测、口头表达评测
3、主要区别
二、朗读评测
简单理解就是:
录入音频>>特征提取>>特征处理>>监测错误、对比模型打分>>输出结果
举个🌰栗子:
1、你对评测引擎说一段话“男人的浪漫”,在收集到以上一段语音内容后,引擎会首先特征提取,对因素序列切分因素边界。
2、利用声学模型计算每个音素的后验概率(GOP),引擎给你返回结果经过对比“男”、“人”、“的”、“漫”的概率都是0.9,只“浪”后验概率为0.1。这并不说明你是个不够“浪”的男人。而是说明你这个男人“浪(lang)”发音不标准。
3、接下来系统会告诉你,“浪”都发音不标准(及对应的打分分数),你又怎么出去浪呢。你快回去练练吧。目前市面上的应用多数只到纠错上。很少有即给你纠了错,又告诉你怎么改。
4、应用公式:
贝叶斯公式
因素检测决策方法:
因为模型法训练需要大量的真实的发音错误训练数据,同时对真实的发音错误数据进行标注训练,成本较高,所以大多都使用门限法。门限法因为可控标准,对不同的业务需求也有较好的灵活性。
5、现阶段可实现的评分维度:
6、模型映射:
7、映射模型:
三、口头表达评测
1、口头表达的评分维度
2、口头表达评测的基本原理和朗读测评还是很相近的,区别较大的点在于,口头表达需要评测内容丰富程度,要有量大话题的数据,进行大量监督学习模型训练 。最好使用半监督的方式,通过一部分的数据训练让机器自动后续的模型优化。
3、口语评测的应用:
目前评测技术已经比较完善了,可以支持中英文朗读、主观表达评测,主要的几个应用场景:
最后,在饭团学习1年,今年最后有机会转型加入了AI部门,我自己的感受是,如果学习久了,动力确实不如开始的时候,现在回想刚接触AI时,转型这段时间是我做产品这一路上最畅快的时刻。爱你所爱,行你所行。有机会,社群内小伙伴们可以多交流指教。
-END-
以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan.guokr.net/groups/219/ (如果遇到支付问题,请先关注饭团的官方微信服务号“fantuan-app”)
---------------------
作者:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,7年AI实战经验,10年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。