前言:本文是团员cony的第一篇输出,有点“一文读懂声纹识别”的感觉,非常不错;欢迎有更多团员也来分享你的干货心得:)
声纹识别,也称为说话人识别。因为发音涉及到口腔、鼻腔、喉咙和胸腔的器官的共振,还有唇、齿、舌的差异,所以每个人说话都有自己独特的特征,就像人脸、指纹、虹膜一样,声纹也属于生物特征之一。
声纹识别在人工智能里属于一个比较窄的方向,由于技术难度较语音识别高,且非不可替代功能,目前还没迎来爆发点。随着市场需求对人工智能的需求发展和要求变高,声纹识别也渐渐崭露头角,寻找着市场切入点。
目前技术的不成熟,使声纹识别仍存在较多的缺点。
声纹识别分两步,提取声纹特征、特征对比。声纹特征的提取,可从音频信号里提取出有效区分该说话人的唯一特征作,比对时,特征之间进行相似度匹配,得出分数,超过阈值即为验证通过。
声纹1:1只有一次比对,所以只要得分超过阈值,代表比对成功。声纹1:N的应用一般是要找出疑似相似的人,所以在比对结果里,找出比对超过阈值的前N名人员。
具体识别涉及的技术说明,在腾讯云的《声纹识别的原理及应用》有详细讲解。
①声纹1:1和1:N
声纹1:1,即说话人确认。说话人事先录入过自己的声音后,验证时,只需要说一句话,即可验证自己的身份,多用于登录、支付等场景,可以替代密码这种繁琐输入,也可以为安全性要求高的操作多设置一道屏障。实际上,微信和支付宝已经支持“声音锁”功能了,只需要念一组8个数据,就可以开锁。在金融领域,声纹1:1的应用会更多,一般用于贷款时的身份确认,代替签名。
声纹1:N,即说话人辨认。这时先要有一个声纹库,库里是已收集的人员声纹特征,当说话人说话,将录音提取特征后,和库里的所有人员声纹特征一一对比,得出一个或多个匹配结果。在公安领域则用不到1:1,常用1:N识别,对在逃犯人或嫌疑人进行身份筛查。
②活体检测
为防止声音被合成伪造或者录音重播仿冒当事人,声纹识别也有活体检测技术,可以辨认出录音回放的声音和合成录音,大大增加了远程识别时的安全性。
在一些特定场景下要求具备此功能,比如养老金的领取,老人在家也可以通过生存验证,防止冒领。
③性别识别
只需说一句话,就能判断说话人的性别。当然,世界上有一种叫声优的怪物,还是有高概率能骗过算法的~
④年龄识别
这两个属于偏娱乐性的功能,市场上对其的需求并不强烈,所以准确率也不高。不过只要有足够标注准确的数据,年龄识别的准确率还是可以提高的。
⑤情绪识别
情绪识别,对于成年人来说,不同人在相同情绪下的声音的共性并不明显,而小孩或者婴儿的共性会更明显,之前团友前辈@于长弘写的一篇《能否借助AI破译婴儿哭声?》,涉及的技术应算是此范畴。
①采样率:
主流音频采样率是8k和16k,电话信道录音是8k的,手机信道录音是16k的,不同采样率的音频,使用的算法模型不一样。
②说话内容:
语音内容分为三种:固定文本、文本半相关、文本无关。
固定文本指内容固定的短语句,比如“小爱同学”,如果对智能硬件的唤醒词身份识别准确率要求较高的话,可以针对固定语句去训练一个模型,可提高识别率。
文本半相关指随机组合且不重复的8位数字的内容,因为总共就10个数字,所以算法模型可提取的特征比较明显,所以文本半相关的识别准确率比较高。
文本无关指说话内容不固定(当然,如果一直只读同一个字,音调不变,是识别不出来的),不限制语种、方言,但说话时长最短需要2秒,才足以提取准确的声纹特征。
③信道:
不同的采集设备,对声音的传输和处理都是不同的,会有不同程度的失真,所以提高多信道鲁棒性,也是对算法的一种挑战。
④信噪比:
信噪比指音频中,人声和环境噪声的能量比,代表了音频的干净程度。0dB指环境非常嘈杂,6dB比较嘈杂,15dB非常安静。噪声越大,越容易影响算法的准确率,也是对算法的噪音鲁棒性的考验。
①错误拒绝率(FRR)
错误拒绝(False Reject),指把本应判定对“Ture”的人,判定为“False”,比如FRR=1%,即“Ture”的人验证100次,可能有1次被误拒绝。
②错误接受率(FAR)
错误接受(False Accept),指把本应判定为“False”的人,判定为“Ture”,比如FAR=1%,即“False”的人验证100次,可能有1次被误接受。
③ROC曲线
ROC曲线(receiver operating characteristic curve)用于描述算法阈值变化时,FAR和FRR之间相互变化的关系,X轴为FAR,Y轴为FRR。FAR=FRR时,就是找到了平衡点,称为等错误率EER,EER越小,说明算法的准确率越高。
④正确率、召回率和准确率
定义Ture为正类,False为负类。
正确率=TP/(TP+FP),指识别结果里,真实正类的数据,占识别为正类的数据的比例。
召回率=TP/(TP+FN),指识识别结果里,正类识别正确的数据,占真实正类数据的比例。也称“真阳性率”。
准确率=算法识别结果正确的数据/实际数据总个数。
由于准确率并不能作为客观的评判算法优劣的标准,所以需要借助精准率和召回率来判断。
一开始我对着两个指标是比较懵的,所以来举个栗子。一个班上有30个人,3个男生,27个女生,用机器进行性别识别,结果是4名男生,26名女生。男生定为正类(ture),女生定为负类(false),那么:
准确率=29/30≈96.7%
乍一看,准确率确实挺高的,但实际上男生的识别率正确率很低,另外两个指标:
正确率=3/(3+1)=75%
召回率=3/(3+0)=100%
由此可得,识别男生的正确率并不高,但识别结果覆盖到了所有男生,可以直观地看出算法的优劣。而精准率和召回率是此消彼长的,在一些场景下就需要根据实际情况,去平衡二者的标准。
在声纹的实际应用场景中,产品经理还需要考虑以下几个对体验有直接影响的技术指标。
①上传速度
声纹算法一般部署在云端,而音频上传到云端进行识别需要时间,并且音频时间越长,上传时间越长。短语句的识别,一般时长都在6秒以下,在带宽足够的情况下,上传速度非常短,几乎可以忽略不计,但是仍然需要关注此指标,避免在高并发时,速度变慢,影响体验。
有一些应用场景,比如智能家居,对整体的识别速度要求比较高,就会考虑把算法离线封装到设备端,以达到更快的反应速度,而离线部署对硬件的设备的配置要求也更高,导致成本变得更高。
②声纹特征提取速度和比对速度
声纹的比对分为两步,特征提取和特征对比。特征提取速度与音频时长有关,实时比(Real Time Factor)为1:80时,意思是1秒能够处理80s的音频。
验证比对速度是指平均每秒钟能进行的声纹比对次数,速度可以非常快,80w/s属于普遍标准。
③阈值
在接受/拒绝二元分类系统中,通常会设定一个阈值,比对分数超过该值时才做出接受决定。产品经理可以根据实际的业务需求调整阈值,以平衡FAR和FRR。若要体验感好,且对安全性要求不高,可调低阈值,FAR升高,FRR降低;若对验证的安全性要求较高,可调高阈值,FAR降低,FRR升高。
VAD指音量、有效时长和信噪比。算法对可用于训练和测试的语音数据有VAD参数的要求,在收集语音时,可以对语音进行实时的质量检测以初步进行筛选。除此之外,还需要应用到其它的语音处理算法,比如降噪、去混响等,以排除环境干扰,得到更纯净的人声音频。麦克风阵列具有语音增强、声源定位、去混响、声源信号提取/分离功能,采集语音时,设备端使用麦克风阵列,就可以采到质量更高的音频,有助于提高算法的识别准确率。
声纹应用的领域现已覆盖金融、公安、政企、社保、智能硬件领域。
①金融:
央行发布的《移动金融基于声纹识别的安全应用技术规范》,这是央行颁布的我国金融行业的第一个生物识别技术标准,可以感受到国家对AI新兴技术的重视,且开始制定规范并展开应用,以替代一些传统的身份核验操作。比如金融贷款时,声纹与人脸识别结合,代替签字核验,提高了校验的安全性。
②公安:
近年来,电信诈骗、绑架、敲诈勒索的案件频发不绝,声纹信息在公安领域的应用优势日趋明显。我国的声纹鉴定技术已发展了20余年,所以公安系统也早早布局,对重点人员建立了全国最大的声纹库,并且对采集语音已有成熟的标准。在搜捕嫌疑人时,一般从电话信道获取声纹,再到公安声纹库里比对出结果以供参考,所以公安对声纹算法的信道鲁棒性要求较高。
③政企会议:
在大型企业里,常常需要召开大型会议,并有专人记录和整理会议记录。针对这个场景,市面上开始有智能会议系统产品,结合语音识别和声纹识别算法开发的应用,可以识别会议上谁说了什么,会议结束后自动输出文稿,免去人工记录和整理,节省时间,提高效率。在语音识别达到更好的水平时,还可以做会议的实时字幕展示,前阵子科大讯飞的AI同传已经可以做到。
④社保:
声纹识别也可以在社保领域应用,利用声纹的远程采集验证的优势,可以在刷社保卡时,增加声纹验证,以确保一证一人。
老人家每月领取养老金,需要进行生存验证,在很多农村地区,要求老人每年至少回老家一趟以证明还在世,对于一些已经跟儿女长居外地的老人来说,两地跑一趟,不仅花钱多,还劳累身心,验证也很不实时。如果声纹的身份验证可以普及开来,让老人家可以远程办理业务的同时,进行声纹注册和验证,对老人家们来说是极大的福音。
⑤智能硬件
目前市场上常见的智能硬件有智能音响、机器人、智能车载等,具有查询(天气、机票等)、点播歌曲、设置闹钟、控制家电等功能。声纹识别可以让机器更智能,通过声音辨认发出语音的对象,结合其性别、年龄、历史偏好等信息,给出更加人性化和更智能的结果。
在目前的技术成熟度来看,声纹识别还存在着很多的缺陷。在这波前所未有的AI潮里,声纹识别也在极力寻找这落脚点,只要有市场,就能成长。而从弱人工智能到强人工智能的发展道路上,我相信声纹识别会发挥出其独有的作用。
-END-
以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan.guokr.net/groups/219/ (如果遇到支付问题,请先关注饭团的官方微信服务号“fantuan-app”)
---------------------
作者:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,6年AI实战经验,9年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。