您的位置  > 互联网

声纹识别的原理与原理的基本原理是什么?

声纹()是电声仪器显示的携带语音信息的声波频谱。 它是由波长、频率、强度等一百多个特征维度组成的生物特征。 它具有稳定性、可测性、唯一性等特点。

人类语言的产生是人类语言中枢和发声器官之间复杂的生理和物理过程。 发声器官——舌头、牙齿、喉、肺、鼻腔,因人而异的大小和形状差异很大,因此任何两个人的声音都有很大差异。 图案不同。

每个人语音的声学特征既有相对稳定性又有可变性,并不是静态的。 这种变异可以来自生理、病理、心理学、模拟、伪装,也与环境干扰有关。

尽管如此,由于每个人的发声器官都不同,所以在正常情况下,人们还是能够区分不同人的声音或者判断是否是同一个人的声音。

声纹不像图像那么直观。 在实际分析中,可以通过波形和频谱图来显示,如下图:

2、声纹识别原理

人们说话时所使用的发声器官的大小和形状因人而异,因此任意两个人的声纹模式都是不同的,主要体现在以下几个方面:

共鸣模式特点:咽腔共鸣、鼻腔共鸣、口腔共鸣

声音纯度特征:不同人的声音纯度一般不同,大致可分为高纯度(明亮)、低纯度(沙哑)和中纯度三个等级。

平均音高特性:平均音高一般是指声音的高低。

音域特征:音域的高低就是通常所说的声音饱满还是干涩。

不同人的声音在声谱图中共振峰的分布不同。 声纹识别通过比较说话者两次语音中相同音素的发音来判断是否为同一个人,从而实现“闻声识人”。 “ 功能。

3、声纹识别算法技术指标

在算法层面,声纹识别的性能可以通过以下基本技术指标来判断。 此外,还有其他指标,例如:渠道鲁棒性、时变鲁棒性、造假攻击鲁棒性、群体流行率等。 适合性等指标稍后会详细解释。

错误拒绝率(FRR):在分类问题中,如果两个样本属于同一类型(同一个人)但被系统误认为异类(不是同一个人),则属于错误拒绝案例。 误拒绝率是指误拒绝案例占同一类型所有匹配案例的比例。

错误接受率(FAR):在分类问题中,如果两个样本是异质的(不是同一个人),但被系统误认为是同一类型(同一个人),则属于错误接受案例。 错误接受率是错误接受的案例占所有异构匹配案例的比例。

等错误率(EER):调整阈值,使错误拒绝率(False Rate,FRR)等于错误接受率(False Rate,FAR)。 此时的FAR和FRR的值称为等错误率。

精度(ACC):调整阈值,使FAR+FRR最小。 这个值减1就是识别准确率,即ACC=1 – min(FAR+FRR)

速度:(提取速度:声纹提取速度与音频时长、验证比对速度有关):Real Time 实时比(衡量提取时间与音频时长的关系,例如:1秒可以处理80s的音频,那么实时比例就是1:80)。 验证比对速度是指平均每秒可以进行的声纹比对次数。

ROC曲线:描述FAR和FRR相互关系的曲线。 X 轴是 FAR 的值,Y 轴是 FRR 的值。 从左到右,当阈值增大时,每个时刻都有一对FAR和FRR值。 这些值通过在图上画点的方式连接起来,形成一条曲线,这就是ROC曲线。

阈值:在接受/拒绝二元分类系统中,通常会设置一个阈值,高于该阈值就会做出接受决定。 调整阈值可以根据业务需求平衡FAR和FRR。 当阈值设置较高时,系统做出验收决策的分数要求比较严格,FAR下降,FRR上升; 当阈值设置较低时,系统做出接受决策的分数要求相对宽松,FAR增加,FRR减少。 在不同的应用场景下,调整不同的阈值可以达到安全性和便捷性的平衡,如下图所示:

4、影响声纹识别水平的因素

训练数据和算法是影响声纹识别水平的两个重要因素。 在应用实施过程中,也会受到很多因素的影响。

声源采样率:

人类语音的频段集中在50Hz~8KHz之间,特别是4KHz以下的频段

离散信号覆盖的频带是信号采样率的一半(奈奎斯特采样定理)。

采样率越高,信息量越大。

常用的采样率:8KHz(即0~4KHz频段)、16KHz(即0~8KHz频段)。

信噪比(SNR):

信噪比衡量一段音频中语音信号与噪声的能量比,即语音的干净程度:

15dB以上(基本干净)

6dB(噪音)

0dB(非常吵)

渠道:

不同的采集设备和通信过程会引入不同的失真。

声纹识别算法和模型需要覆盖尽可能多的通道。

手机麦克风、桌面麦克风、固定电话、移动通讯(CDMA、TD-LTE等)、微信...

语音时长:

语音时长(包括注册语音数量)会影响声纹识别的准确性。

有效语音持续时间越长,算法获取的数据越多,准确率越高。

短语音(1~3s)

长声音(20秒以上)

文字内容:

通俗地说,声纹识别系统通过比较两次语音的相同音素的发音来判断两次语音的说话者是否是同一个人。

固定文字:注册和验证内容相同

半固定文本:内容相同但顺序不同; 文本属于固定集合

自由文本

五、声纹识别应用流程

声纹识别(VPR)是生物识别技术的一种,也称为说话人识别,从说话人发出的语音信号中提取声纹信息。

从应用角度来看,可分为:

说话人识别 ( ):用于确定哪些人发表了特定的讲话。 这是一个“从众多中选择一个”的问题;

发言者确认( ):用于确认某个发言是否由指定人发言。 这是一个“一对一歧视”的问题。

声纹识别应用分为两个主要过程:注册和验证。 根据应用的不同,一些处理过程会有所不同。 一般声纹识别应用流程如下图所示:

6、声纹识别的应用场景

声纹识别作为生物识别技术的一种,有很多很好的应用场景。 下面根据声音的特点,从公安、金融、社保、智能硬件四个领域介绍声纹识别的应用。

1、公共安全领域

声纹作为一种生物特征,首先成功应用于刑事侦查和法医学领域。

近年来,由于互联网的发展,语音案件也呈现井喷趋势。 在这些语音案件中,通过声纹识别和声纹大数据技术,声纹识别成为了唯一有效的检测技术手段。 重点人员监管、反电信诈骗、反恐、刑事案件侦破、身份查询核实等,帮助公安机关有效遏制和打击犯罪,构建和强化安全的社会公共环境。

2、财务

为银行、互联网金融等各类金融及服务机构,通过声纹识别技术提供用户注册、远程验证、金融生物识别解决方案,大大提高金融机构风险防范系统的安全性,强化风控能力,增加用户安全和防止身份欺诈。

另外,在电话客服系统中,可以通过声纹识别技术实时识别用户的身份,从而提​​供个性化的客户服务。

3. 社会保障

在我国,退休人员每年至少需要核实一次生存状况,并以此作为领取养老金的依据。 目前,生存核查可以在指定社保大厅或自助终端进行。 对于一些行动不便的老年人来说,这种方法也很不方便。

声纹识别技术在远程身份验证方面具有天然优势。 只需拨打一个电话(手机或座机)即可完成生存验证,为参保人员提供了便利,也为国家节省了大量成本,避免了养老金损失。

4、智能硬件

在智能硬件产品中,声纹识别解决了当前智能产品只能识别用户所说的话,而无法区分说话者身份的问题,让智能产品能够区分不同的角色,实现“听声识人”。

让系统为每个人提供不同的内容和服务,让人机交互更简单,让用户享受更轻松、更个性化、更安全的产品体验。

七、总结

声纹识别作为最前沿的生物识别技术,随着技术的成熟,将会在越来越多的应用场景中落地。

我们相信,在不久的将来,声纹将成为继指纹、人像之后第三代身份证上又一个新的公民身份证。

声音将在我们未来的科技生活中发挥越来越重要的作用。