AI赋能下的声纹识别技术在公共安全领域的深度应用

(整期优先)网络出版时间:2020-03-24
/ 2

AI赋能下的声纹识别技术在公共安全领域的深度应用

甄文状

百度 (中国 )有限公司,上海 201203

摘要:声纹是生物特征的一种,对于人体来说,声纹是长期稳定的特征信号,通过声纹鉴别技术可以区分不同个体。本文分析了AI赋能下的声纹识别技术在公共安全领域的深度应用。

关键词:声纹识别技术;公共安全领域;应用

伴随着信息技术和网络技术的迅猛发展,人们对身份识别技术的需求越来越多,对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性。

声纹识别的内涵

声纹识别广义上分为语音识别和说话人识别两种。语音识别是根据说话人的发音辨认其所说的语音、音节、单词或单句,这就要排除不同说话人的个人特色,找出代表各个语音单位的共性特征。说话人识别是根据语音来辨认说话人,而并不考虑声音的内容和意义,这就需要分离出每个个体的特性。目前,普遍意义上声纹识别的概念是指说话人识别。说话人识别包括说话人辨认(speaker identification)和说话人确认(speaker verification)两个方面。说话人辨认是一对多的分析过程,即判断出某段语音是若干人中哪一个所说,主要应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等。说话人确认是一对一的确定过程,即确认某段语音是否属于指定的某人,主要应用于证券交易、银行交易、个人计算机声控锁、汽车声控锁、身份证、信用卡等。识别的核心是预先录入声音样本,并提取每个样本独一无二的特征,建立特征数据库,使用时将待检声音与数据库中的特征进行匹配,通过分析计算,实现说话人识别[2]。

二、声纹识别系统及其技术实现原理

声纹识别系统是基于对说话人的语音识别或鉴别的应用系统,它是根据人所说语音信息而表征出来的说话人的生理和行为特征来自动识别或鉴别说话人身份的技术系统。基于声纹识别系统的不同应用,声纹识别系统的技术实现基本上可以分归两类,即说话人确认技术和说话人辨认技术。前者是用于判断未知说话

人是否为某个指定人;后者则是用于辨认未知说话人是已记录说话人中的哪一位。因此,声纹识别系统最终要解决的技术问题就是体现在“一对一”的匹配判断问题或“多选一”的比较判断问题。从声纹识别系统的使用场合来看,需要判别的声音其来源基本可分为3种情况,即文本提示型、文本相关型和文本无关型。其中,文本提示型的声纹识别系统要求被鉴别的人需要根据给定的文字进行发音判别,即要求用户配合发音,才能实现识别功能;文本有关型的声纹识别系统要求系统录制有被判别人一定数量的规定文本内容的声音,只要判别人发出相关内容的声音就可以实现判别功能;而文本无关型的声纹识别系统则不规定说话人的发音内容,只要系统中录有说话人的声音,就能够识别是否为该说话人。可见,文本无关型的声纹识别系统的技术含量要求比较高,它不仅仅需要解决匹配判断问题,还需要预先提取说话人的语音特征,才能进行判断识别。此外,从声纹识别的目标对象来看,声纹识别系统的适用范围可以分为两类,即闭集识别和开集识别。前者是指对特定人群中的说话人识别,即被判定的说话人是在已记录说话人集合内,而后者是指被判定的说话人可能不在已被记录的这个集合内。相比于闭集识别系统,开集识别系统需要增加一个阈值来判断未知说话人是否在已记录说话人集合内。如果不在集合内,系统需要重新进行语音记录和训练。因此,适用于开集识别的声纹识别系统还需要解决训练学习的技术问题。

、构建声纹识别大数据平台,实现公共安全领域深度应用

1.应用需求。当前,公安机关针对各类虚拟空间犯罪(例如电信诈骗、恐吓勒索等)的侦破,除了依靠追踪银行流水与电信话单外,有针对性的通过各种技术手段获取的通话录音、监听录音等音频线索也是重要的破案途径,但是单纯通过人工监听与甄别,既难以准确识别出犯罪嫌疑人,也难以将犯罪嫌疑人历史积案进行串并,公安机关迫切需要新的技术手段,以在海量音频中挖掘线索、识别嫌疑人身份,甚至进一步建立事前主动出击、主动预防的能力。

2.应用目标。声纹识别大数据平台的建设,为上述问题的有效解决提供了一种新的技术手段。声纹识别大数据平台是参照非接触式犯罪打击的业务需求与业务流程,专门针对多源异构的海量音频数据开发的大数据实战应用平台,通过实现声音数据的汇聚接入、优化治理、建库比对、声纹核验、声纹聚类等一系列功能,可满足声纹实战中线索排查、身份核验、类案串并等多方面应用需求,为更快的破大案,更多的破小案服务。

3.总体架构。典型的声纹识别大数据平台架构分为数据源、数据处理层、支撑服务层与应用层四部分。在数据源的接入上,平台支持从网络通信、电话信道、录音设备和声纹采集设备等多种类型的数据源接入实时音频流或离线文件,最大限度扩展声音的来源。在数据处理层,平台需对接入的各种类型音频文件进行汇聚与处理,包括数据接入网关、数据转储网关、算法引擎、管理控制台4部分。在此层次,需对接入的各类数据进行质量检测,过滤不符合声纹识别标准的低质量数据,对符合声纹识别标准的数据进行声纹特征提取,将非结构化数据变为计算机可识别的结构化数据。在支撑服务层,主要是通过接入数据处理层的数据,为上层应用提供可扩展的声纹布控服务、声纹静态大库检索服务、声纹动态库检索服务、消息服务、文件存储、高速缓存服务、关系型数据库、大数据分析、弹性搜索、地图服务等一系列支撑服务与应用服务,支持各类声纹业务应用及大数据计算需要。声纹识别大数据平台的典型部署架构(如图1)所示,包括数据接入网关服务器、特征提取主机、声纹动态布控服务器、声纹静态大库检索服务器、声纹动态检索服务、大数据服务器及应用支撑服务器。根据公安机关的实战需求,平台还需支持单网与双网部署模式。

5e79d4cc15c31_html_6d07720f354042e0.png

图1

4.平台功能与典型应用场景。声纹识别大数据平台具备声音数据的汇聚接入、优化治理、建库比对、声纹核验、声纹聚类等一系列功能,在公安机关的非接触式案件的侦查与研判上,具有广泛的应用场景,比较典型的应用模式如下:(1)线索排查场景。通过平台的声纹检索功能,可在海量声纹库中检索与输入的声音信息为同一身份的记录。该功能需要公安机关建立专题声纹库(如涉诈人员声纹库等),并根据业务需求进行标签标注,当获取到新的声纹线索时,通过声纹检索功能可快速确认发出声音的人员身份。(2)身份核验场景。通过平台的声纹1:1核验功能,可实现基于声音的身份验证与鉴定,即通过对输入的2个声音来源进行特征提取,并比对两个特征的相似度,当相似度大于一定的阈值时,可判定2段声音为同一人发出。为进一步提高准确性,可引入多厂家、多版本的声纹识别算法,当多个算法均认为是同一人时,即可较为准确的判定。该场景可有效协助公安机关在审讯的时候快速认定犯罪嫌疑人的声音。(3)类案串并场景。平台支持针对每个案件建立档案,存储涉案声纹线索信息,并定期自动将涉案声纹进行比对,若多个涉案声纹记录由算法判定为同一人所发出,则可进行类案串并。该功能可协助公安机关扩大战果,提升打击效能。(4)声纹布控告警场景。

在能获取实时声音数据的应用场景中,可进一步实现基于声音信息的布控告警功能,协助公安机关快速预警目标人员声音出现,以及时做出响应。

时至今日,声纹识别技术已经从实验室逐步走向各类实际应用场景中,处于大规模爆发性应用的前期,随着声纹识别的准确率继续增高、使用限制的不断减少,因其低侵入、无接触等特点,在将来必定会在更多行业、更多场景中得到更为广泛的应用。

参考文献

[1]丁浩.声纹识别系统原理及其关键技术[M].修订版.北京:北京航空航天大学出版社,2017.

[2]李涛.声纹识别系统[J].深圳大学学报:理工版,2017,19(2):78-80.