基于语音识别的广播信号监测系统

(整期优先)网络出版时间:2022-07-27
/ 2

基于语音识别的广播信号监测系统

赵岩

山东省广播电视传输保障中心 山东省济南市 250000

摘要:本文分析了传统广播信号监测系统的不足,论述了基于隐马尔可夫模型语音识别技术,设计了基于语音识别的广播信号监测系统框图。

关键词语音识别 信号监测 隐马尔可夫模型

一、引言

为保障广播电视信号的安全播出,除了采用多路不同路由的信号源及配备信号源自动切换机制以外,还需要通过多画面监测系统对信号传输的重要节点进行信号监测监管。但传统的多画面监测系统只针对电视信号进行多画面展示,对于广播信号只是以音频条的形式出现且监测内容往往只包括音频丢失、静音故障、音量过高或过低等,无法对广播节目内容进行监测监管,值班员必须用音箱分别对每路信号进行播放,监听广播节目中是否出现非法、敏感、热点问题,才能确认广播信号是否存在问题,显然使用人工识别的办法无法达到的对全部广播节目内容的全天候实时监测要求。

随着国内语音识别技术的快速发展,尤其是对隐马尔可夫模型(HMM)的深入研究,语音识别效率有了显著的提高,因此,将语音识别技术应用于广播信号监测之中,构建基于语音识别的广播信号监测系统成为可能,这对提高广播内容监测监管效率,实现“智慧广电、智慧监测监管”具有重要的作用。

二、基于隐马尔可夫模型语音识别技术

语音识别系统主要有两个过程组成:训练和识别。训练就是系统在给定的样本库中估计出系统的参数,建立统计模型。而识别的过程就是利用训练好的参数,对输入的语音信号进行识别,具体如下图所示:

主流语音识别系统一般采用隐马尔可夫模型(HMM)作为声学模型。隐马尔科夫模型是一种有向图模型,属于生成式模型,考虑联合概率分布,其状态跳转模型很适合人类语音的短时平稳特性,可以对不断产生的观测值(语音信号)进行方便的统计建模。HMM的输出可以是离散的,也可以是连续的。当输出是离散的时候,每个状态的输出概率分布用一个多项分布来描述;当输出是连续的时候,每个状态的输出概率分布常常使用高斯混合分布(GMM)来描述。天气、骰子等是输出离散的情况,而语音识别则是输出连续的情况。在孤立词识别中,每个候选词用一个HMM来建模。这些HMM一般是顺序型的,即由串联的若干个状态组成,每个状态只能转移到自身或下一个状态(有时也允许跳过一个状态,但这样实现起来稍麻烦)。状态可以粗略理解成词中的每个音素,以汉语为例:汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。由单个韵母或由声母与韵母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。HMM的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。不过在孤立词识别中,状态并不一定非要是音素,状态可以比音素长,也可以比音素短。每个状态通过它的GMM可以输出一个特征向量(如MFCC向量),整个HMM就可以输出整段语音的特征向量序列了。孤立词识别系统的训练是这样进行的:对每一个候选词,录制若干次发音并提取特征向量序列,用这些特征向量序列来训练HMM。在测试时,依次用每个候选词的HMM测量待识别语音的特征向量序列的似然值,并与各候选词的先验概率相乘得到后验概率,选择后验概率最大的候选词。

三、基于语音识别的广播信号监测系统设计

在基于语音识别的广播信号监测系统中,语音识别模块以多路广播信号源做为数据基础,以计算存储、网络安全设备为硬件支撑,是监测系统的智能核心。语音识别模块主要由预处理部分和识别解码部分组成。预处理部分把广播信号进行特征提取,并形成识别语音片段的语音特征向量。预处理的关键是特征提取和归化,提取出的语音片段的本质特征向量决定着语音识别模块的识别准确度。识别解码部分需要利用HMM声学模型、语言模型进行识别语音片段的特征向量快速匹配,并在给定模型下完成识别的最优结果。语音识别模块的识别准确度和识别速度由识别解码决定,并在识别过程中进行自身优化训练学习。

在监测系统中往往需要监测来自不同路由的多路信号源,下面以新媒体信号和卫星信号为例,简述基于语音识别的广播信号监测系统设计思路。如下图所示:两路信号源会同时进入语音识别模块,语音识别模块会将广播语音节目实时转换成文本输出,两路信号源输出的文本之间进行内容比较,如果内容有较大出入,则触发告警或切换机制,从而实现对不同节目源内容一致性的监测监管,防止广播节目遭篡改。同时,通过语音识别输出的文本会进入敏感字库,通过在敏感字库中设置非法、敏感、热点词汇,对广播节目内容进行核查,如果节目中包含敏感词汇,则触发告警或切换机制,从而实现对广播节目内容的监测监管,防止恶意广播节目播出。

通过引入语音识别技术,解决了传统广播信号监测系统无法对节目内容监测监管的痛点,减轻了值班人员的工作负担,提高了监测监管效率,从而实现广播节目安全播出。但本系统仍然存在几点不足:一是对于节目内容的审核依赖于敏感字库中的敏感词汇设置,不能做到智能分析研判,后续系统的升级改造可以引入人工智能技术。二是不同信号源的节目内容存在时延,从而影响的文本内容的比对,后续可以增加时延均衡的功能项。

四、结语

随着广播电视技术的快速发展,需要监测的音视频节目量日益增长 ,一个省级监测监管平台每天需要处理的音视频量已经达到数千小时,极大的增加了监测监管的难度。面对海量的广播电视节目,只有科学引入语音识别、大数据等前沿技术,才能提高监测监管效率,实现监测监管的智慧化,落实好国家广播电视总局大力推进智慧广电,依托广播电视和网络视听智能化监测监管平台,实现对有线、无线、卫星传输覆盖,提升公共服务智能化管理水平的决策部署。

参考文献

[1]曹赟辉.浅谈广播电视广告监测系统设计[J].有限电视技术,2015.

[2]赵皓千.基于HMM模型的混合特征参数语音识别方法的研究[D].西安:西安理工大学,2009.