人工智能视角下汉语语音语料库的建设

/ 4

人工智能视角下汉语语音语料库的建设

于巧燕[1],徐腾云[2]

(郑州商学院 文学与新闻传播学院   451200)

摘    要

随着人工智能时代的到来,语料库研究得到越来越多的关注和重视。在大数据时代的今天,语音小助手无处不在,发微信语音,语音可以即时转换为文字,方便大家在不能听语音的时也能即时收到信息;在开车时,可以使用车载语音,拨打电话或者打开蓝牙连接手机,随时听歌,减少因开车时手持电话而造成的安全事故;使用地图软件上的麦克风功能,可以不用手动输入就能搜索到想要去的地方,而且一路上可以播报语音,随时通知路况,提醒道路违章等等;总之,语音合成可以应用于多中场景中。比如应用于智能客服,帮助企业提升用户体验,促进营销效果转化;可以应用于有声读物,解放双眼,降低有声内容创作门槛;也可以应用于教育教学,准确高效的把文字转为悦耳的声音,提高孩子学习效率,降低企业的录制成本。

由此可见,语音智能已经深深地融入到我们的生产生活实践中了。那么,如何让机器听懂我们的声音,更好的为我们所用?这就需要依靠语音识别技术。而语音识别技术的形成的最重要的基础就是语音语料库的建设,语音语料库的建设则需要大量的人工去标注除这些“说出的话”所对应的“文字”,从而训练模型,让机器学会这些语音,最后再一点点修正语音和文字转换之间的误差,这就是语音标注。本论文主要研究的就是中文语音语料库的建设,语音语料库建设的基础就是中文语音语料的标注,然后在一定的语料基础上训练出语音模型,最后在语音模型的再进行语料库建设程序的编写,最后形成语音语料库。

关键词:语音语料库,语音标注,语言学,语音识别

一、语音语料库建设现状概述

以“语音语料库建设”为主题在中国知网搜索之后发现,语音语料库建设的相关论文仅有12篇,其中有两篇论文是同一篇文章在不同的刊物上发表的,而且发表时间比较早,所以,实际上数据库中与该主题相关的论文仅有10篇。以2022年1月1日为界,其中有4篇论文是在十年前发表的,仅有6篇是在近十年内发表的,在这其中,仅有2篇是在近五年内发表的,而近三年内,没有任何相关论文发表。由此可见,对语音语料库建设的研究十分匮乏。以下是对相关论文的梳理与综述:

邹晓燕的《语言生态学视野下方言语料库建设的路径、实现与应用一以赣方言为例》、邓海龙的《赣南客家方言语音语料库建设的必要性分析》、杨健的《白语语音语料库建设研究》、张绍麒的《CADI系统的建设与胶东方言电子语音语料库的研制》和费旭岚的《新疆汉语方言语音语料库的建设》这5篇论文认为建设方言语料库,能更好地将这些濒临消失的方言保存下来,有利于为方言的生存营造语言生态环境。建成后,可开展基于语料库的方言和文化研究、普通话教学研究、英语教学研究。

王小兵的《语音语料库在大学英语模块教学中的建设和应用——以兰州城市学院大学英语模块教学为例》和刘丽的《网络语音语料库的建设及其在英语语音教学中的应用》以及陈文凯的《地方口音英语学习者语音库建设构想》这3篇论文认为语料库在外语教学中的运用日益广泛,而语音语料库的建设及其在大学英语教学中的应用研究尚待开发。

卡斯木江·卡迪尔的《维吾尔语TTS语料库建设关键技术研究》认为语音语料库的建设是语音合成技术中的重要环节,该论文围绕着自动标注和压缩技术进行研究。

姜岚的《普通话水平测试电子语音语料库的开发与建设》以大规模真实、清晰、明确的原始测试语音语料信息为基础,建立一个原始语料库,为保存和提取自然状态的测试语音语料提供了真实文本。

综上所述,以上10篇论文,其中有3篇主要讲述关于英语语音语料库的建设,主要围绕的主题是语音语料库在大学英语视听说教学中的实践应用,以及对语音语料库建设的价值探讨。在其他7篇论文中,有6篇论文论述的观点主要是随着中国城市化进程的发展,普通话的推广和普及,一些使用人数较少的方言处于濒临消失的危险境地。由于常用这些方言的人,文化程度较低,对方言的保护意识不强,加上很多方言很难用书面语的方式保存传承下来,所以,这些学者认为建设能够记录并保护这些方言的语音语料库十分必要,而且对以后语音学的研究和发展起到至关重要的作用。

在以上所有论文中仅有1篇论文是围绕汉语普通话的语音语料库建设的,该系统的建设能够为语音识别技术的实现提供连续自然且真实的语音。而且普通话测试的场地,录音设备以及录音条件较好,背景音比较干净,这些都可以为提高语音标注的正确率提供有利因素。语音标注的正确率提高了,语音模型训练的误差也会大大缩小,那么语音识别的正确率也就大大提高了,语音转写的技术也会日趋成熟。

二、语料库建设的语料标注类型及工具类型

(一)语料标注类型

目前,标注市场中的标注团队和标注公司鱼龙混杂,种类繁多,标注质量也是参差不齐。经过网上搜索以及对数据标注公司的走访调查发现,目前在数据标注市场上的数据分类大概分为以下几种,以成规模、种类多、标注数据种类齐全、公司经营良好的数据堂为例:

1.点云数据标注:点云目标检测、点云目标追踪、点云分、点云关键点

2.图像数据标注:语义分割、实体分割、目标检测、图片分类、关键点、线段

3.视频数据标注:视频分类、视频打点、视频追踪、视频信息提取

4.文本数据标注:文本清洗、文本分类、实体关系标注、OCR转写、情感标注、NLP标注

5.语音数据标注:语音清洗、语音转写、语音切分、音素标注

(二)标注工具的类型

在不同的语料标注中,使用的标注工具也不相同。比如:labelme,该工具是具有直观用户界面的轻量级图形应用程序,可以创建:多边形、矩形、圆、线、点或线带。主要作用于图片标注。

 Praat,主要标注文本,这一款标注工具可以离线标注,不需要连接网络,所以保密性比较好。如果需要标注一些比较机密的语音语料,那么Praat相对较好。

doccano是一个开源文本标注工具。 提供文本分类,序列标注和序列到序列的标注功能。可以为情绪分析,命名实体识别,文本摘要等创建标记数据。

Point-Cloud-Annotation-Tool是一种用于在点云中注释3D框的工具。属于点云数据标注工具的一种。

CVAT是免费的、在线的、交互式的视频注释工具,支持本地部署,但是对安装平台的要求比较高,难度系数比较高。它支持3D点云和视频标注,而且可以多人协作标注。该工具的标注功能强大,可以对视频进行预处理,也就是可以预先自动标注,先期处理一部分视频,减少人工标注的任务,从而降低人工成本。

三、语料库建设中语音标注的常用方法

第一,语音切割,语音切割是语音识别技术领域的一个重要的子问题。正如大多数自然语言处理问题一样,进行语音分割需要考虑到语境,语法和语义。[3]

第二,语音清洗,在语音标注中,语音清洗是标注的基础,主要是对语音进行再一次的审查和校验,删除重复的完全无法标注的语音,用技术手段去初筛可能被标注的语音。语音清洗是语音数据预处理的第一步,也是保证后续结果正确的重要一环。

第三,音素标注,简单来说,音素标注就是根据音标、组成音素和读音对语音进行标注。音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。[4]

第四,韵律标注,以中文标注为例,基于文本信息进行韵律预测,通常根据声母、韵母、词、短语、段落等信息确定预测结果。由专业的标注人员根据韵律预测结果完成语音标注。

四、中文语音语料的标注规范及流程

语音标注是数据标注行业中一种比较常见的标注类型。以普通话语音标注为例,语音标注主要是将语音中包含的文字信息提取出来,进行转写或合成,标注后的数据主要用于人工智能机器学习,应用在语音识别、对话机器人等领域。[5]本论文中所论述的标注流程和标注标准以人与人对话的自然语音标注为例,标注规范、标注流程及标准如下:

(一)语音标注的规范流程

语音切割也是影响语音标注质量的一个重要因素。自然语言的处理必须考虑语境,语法和语义。但是,说话人一般不会在相邻单词之间进行停顿。所以在语音标注的初期,我们需要相对准确地切割语音,这样才能为下一步的数据标注打下良好的基础。语音标注系统切割音频需要遵循以下几点原则:

(1)切割的每段音频内只能有一个人的发音,不能有两人对话,叠音等问题;

(2)切割长度,合理断句,中间有不清楚的可前后断开,中间舍弃;(切割不要过长)

(3)单字或单词成句,如‘好嘞’‘哦’‘嗯’等,能清晰断开的,都需要标注;

(4)标注员切割标注完成,审核员应听取全部内容,包括未切割区域,漏切等情况,应补充打回;

(5)切割段落的前后,不得与已切割的段落(它前面或后边)出现重叠问题,两段音频必须留有空隙,不好切割的可以选择‘横向放大’再切割;

(6)不清晰的杂音,或底噪严重,听不清的可不切割,标注员放弃;

(7)整段音频为杂音的,可直接点击‘放弃’,放弃整段音频。

(二)语音标注系统标注标准

(1)所有阿拉伯数字用汉字替换,‘一’与‘幺’要根据发音区分开,按照读音来标注,相同的‘俩’‘二’‘两’等也按照发音区分标注,如:

日期:“2014年9月25日”替换为“二零四八年九月二十五日”。

金额:“35600元”替换为“三万五千六百元”。

(2)根据语音内容前后语境标注标点符号,标点符号只保留逗号、句号、感叹号和问号。尽可能的与语境结合,合理使用标点,每句切割的结尾需要标点结尾,最终是要保证标点符号全面及准确性;

(3)遇到中文的地名、人名等,能直接听出的,直接写地名、人名,后面的任务中如果多次出现了这个名称,就按第一次音译的文字进行标注,保持统一;不知道人名地名等对照‘字典’查询标注,或者‘百度’查询标注;在遇到英文的人名等,可直接同音字音译;

(4)遇到单个英文字母发音,直接输入大写英文字母,如‘A’,‘B’等,每个字母前后间都需要打一个空格来与前后的标注内容隔开距离(如果两个英文字母连着,则两字母间也是打一个空格);遇到单词:‘OK’、‘HELLO’、‘SORRY’等清晰发音单词,直接标注,字母全大写,单词前后加空格;其余单词按照发音(发音指同音字发音)进行音译标注。

(5)如果遇到邮箱@符号要用中文音译——艾特,如果是网站的话,如百度网站www.baidu.com,也需要直接按读音音译:三 W 点百度点康姆;

(6)语气词规定字 ‘嗯’、‘啊’、‘呃’、‘哎’、‘喂’、‘好嘞’、‘哦’、‘嘛’‘呀’、‘呢’、‘吗’、‘哩’、‘咧’,需要带口字旁的字来规定(‘奥’除外),(不要用“恩”,“阿”,“额”这类字进行标注,以常用字为主,实在写不出来的再用非常用字。)按说话内容读音直接写上;

(7)遇到儿化音,如:一会儿、等会儿等,后边‘儿’字需要标注带上;

(8)遇到重叠的单字,需逗号隔开,如:五呃,五三六三,语音文本要完全对照,听不清楚的可不切割标注,不要自我想象,自由的自我添字,漏字,标注完成后由审核人员审核,不符合标准的打回重新标注。

(三)语料放弃切割或放弃整条音频参考标准:

(1)有人在说话,但是有背景音,比如人声、电磁波杂音、手机铃音或铁路噪音等,整条不标;

(2)整句话可被标记的内容不到50%的,或因为背景噪音影响说话人声音,或说话人口齿不清晰的,整条不标;

(3)背景噪音比较大,中间重叠的多,整条不标;

(4)音频质量差,出现类似于电磁波干扰的声音,滋滋啦啦的,听不清,即使能听见人说话可标注出来,但是整条也不标;

(5)整条语音要标注完整,不同人的每一句话,每一个字都要标注,人与人说话要划分明确的界限,实在划分不开的可以隔过去,但是仅限于1-2小段,多了可以放弃不标注。

(6)语音和标注要严格一一对应,添字、漏字情况一律在审核中打回重标。

(四)中文语音语料的标注流程

1.具体标注流程:

(1)系统功能介绍

系统登录——>标注任务领取——>标注——>审核——>抽检

标注系统操作使用流程图:

C:\Users\ADMINI~1\AppData\Local\Temp\WeChat Files\173097185928031088.jpg

(2)操作说明

a.按照固定的时长用特定的切割工具切割生语音语料,一般为10秒左右,具体切割时长可以按照需求来划分。

b.将切割好的语料上传到标注系统中,放在未标注一栏中。

c.标注人员在登录自己的账号密码之后,开始在未标注一栏中领取自己的标注任务,一次最多可以领取10条,10条为一组。

d.标注人员标注完之后,点击提交按钮,标注好的语料会自动进入下一个环节—审核,审核的标准是每一条均需要通过检查,检查有误的,打回标注员处重新标注,而且是整组打回。

e.标注完成且第一次审核通过之后,会有第二次抽检,抽检的标准是一组一条,即每十条抽检一条。审核和抽检均通过后,标注过程即为完成。

具体流程如下所示:

a.输入用户名,密码,登录系统。

c.领取并标注领取标注任务后,对音频进行标注。

打开“标注任务领取”-->点击需要标注的任务-->任务领取,一个用户一次只能够领取一个任务,且标注待办任务中没有任务时才能领取。  

d.打开“标注待办”-->点击“详情”出现标注待办的“子任务信息列表”。

e.截取自己听取的音频,截取音频必须为单人说话,时长最好控制在10秒以内,10秒不是硬性要求,单独的字词,也需要单独截取成段。

“保存”按键集成转写功能,需注意以下三点:

第一,截取音频后,点击保存会自动转写生成条数(无需打任何字),转写成功后自动显示到页面;

第二,音频片段在0.5s内不会转写;

第三,人工对转写后内容修改后再点击‘保存’不会触发转写,只有新截取添加片段的会转写。标注修正后一定要点击保存按键,对于不满意的截取音频,可点击音频排列的上方‘删除’按键予以删除,重新切割标注。

f.在标注过程中,标注的音频界面拉取横向放大后,会出现前边或后边无波形情况,点击重回按键解决。

g.系统集成了‘行业字典’,用于查询生词,地名,行业名词等,‘行业字典’一定要熟练使用,字典查不到的词语可以网络搜索查询。

h.最后点击右上‘提交’即完成一条音频标注。

如果整条音频为噪音,或杂音无法标注,点击界面右上‘放弃’按键,放弃整条任务。如果显示不通过,则再次标注,如果状态显示“审核不通过”,打开“标注待办”-->点击审核不通过任务的“详情”按钮-->“子任务信息列表”的标注待办页面-->点击审核不通过任务条数,(按照标注流程对显示不通过的语音再标注一遍)当所有子任务的“状态”都显示为“待审核”时,才能提交。

提交后,“标注待办”界面的“待办信息列表”中无该项任务显示,且“标注查询”中可看到提交的标注任务状态显示为“待审核领取”。

五、语音标注在中文语音语料库建设中的作用

语音标注是所有基础数据库的重要来源。发音人属性、发音文本、实际语音数据、声学分析参数数据这四种素材对语音标注的结果影响至关重要。

第一,发音人属性素材,如发音人年龄、性别、受教育情况、对汉语掌握情况、本人对母语使用状况等。如果发音人的口齿不清晰或者受教育程度较低,对一些汉字的发音不正确或者不准确,这就使得标注员在标注过程中产生疑惑,从而导致标注错误。如果语料库中储存的数据错误,那么训练出来的模型也就出现了偏差。

第二,发音文本素材,在收集发音文本素材时应该将方言发音和普通话发音两种文本材料分别录入和储存。因为我国分七大方言区,南北地区的方言差异较大,所以,在收集发音文本时,需要分区储存,而且在招募标注员的时候,也需要按照方言区来招募标注。这样,会大大减少因为方言的差异造成的标注错误。

第三,实际语音数据材料,主要用于保存录制好的语音波形图形的原始参数。实际语音数据需要在录制过程中尽量保持录音环境安静,录音设备也要达到一定的录制级别。如果录音环境嘈杂,标注员在标注过程中,受到环境噪音的影响较大,听不清楚说话人的声音,这样会大大影响标注效率,降低准确度。

第四,声学分析参数数据,即对处理后的语音波形提取的声学参数的保存。

语音标注在整个语料库的建设中起到了中流砥柱的作用,是人工智能化的重要基石。语音标注涉及的流程环节较多,整个标注过程也较为复杂,受到的各种因素的影响较多,所以,整个标注所耗费的人力物力的成本较大。而且针对不同的语料库,比如,语音语料库、图谱语料库、文字语料库等,标注的方法和标注流程及要求千差万别。因为建设语料库的需求各不相同,所以,本论文无法一一阐述不同的标注流程及方法,这也是本论文的不足之处。

参考文献

 [1] 《语音语料库在大学英语模块教学中的建设和应用——以兰州城市学院大学英语模块教学为例》[J]. 王小兵、李晓梅、李国访.甘肃高师学报.2015.7.15

[2] 《维吾尔语TTS语料库建设关键技术研究》[D]. 卡斯木江·卡迪尔.新疆大学.2012.5.24

[3] 《普通话水平测试电子语音语料库的开发与建设》[C].姜岚、张绍麒、王涛、张洪沼、张传东.语文现代化论丛(第七辑).2006.10.28

[4] 《视听双重输入模式下的二语词汇习得研究》[M].范烨著.上海:复旦大学出版社.2016.10

[5] 《语言学概论》[M].岑运强.北京:中国人民大学出版社.2003

[6] 《深度学习语音识别系统中的若干建模问题研究》[C].唐健.中国科学技术大学博士论文.2020.9.30

[7] 《计算机辅助方言研究系统的建设与胶东方言电子语音语料库的研制》[J].张绍麒.鲁东大学学报(哲学社会科学版).2006.9.30

[8] 《白语语音语料库建设研究》[J].杨健、李海光、张晓玲.大理大学学报.2017.12.15

[9] 《地方口音英语学习者语音库建设构想》[J].陈文凯.郑州轻工业学院学报(社会科学版).2013.08.15

[10] 《汉语语篇主述标注语料构建与主述结构自动分析研究》[D].田大维. 厦门大学.2017.06.30

[11] 《基于多译文的中文转述语料库建设及转述评价方案》[J].阮翀、施文娴.中文信息学报.2018.12.15

[12] 《基于平行语料库的无监督中文词性标注研究》[D].孙静.苏州大学. 2010.04.01

[13] 《基于语料库的现代汉语概述回指研究》[D].吴丹苹.浙江大学. 2021.03.30

[14] 《基于语料库的中文语音合成技术研究》[D].侯亭武.华中科技大学. 2015.05.01

[15] 《面向中文文本的情感信息抽取语料库构建》[J].戴敏、朱珠.中文信息学报.2015.07.15

[16] 《面向中文语料库的模式检索研究》[J].邱冰.微计算机信息. 2012.07.15

[17] 《网络语音语料库的建设及其在英语语音教学中的应用》[J].刘丽、殷永建.西安工程大学学报.2011.04.25


[3] 《视听双重输入模式下的二语词汇习得研究》[M].范烨著.上海:复旦大学出版社.2016.10

[4] 《语言学概论》[M].岑运强.北京:中国人民大学出版社.2003

[5] 《深度学习语音识别系统中的若干建模问题研究》[C].唐健.中国科学技术大学博士论文.2020.9.30