基于Python的图像属性数字化处理

(整期优先)网络出版时间:2022-10-20
/ 2

基于Python的图像属性数字化处理

常文娟

上海图书馆(上海科学技术情报研究所) 上海市 210012

摘要

本文主要探讨了基于Python的老旧报刊图像中,TIFF、JPGA类图像属性的数字化信息处理。全国报刊索引平台中数据来源有各类老旧报刊,老旧报刊图像的预处理对于后续的篇名加工及OCR识别有着至关重要的作用。老旧报刊由于年代久远,部分报刊有破损、发黄、折痕等影响信息的因素,扫描的图像往往不是完美的,可能带有亮度偏低、色调昏暗或者污渍,那么要做的第一步就是进行图像预处理,对不符合数字化加工规范的图像属性进行调整。同时由于Python语言作为近来较为流行的脚本语言,具有良好的一致性,对于图像数字化信息处理提供了新的思路和方法。

关键词:Python;图像属性;数字化处理

正文

1.Python的简要介绍

自20世纪90年代Python语言公开发布以来,由于其语法简洁、类库丰富,适用于快速开发活动,已经成为当下较为流行的一种脚本语言。在采用Python语言进行编程时,编程人员不需要考虑内存占用等底层的细节问题,能够有效提升编程效率。而且Python语言具有良好的一致性,可以在多种平台上移植。其本身属于开源代码,在程序解释执行过程中,可以直接从源代码中运行,不需要编译。这些特点都为Python语言的广泛应用奠定了基础。Python语言具有强大的数据分析功能,可以应用到网站开发、图像处理、数据统计和可视化表达等多个领域。本文使用的类库和程序均基于Python 3.7版本。

2.图像属性概括

在图像处理中,常见的颜色模型包括HSB(色相、饱和度、亮度)、RGB(红色、绿色、蓝色)、CMYK(青色、品红、黄色、黑色)等,因此,相应的颜色模式也就有RGB、CMYK等。在图像处理的各种颜色模型中,HSB模型以人类对颜色的感觉为基础,描述了颜色的3种基本特性。

2.1 亮度

亮度指照射在景物或图像上光线的明暗程度。图像亮度增加时,就会显得耀眼或刺眼,亮度越小时,图像就会显得灰暗。

2.2对比度

对比度指不同颜色之间的差别。对比度越大,不同颜色之间的反差越大,即所谓黑白分明,对比度过大,图像就会显得很刺眼。对比度越小,不同颜色之间的反差就越小。

2.3饱和度(Saturation,又称彩度)

饱和度是指色彩的鲜艳程度,也称图像颜色的浓度。饱和度越高,颜色越饱满,即所谓的青翠欲滴的感觉。饱和度越低,颜色就会显得越陈旧、惨淡,饱和度为0时,图像就为灰度图像。饱和度表示色相中灰色分量所占的比例,它使用从0%(灰色)至100%(完全饱和)的百分比来度量。

 2.4色相

色相就是颜色,调整色相就是调整景物的颜色,例如,彩虹由红、橙、黄、绿、青、蓝、紫七色组成,那么它就有七种色相。顾名思义即各类色彩的相貌称谓,如大红、普蓝、柠檬黄等。色相是色彩的首要特征,是区别各种不同色彩的最准确的标准。事实上任何黑白灰以外的颜色都有色相的属性,而色相也就是由原色、间色和复色来构成的。

2.5色调

色调是各种图像色彩模式下原色的明暗程度,级别范围从0到255,共256级色调。例如对灰度图像,当色调级别为255时,就是白色,当级别为0时,就是黑色,中间是各种程度不同的灰色。在RGB模式中,色调代表红、绿、蓝三种原色的明暗程度,对绿色就有淡绿、浅绿、深绿等不同的色调。色调是指色彩外观的基本倾向。在明度、纯度、色相这三个要素中,某种因素起主导作有用,可以称之为某种色调,例如,如果图像亮部像素较多的话,则图像整体上看起来较为明快。反之,如果图像中暗部像素较多的话,则图像整体上看起来较为昏暗。

3.数字化图像处理

民国时期,是中国出版印刷业、新闻业快速发展的阶段,是多元文化相互碰撞、相互交融的阶段。民国时期被称为“中国文献昌盛期的开端”,这一时期我国出版各类文献超过20 万种。据《民国时期总书目》统计,我国民国时期出版的期刊多达2 万余种。民国文献是该特殊时期思想文化、精神文明的重要载体,反映该时期社会经济、政治军事、历史文化等内容,具有重要的学术研究价值。期刊具有内容广泛性、记叙真实性、披露连续性、报道精细性等特点。因此,民国期刊能够还原更多的民国时期的历史细节,具有更为重要的史料研究及现实意义。

3.1图像属性调整

由于造纸工艺落后、文献保存条件有限、文献保护意识淡漠等原因,民国文献尤其是民国期刊破损情况严重,老化异常迅速,亟需抢救性保护。随着数字缩微技术的普及,对民国报刊文献进行数字化开发已经成为图书馆数字化建设的题中应有之意和典型缩影。在民国文献向现代化转变的过程中,它扮演了浓墨重彩的角色。由于老旧报刊中部分报刊有破损、发黄、折痕等影响信息的因素,扫描的图像往往不是完美的,可能带有亮度偏低、色调昏暗或者污渍,那么要做的第一步就是进行图像预处理,对不符合规范的图像属性进行调整。

部分程序如下:

defImageAugument

():

path=r'f:/Python/Work/color'

files=os.listdir(path)

prefix=path+'/'

forfileinfiles:

image=Image.open(prefix+file)

#亮度增强

enh_bri=ImageEnhance.Brightness(image)

brightness=1.5

image_brightened=enh_bri.enhance(brightness)

image_brightened.save(prefix+file.strip('.jpg')+'-lightup'+'.jpg')

#色度增强

enh_col=ImageEnhance.Color(image)

color=1.5

image_colored=enh_col.enhance(color)

image_colored.save(prefix+file.strip('.jpg')+'-colorup'+'.jpg')

#对比度增强

enh_con=ImageEnhance.Contrast(image)

contrast=1.5

image_contrasted=enh_con.enhance(contrast)

image_contrasted.save(prefix+file.strip('.jpg')+'-contrastup'+'.jpg')

#锐度增强

enh_sha=ImageEnhance.Sharpness(image)

sharpness=3.0

image_sharped=enh_sha.enhance(sharpness)

image_sharped.save(prefix+file.strip('.jpg')+'-moreSharp'+'.jpg')

程序运行结果:

    可以看出原始图像亮度略为偏低、色调昏暗,对于篇名加工及OCR识别会有些许影响,而亮度增强后的图像更加清晰,对后续加工提高识别率、降低返工率有了积极的作用。具体参数可以根据不同的图像进行实时调整,也较为灵活。

3.2 图像格式转化

TIF格式是一种压缩最小的图片处理格式,基本不损失图像信息,可以最大限度保留老报刊扫描图像的所有信息,但其缺陷就是文件体积太大,在数字化制作后期索引平台数据浏览加载的时长过长。而JPEG是一种压缩比比较大的图片格式,图片以JPEG格式保存以后,会损失掉不少图片信息,但其好处就是图片占用空间小,加载信息速度比较快,在数字化信息处理后的平台数据展示、查询方便快捷。因此在全国报刊索引平台数据储存中,会同时保存TIF/JPEG两种格式,这就需要将tif转化为占用空间较小的jpg格式。

部分程序如下:

img_list1=os.listdir(img_fold_A)

num_imgs1=len(img_list1)

foriinrange(num_imgs1):

name_A=img_list1[i]

path_A=os.path.join(img_fold_A,name_A)

im_A=cv2.imread(path_A,1)

file_name_temp=name_A[:-4]

file_name=os.path.join(img_fold_A,file_name_temp+'.jpg')

cv2.imwrite(file_name,im_A)

程序运行结果:

显而易见经过转换的图像大小缩小了50%-80%,且图像信息丢失不严重,可以用于基本信息展示。

4.结束语

经过对图像属性更改和格式转化的探究,表明Python语言在数字化处理领域具有优势,可以利用其自身携带的各种类库,完成数据分析的基本流程,并通过直接调用功能函数,简化代码编程过程。在Python数字化信息分析技术的应用过程中,通过从实际需求出发,完善平台功能,可以快捷、高效地完成数据分析任务,得到具有数字化加工规范的图像和图像信息,为之后的篇名加工以及OCR加工提供良好的加工基础,对于图像数字化信息处理提供了新的思路和方法。

参考文献:

[1]贺洪煜.基于Python的科技情报智能化识别检索系统的研究与设计[J].科技视界,2019(11):72-74.

[2]倪俊明.近现代报刊的史料价值及其保护和整理[J].图书馆论坛,2010,30(6):230- 237.

[3]赵楠.浅析民国期刊数字化建设的现状及问题[J].数字与缩微影像,2019(04):41-44.

[4]张运玉.基于Python的数据分析的研究[J].电脑知识与技术,2019,15(30):3-4.DOI:10.14004/j.cnki.ckt.2019.3279.