机器学习在图书馆领域的应用前景研究

(整期优先)网络出版时间:2019-03-13
/ 2

机器学习在图书馆领域的应用前景研究

张雨卉

(上海图书馆(上海科学技术情报研究所),上海市200030)

摘要:机器学习是人工智能的重要分支,TensorFlow是谷歌第二代开源人工智能机器学习平台。此文重点介绍机器学习(主要是深度神经网络)的基本原理和利用TensorFlow进行机器学习的基本方法,探讨在图书馆领域应用的可能和场景。

关键词:智慧图书馆;机器学习;TensorFlow;自动分类

人工智能是让机器能够模拟人的认知、思维、行为方式或信息过程,机器学习则是让机器具有人一样的自我学习和解决问题的能力,例如让机器学会“自动编程”就是一种最重要的机器学习。深度学习是机器学习的一种类型,是通过模拟人脑神经元对于外界刺激的感知和传导过程,即建立人工神经网络,来获取对事物的认识、解释和判断。人工智能是计算机科学所追求的最终目的,而机器学习则是实现人工智能的基本方法,目前的深度学习是被大家看好的实现路径。

一、机器学习框架的计算原理

TensorFlow的命名来自于它的运行原理,即前述人工神经网络算法的工程实现。张量(Tensor)通常表达为多维数据数组,Flow是数据依据一定次序和规则进行计算而形成的流程,可以画成图(Graph)的形式表达,即由“结点”(nodes)和“边”(edges)表示成有向图,生动形象地表示了“张量”从图的一端流动到另一端的情况。“节点”用来表示所进行的函数操作,当然数据的输入(feedin)起点和输出(pushout)终点以及在中间过程的读写操作也是一种节点,“边”表示“节点”之间的前后(输入/输出)关系,这些“边”可以传输大小可动态调整的多维数据数组。一旦模型建立起来,输入端的所有张量就已准备好,节点将被分配到各种计算设备,可执行异步分布式并行计算。

TensorFlow作为后起之秀吸收了众多前辈平台的诸多优点,同时避免了不少不足。它支持多种机器学习常用的开发语言(如C++/Python/Cuda),支持几乎所有类型的深度学习算法的开发(如CNN、RNN、LSTM等),能在多种硬件环境(CPU、GPU、TPU,RaspberryPi、手机、云)下很好地利用各自的长处和特点运行,并能够进行网络分布式学习,具有本地化、领域化训练和学习模型的重用(通过API,甚至能够支持其他平台下的模型重用)功能。由于其具有众多优点,如计算速度快、部署容易、灵活性强、可扩展等,所以一经推出就得到了人工智能界的热烈响应,开源社区迅速增长到数万人规模,已成为GitHub上最活跃的软件项目之一。很快地,由众多的第三方团队开发的大量工具和实验性项目,使其高速迭代,在推出1.0后短短半年就更新到1.4,目前正在酝酿大版本更新。

二、TensorFlow与智慧图书馆建设

1.智慧图书馆的两类应用

对图书馆而言,人工智能可能应用于两个方面:图书馆内部业务和对外服务。内部业务主要指图书馆将外部资料纳入馆藏的处理流程,即从资源的采集或数字化,到编目、组织、典藏直至提供检索和存取的一整套工作;对外服务主要是指直接面向读者的一线工作,如流通、阅览、参考咨询、会议展览培训以及阅读推广等。对于前者,业务处理的实时性要求不高,机器学习只需要帮助图书馆员更加准确高效地进行知识组织工作即可,主要涉及文本处理、分类和实体对象的识别技术;对第二类应用,需要结合用户画像进行用户的聚类和资源的聚类,然后在知识组织体系内进行匹配,以提供动态的、个性化的精准服务。由此可见,在这两类应用对机器学习的要求和机器学习能起到的作用是不同的。

TensorFlow发布迄今还不到两年,属于机器学习平台的后起之秀,虽然具有一定的普适性,但也并非灵丹妙药。从其特点和目前的成功案例来看,TensorFlow在图书馆的应用主要集中于内部业务的智能化,如馆藏资源的自动分类、自动摘要、文本生成、主题提取、文章聚类、自动标引、图像识别、实体提取和分析预测报告的自动撰写等,在服务方面的应用具有一定的局限性,主要集中于卷积神经网络、循环神经网络能够应用的场景和领域,例如用户需求感知、自动翻译、语义理解和发现、自动参考咨询等方面。

2.更智能的图书馆咨询服务

公共图书馆的参考咨询工作由于面对的读者类型复杂、层次跨度大,这决定了图书馆的咨询服务所涉及的问题比较庞杂,具有相当的广度和深度。于是许多图书馆都想到采用咨询机器人进行问题解答,利用神经网络的堆叠,将文本从字到词、短语、句子、段落各个层级上进行特征提取,以实现文本分类、情感分析,实现机器对复杂自然语言的理解,进而对读者的问题进行细粒度分类,并结合适当的上下文语义推理,实现类似Siri、GoogleNow和MicrosoftCortana的智能助手的功能,相较于“小图”使用的空间向量模型的相似度计算来说,在数据加工层面无需太多的专业知识,仅需要咨询服务人员在整理数据时,把文本划分到相应的一个或多个分类中即可,大幅降低数据加工的难度;同时对于参考咨询来说,神经网络是一个不断训练学习和不断自我完善的过程,这与参考咨询所需要的专业知识学习的需求相吻合。因此能够利用神经网络进行机器学习的参考咨询机器人将是未来的发展重点,有望得到突破。

3.预测与决策咨询

将大数据分析作为图书馆决策的重要参考已成为业界共识,一些大学和科研机构已有不少研究和实践,如重庆大学图书馆的大数据分析实验系统,能够将资源、读者和服务三个维度的数据,通过累计、分析、归纳得出结论,对内指导业务工作,对外引导读者阅读方式,挖掘原有数据的使用价值;美国俄亥俄州立大学利用读者参与进行采购决策(PDA项目),对所购图书的出版社分布、学科分布、图书利用率、文献类型等信息进行了详细的统计分析,不仅帮助图书馆调整资源建设标准和预设文档参数,还利用数据分析读者阅读倾向、阅读载体偏好、主题分布等信息,作为调整馆藏发展规划、构建馆藏特色资源的依据。

由于大数据分析对于统计分析相关的专业知识要求较高,TensorFlow平台的低门槛优势就得以显现和发挥,稍经“数据科学”培训的图书馆馆员就能通过TensorFlow对图书馆的数据进行建模和处理,而图书馆也有大量的数据可以发挥价值,如读者数据(业务流、个体属性、群体属性、借阅数据、到馆数据、活动数据)、资源数据(流通情况、书目查询情况、出版与发行图书、期刊应用率、电子资源使用率、馆藏借阅、馆藏分布)、服务数据(网络运营数据、图书馆客流统计、网站浏览数据、网上文献检索与下载数据、专题资源数据)等,如能利用其进行深度学习,对图书馆的运营决策和精准服务将提供巨大帮助,智慧图书馆的建成将指日可待。

结束语

综上所述,本文展现了机器学习对于智慧图书馆建设的重要作用和美好前景。当然TensorFlow作为一个比较新的神经网络框架,对智慧图书馆建设是否能发挥举足轻重的作用仍有待进一步应用和观察。可以肯定的是,随着第二次机器革命的逐步靠近,图书馆也会随着人工智能的发展而变得越来越智慧化,给图书馆带来新的发展与变革的机遇。

参考文献

[1]沈敏,杨新涯,王凯.基于机器学习的高校图书馆用户偏好检索系统研究[J].图书情报工作,2015.(11):143-148.

[2]王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2016.(6):28-39

[3]叶鹏.基于机器学习的中文期刊论文自动分类研究[D].南京大学,2013.