大数据时代数据中心运维管理措施

(整期优先)网络出版时间:2017-12-22
/ 2

大数据时代数据中心运维管理措施

朱杰

(浙江省邮电工程建设有限公司浙江杭州310012)

摘要:本文首先介绍了大数据的概念和背景,然后对大数据时代下的数据中心运维管理内容和现状进行了分析,针对提高运维管理能力提出了对策,旨在为大数据下数据中心运维管理工作提供参考。

关键词:数据中心;运维管理;对策

前言

随着数字化时代的来临电源管理过程中,数据中心建设与管理发挥着不可替代的作用。正因如此我国通信电源管理与技术人员,以提高数据中心运行质量与效率为目标,开展了实践性管理与技术研究。在这一研究中我们发现,数据中心运行与维护管理工作的开展,对于提高数据中心管理质量起到了重要作用。因此我们以实现数据中心运维管理目标为前提,开展了数据中心运维管理实践研究。这一研究的开展一方面有助于电网数据中心运行与管理质量的提升;另一方面保障了电网运行的稳定与安全性。

1大数据的概念及背景

大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。业界对于大数据的特征一般可以概括为4个V:Volume(数据量)、Variety(类型多样)、Value(价值)、Velocity(速度)。数据体量巨大(Volume)。由于RFID、新媒体等技术的发展,信息传递的方式正在转变,速度也正在加快,各种终端设备产生了大量的数据,企业面临的数据体量巨大。数据类型繁多(Variety)。大数据时代,数据不再仅仅限于结构化数据,更多的是非结构化数据,包括图像、文本、音频等,数据类型的多样化也对数据处理分析能力提出了更高的要求。处理速度快(Velocity)。处理速度快是大数据时代区别于传统数据分析的最显著的特征,在数据体量巨大、类型繁多、价值密度低的海量数据面前,数据的处理效率就是企业的生命,并且受数据时效性的制约,大数据要求处理速度更快、实时性更高。价值密度低(Value)。大数据时代,数据价值密度低,价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但具有很高的价值。大数据从技术角度来讲不只是一个技术,一个产品,应该是一个集成的平台,能够帮助我们很好地管理数据,并且从数据中获取对企业有帮助的信息。

2数据中心的运维管理的内容

数据中心运维管理是指通过一定的手段或技术,对数据中心运行环境、业务系统和运维人员进行的综合管理,也就是所谓的数据中心运维管理系统。数据中心运维管理包含数据中心信息系统的运维管理、数据中心存储管理、数据中心网络管理和数据中心网络环境管理四个方面的内容。

3数据中心的运维管理的现状

3.1缺乏统一规范的系统配置平台,无法及时信息共享

由于无法掌握详细全面的配置资料,运维技术人员在处理故障和问题时,通常需要很长时间才能全面了解故障情况,排查出故障点。

3.2运维管理内容单一

目前,一些单位和运维管理人员在进行运维工作管理的进程中,仅将日常工作中所产生的数据进行收集、整理、分类,但是数据的深层分析和挖掘还停滞在一事一析,还没有意识到大数据时代下这些信息对未来运维工作稳定的运行和有效发展所产生的重要作用,其运维管理工作内容过于单一,最终将难以服务于数据中心运维管理的长久发展。

3.3对运维工作人员的工作缺少定量、规范的考核标准

对运维工作人员的考核,通常只是各维护单位内部考核进行,没有统一标准,也缺少量化工具,各个单位差异很大。另外,由于缺乏相应的评价机制,用户也无法对运维支持部门做出客观准确的评价。

4数据中心的运维管理的对策

4.1构建自动化运维

4.1.1构建运维自动化管理平台

通过运维自动化管理系统的建立可以实现计算机运维的自动化管理,通过自动化运维管理系统来实现对系统运行过程中出现的故障以及问题集中管理和处理的能力。运维管理平台可以实时的对计算机设备进行管理与监控,例如:服务端、数据库、存档、网路、安全、供电质量、制冷系统等相关应用与服务端的管控,通过对海量的智能设备和各类采集器等节点的实时监控实现故障的准确预警、报警以及准确定位。同时运用人工智能,不断在大数据库内学习历史信息,构建迭代新模型,不断完善管理平台。

4.1.2构建系统故障的自动触发流程

运维自动化平台在工作过程中一旦遇到问题和设备故障都会自动报警,在对故障进行汇报时,不论是系统报警还是人工汇报,都要严格切记利用红色标识展示在运维系统的屏幕上。收到故障信息后,运维人员根据相关知识库的数据,然后依据相关流程按步骤操作即可。因此,企业必须要事先建立流程化的故障和事件处理机制,一旦有异常情况或设备出现故障时就会立即触发相关事件,然后将相关工作流程处理程序触发并传递给操作运维人员,以此确保运维人员按规定及时完成流程规定的工作,这样可以大大提高工作以及运维处理故障事件的效率。

4.2ITIL在数据中心运维中的应用

数据中心运维属于IT服务管理,是为对数据中心进行有效管理和维护,保证其正常运行而建立的软件、硬件系统和网络的组织体系。运维是业务实现、业务保证的基础与核心环节。ITIL是根据具体的运维实践工作提炼归纳出的管理规范,具有较强的可操作性。目前ITIL实际上已成为IT运维管理的全球标准,各大IT企业均是ITIL的支持者。IBM、微软、CA等著名IT企业均以ITIL为标准,制定了用于IT服务管理的应用软件和操作方案。2000年以后我国也开始推行基于ITIL的应用,许多大型企业使用ITIL对数据中心进行运维管理,如银行系统、石油系统均采用基于ITIL的运维系统进行数据中心的运维,以提高IT服务水平。

4.2CMDB的构建与维护

CMDB的构建是一个从无到有、逐步完善的过程。由于配置项信息量比较大,在采集配置项信息构建CMDB时尽量采取从生产环境或已有的资产数据库中自动导入的方式,以提高信息采集的效率和正确率,采集后的信息进行整理并保存为统一的格式。对于一些重要但无法自动化采集的配置项,可以采取人工采集的形式,并在日后进行持续的维护。另外还要建立配置项自动更新机制,对于无需配置控制委员会(CCB)进行审批的信息变更,CMDB可以自动获取其更新信息并做出相应维护操作。构建CMDB的另一项重要工作就是定义配置项之间的关系。各部门首先对硬件资产、软件资产和服务组件各类别配置项进行分析和梳理,明确各类配置项之间的依附关系,如对某一个应用系统来说,要明确它部署在哪台服务器上,位于哪个机柜的什么位置,分配的IP地址是多少、访问该系统的客户端浏览器是什么,然后对相关的配置项定义映射关系。定义配置项之间的联系,是变更控制的重要前提。CMDB还应该支持配置项可视化管理和展现。比如在一台机柜上,可以展示机柜上设备的物理关系和逻辑关系;业务系统的运行状态和部署关系;网络设备的连接情况及带宽使用情况。为运维人员的管理提供友好的交互界面。

4.3提高运维管理人员的综合素质

数据中心运维管理的核心要素就是管理人员,先提高管理人员的综合素质水平,相应的,才能有效提高运维管理水平。要提高数据中心运维管理人员的综合素质,首先,单位应开展各种有价值的培训和讲座,鼓励运维管理人员积极参与,完善上岗证书培训;然后,建立适用的考核制度,将运维管理人的专业水平和薪酬待遇相挂钩,激发其自我提升的积极性;最后,通过开展交流会议和各级交流分享平台,促进管理人员相互分享其丰富的经验和优秀的心得,互相帮助、共同进步。适时引入运维机器人,将简单重复的事情交由不知疲倦,不易出错的机器人完成。

总结

数据中心运维管理水平的提高对各个产业今后的发展至关重要,本文通过分析其现状,指出其存在的主要问题,并且有针对性的提出了几点对策。希望能狗完善运维管理系统,节约人力资本,优化资源配置,最终满足社会经济发展的需要。

参考文献:

[1]王景川.基于智能电网的电力调度数据网运维管理研究[D].华北电力大学,2014.

[2]解林超,石佳,王仲锋,等.大数据时代对传统数据中心的影响及思考[J].中国新通信.2014.

[3]李威,顾海林.面向业务的自动化运维管理探究[J].中国科技纵横,2015(01).