以降本增效为核心的云平台运营体系构建

(整期优先)网络出版时间:2022-04-27
/ 2

以降本增效为核心的云平台运营体系构建

曹敏

国网内蒙古东部电力有限公司信息通信分公司 内蒙古呼和浩特市 010000

摘要:为充分发挥云平台在企业数字化转型中的基础支撑作用,深入研究从传统数据中心向云数据中心转变过程中的运营体系建设,以人员组织体系、制度规范体系、工具平台体系“三大支撑保障体系”为基础,组建云运营中心,构建专业化运营体系;以平台运营、应用运营、安全运营、运维管理和数据运营“五项服务领域”为维度,全面提升运营能力。

关键词云平台、运营体系、云运营中心


一、实施背景

(一)顺应工业互联网发展趋势的迫切需要

伴随世界范围内“工业4.0”革命及“再工业化”战略的兴起,结合“中国制造2025”及“两化融合”战略,新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点。作为工业互联网的重要组成部分,能源互联网的建设,伴随着企业数字化转型,必然导致基于云平台模式下的新型架构业务系统将井喷式增长,因此,亟需构建云平台运营体系,助力企业数字化转型,推动企业生产、经营、管理、服务模式变革。

(二)补强云平台运营薄弱环节的重要举措

云平台相较于传统数据中心,运维对象发生巨大变化。除了基础设施之外,运维人员需要面对平台各类功能组件,一旦故障发生,将会影响所有运行在云平台上的业务系统,给运维工作带来了极大地挑战。传统运维模式下的运维组织、运维能力、运维规范等方面都无法发挥云平台架构坚强、灵活共享、响应敏捷的优势,再以传统方式划分运维边界将无法满足云平台的运维工作。

二、主要做法

(一)以“三大支撑保障体系”为基础,构建专业化运营体系

1.构建柔性运营团队,完善人员组织体系

为适应新基础设施阶段下从运维向运营工作的转型,避免新平台、老模式带来的云平台能力发挥不足、应用与平台不匹配等问题,成立云运营中心,明确云平台运营管理组织架构、职责主体、工作流程、工作边界和运营体系内相关岗位职责。结合云运营工作的层次分工,划分为云运营管理组、架构设计组、客户服务组、云平台运维组、上云支撑组、安全运营组。

2.构建制度规范体系,提升平台运营规范性

为保障云平台运营体系正常有序运转,制定《云平台运营方案》、《应用上云规范》、《IT容量管理流程说明书》等一系列平台运营配套相关标准及规范,通过对运营组织、人员、能力、服务、资源等相关标准和规范制度的建立,明确云平台运营相关单位及部门的运营职责,为运营工作提供流程及制度保障。

3.自主创新运维工具,构建平台自动化工具体系

按照可复用能力结构化、标准化、规范化、工具化、自动化、智能化演进路线,构建运营效率提升工具。应用上云支撑工具,用于将传统应用直接迁移到云上,上云前后应用系统不用重新部署,场景涵盖P2V(Physical to Virtual)、V2V(Virtual to Virtual)和华为云平台内部虚拟机业务迁移。调用链分析工具,用于性能调优和问题定界,查看每次业务调用完整链路,根据调用耗时、状态等分析性能瓶颈点,根据服务信息、时间等查询调用链,结合日志,快速定界定位故障原因。

(三)以“五项服务领域”为维度,全面提升运营能力

1.从粗放管理向精细管理转变,全面夯实平台运营基础

按照“预先评估、按需申请、空闲释放”的原则,从资源接入、配置、分析、优化回收等方面进行资源全生命周期管理。综合业界总结及业务系统运行相关经验,在资源申请分配时遵循CPU使用率为20%左右、内存使用率为50%左右、存储资源使用率为60%左右的原则,并设置资源配额,充分利用云弹性伸缩功能动态调整业务系统所占资源,提升平台健壮性和利用率,充分发挥云平台效能。

2.从资源支撑向业务使能转变,聚焦系统应用运营

应用上云根据底层支撑类型的不同分为传统应用和云原生应用。针对传统应用,提供上云评估、上云方案设计、云服务设计、云服务发放、应用验证、云上运行保障等服务。针对云原生应用,提供应用上云规划、应用云上设计支持、应用云上开发支持(微服务、容器化)、应用云上服务(各类中间件集成)集成等服务。云原生应用通常以容器为载体,通过应用的微服务化改造,在业务高峰瞬间来临时,可以进行容器瞬间拉起,保证应用架构满足业务开展的需要。

3.从物理防护向虚实结合模式转变,提升安全运营能力

以数据安全为中心,构建物理安全与虚拟安全相结合的云安全服务体系。对云平台安全管理机构和人员、安全策略和管理制度、安全建设管理、持续性管理等方面开展常态化管理。根据防护侧重点不同,从平台安全防护、安全运维、安全评估等方面进行管理。

安全防护:从基础设施安全、数据存储安全、虚拟资源隔离、网络传输安全四个层面进行防护。安全运维:从帐号密码、用户权限、日志等方面增强日常运维管理方面的安全措施。依托云堡垒机作为云服务器运维的唯一入口,实现运维访问控制,结合审计管理,运维审计回放功能,事后可审计。

安全评估:云平台运营团队定期开展常态化安全评估工作,评估安全风险可能对云平台的影响,综合运用各种手段,定性与定量分析相结合,通过技术测试、调查等多种途径,对脆弱性、威胁和影响进行全方位评估,归纳并总结系统所面临的安全风险,为后续的安全规划和建设提供决策依据。

4.从传统运维向智能运维模式转变,完善运维管理体系

事前防御:通过云平台AutoOps自动巡检工具,建立定时巡检任务,对云平台各物理设备、各组件及各业务系统资源进行定期巡检任务,确保各类资源运行正常。建立应用高可靠机制,从保障业务稳定性、连续性出发,在接入层、服务层、数据层三个层面对业务应用进行应用高可靠建设,用体系化的高可靠技术保障业务稳定运行。

事中止损:构建云平台运维监控告警体系,开展7*24小时云平台日常监控,实时监控云平台各级资源和组件运行状况,全局性查看所有监控对象的告警状态,及时开展告警处置与信息报送。建立云平台的应急响应机制,制定涵盖各类应急场景的应急预案,包含机房大范围硬件故障应急预案、云平台大范围组件级故障应急预案等。

事后沉淀:利用云平台运行历史缺陷和故障数据,分析日志数据、告警数据特征,建立知识库和告警数据分析模型,对运行隐患、性能瓶颈和异常事件进行监控预警。总结运维经验,形成典型案例,螺旋式指导事前预防和事中止损,形成闭环,不断完善运维管理体系,保证云平台安全、稳定、高效运行。

5.从数据孤岛向数据共享转变,构建数据运营平台

以云平台为底座,搭建企业级数据中台,推动大数据在各领域、各层级的深化应用,对内服务各业务部门提质增效、对外服务政府决策,实现数据增值变现。基于数据中台数据,构建企业级共享型的报表数据服务平台,提供一站式的需求提报、报表定义、报表建模、自动生成、自助式分析、报表资源目录及运营监控分析等全链路服务,推动企业数据共享共用,实现报表定制化服务,实现数据资产价值化,提高工作效率与质量,有效节约工作成本。

三、结语

通过组建云运营中心,编制规章制度,构建了职责清晰、运转高效、上下贯通的云平台运营体系,形成长效运营机制,平台运营薄弱环节和风险点大幅减少。业务系统以云平台为基础,实现资源统一调配,有效提升资源利用率,避免资源浪费。通过云平台提供计算能力,将传统业务自行采购硬件、安装软件的时间由2-3个月缩短至几日,同时基于云平台采用容器化部署将业务应用启动时间由几十分钟级大幅度缩减至秒级,可支撑业务应用快速构建、敏捷迭代,加速企业数字化转型。

参考文献

[1]趋势“云安全”为电力用户提供从内到外的安全-趋势科技全方位、多层次的防护方案使网络更加稳定、更加安全[J].电力信息化,2009(3).

[2]如何保障“企业私有云”系统?云管理与云安全[N].计算机世界,2011-07-25(014).

[3]王盘岗.互联网安全危机下的云安全[J].社科纵横(新理论版),2009(2).


Shape1

2