航运企业生产经营数据统计分析模型设计方法综述

(整期优先)网络出版时间:2022-10-20
/ 2

航运企业生产经营数据统计分析模型设计方法综述

李曼

(天津中远海运散运数字科技有限公司300010)

摘要基于某航运企业多年来生产经营数据提取应用情况,说明传统生产模式的局限性,提供突破方案。强调“自下而上”生产模式的必要性,研究出一套适用于各类统计分析业务需求的底层数据模型设计方法。新的设计方法将使生产数据统计分析模型更加系统、高效,强调模块化解耦和可复用性,降本增效,为打造该企业数据底座具有积极的推动作用。

关键词:生产模式;模型设计方法;解耦可复用;降本增效;数据底座

一、引言

伴随着第四次工业革命的到来,科技创新已经被提高到前所未有的地位,越来越多的企业开始逐渐意识到数字化转型的重要意义。数据,作为数字经济时代的核心生产要素,可以有力推动产业模式转型,成为社会发展的驱动力。随着 “十四五”数字化规划的启动,多家航运龙头企业抓紧时机,以数字化转型为契机,大力推进数字化信息项目的建设工作。截至目前,本文所涉航运企业已拥有以生产经营系统、船舶机务系统、SAP财务系统为核心的业务操作系统[1],海量数据资产应有尽有,数据赋能已初具地基,如何让生产数据充分发挥价值,积极推进大数据集成分析平台优化建设,成为我们必须思考的方向。

二、生产经营数据提取应用现状及局限性

传统的数据应用生产模式是“自上而下”的,即以需求驱动、多人并行从系统源头取数开发,最终产出以用户需求样貌展现的多个数据报表,供给多方下载使用。随着人们挖掘数据价值的需求持续高走,对来源数据的数量、一致性、准确性和实效性也提出了更高的要求。传统模式已难以适应,其局限性主要体现在以下几方面:

(一)、需求沟通成本高、生产数据应用率低

传统开发模式,对需求方要求较高,“自上而下”也是一个“从无到有”的过程。受限于需求方的业务水平和系统熟悉度,多方多次确认需求是必然过程。大量分布于操作系统各处数据指标未被发现,变相浪费了生产数据的使用价值。

(二)、开发效率与产出进度较慢

操作系统的数据存储结构以业务单据为导向,与数据应用需求差距较大,使用前要进行大量的清洗、聚合、加工、重构等技术处理。不同应用的同一指标多次从系统源头取值,逻辑代码没有复用,降低了开发效率。在指标定义或系统源头数据结构发生变更时,开发者要逐个确认后更新程序逻辑,工作量倍增,尤其在多个应用的技术实现方法不同时,影响更为明显。

(三)、数据一致性、准确性有待提高

同一数据指标,可能分布在操作系统多处,且存储意义和逻辑口径不同。多人多源开发难以保证数据提取的一致性和准确性。即使我们通过优化的管理机制,提高开发人员对数据源和需求的理解认知能力,提高技能水平,以减少开发BUG的产生,也难以避免这一问题的发生。

为了解决以上问题,企业的信息化部门应该全面梳理各操作系统数据,提供一套从业务全局视角和数据整体情况出发的,适用于统计分析的新的生产数据模型,将不同口径、维度的指标逻辑进行固化,统一出口,一次性提供给各层级用户,以突破传统模式的局限性。本文则以生产经营系统数据为研究范围,展示新模型的设计原则。

三、模型设计方法详述

新的生产数据统计分析模型,必须全面、清晰、便捷、准确,符合业务实际情况,强调逻辑固化和知识复用,让用户和前端开发者摆脱底层数据逻辑的困扰,转向关注上层数据的智能应用建设。参考数据仓库搭建方法,模型搭建要按主题逐个搭建[2]。主要分以下几步:

(一)、主题分层设计原则

为了使用户和前端开发者摆脱底层数据逻辑困扰,我们需要将全部主题和数据字段分层处理,将系统原生指标放入原生主题层,将统计分析衍生指标放入衍生主题层。衍生主题层和原生主题层应是继承关系,即衍生主题层的指标全部来源于原生主题层,包含原生指标和衍生指标。由于生产数据业务实体的颗粒度不同,因此原生主题层和衍生主题层内部各自也可以存在引用关系,但这种引用关系必须是根据颗粒度自下而上的,是单向、单线的。

这样有两个好处:一是,操作系统原生指标模型全部搭建完毕后,程序逻辑将被固化和复用,变化性可控,运维成本降低,用户和开发者只需把精力投入到衍生主题层即可。二是,有效避免一数多源的问题。

除此之外,原生主题层需要做更细致的模块划分,除了按照业务实体纵向划分外,还应横向划分,充分解耦,才能保证最低的后期运维成本。

基于以上原则,模型设计方案最终定为三层,从底层至顶层分别为原子主题层、联合主题层和业务视角主题层。如下图:

(二)、制定主题表及属性设计原则

确定各主题层原则等于确定模型搭建方案的架构,而主题、颗粒度、维度、度量的原则确立则是完整了模型搭建方案的实体。将操作系统数据按原则逐表、逐字段一一标识,便可形成新的统计分析数据模型。

1、主题

主题是一个在较高层次将数据归类的标准,每一个主题对应一个分析领域[3],为了将分析领域快速归类,我们需要参照散货运输实际业务,将操作系统数据分为船舶注册、合同成交、航次运营信息、港口使费、运费、燃油、系统流程7个业务模块。在模块内部建立多个细化主题,自底而上逐步归类。

2、颗粒度

通过梳理各业务模块的统计颗粒度和业务单据最小颗粒度,可最终确定各主题层的颗粒度定制原则。主数据和业务单据最小颗粒度数据必须存在于“原子层”。例如:运费收款模块的最小颗粒度到运费费用类别,统计颗粒度到系统发票号、税控发票号等。而“联合主题层”则是来源于“原子层”,颗粒度依据原子层的颗粒度而定。“业务主题层”,则从业务实际视角出发,根据统计维度确定颗粒度。例如:按国家统计港口使费金额,则颗粒度为国家。

3、维度

字符型数据均可标识为模型维度,分为原始维度和衍生维度。原始维度即系统原始字符型数据,在三个主题层均存在,例如:货种、录入部门、港口国家等。衍生维度即数据统计口径维度,来源于“业务主题层”例如:时间段、货物流向等。部分以数值型存储的数据,也可作为维度来标识。要记录原始维度和衍生维度的父子关系,以便后续延展星型模型和雪花模型的数据集市搭建。

4、度量

纵观全量数据库,数字型数据均可标识为模型度量。“原子主题层”和“联合主题层”对应的均为原始度量,“业务主题层”则可包含原始度量和衍生度量。操作系统中的部分字符型数据也可作为度量使用,例如船舶载重吨,在模型设计时要将这类指标的数据格式要转为数值型,但要注意减少超长描述型字段的出现,超长描述性字段应另做设计主题,最终以视图的形式呈现即可。

四、结语

本次的研究范围仅为生产经营管理系统的关系型数据,结合报表制作生产模式的局限性,提出一个从操作系统全局数据角度出发,自下而上的建模方式。同时,借鉴了数据仓库搭建的方法论,通过论述主题层、主题域、颗粒度、维度、度量的设计原则,系统诠释了生产数据统计分析模型建设的方法论,为后续推进生产数据统计分析模型的实践与应用打下坚实的理论基础。

参考文献:

[1] 陈建新.中远散运数据仓库与商业智能系统初步策划 [J].中国科技信息,2006(24):127,12

[2] 李晖,李德俊,李姗妮.基于数据仓库模型的报表生成方法,装置和设备 [P] 20210105

[3] 印勇,曹长修,林景栋,张邦里.数据仓库和数据采掘研究综述 [J]重庆大学学报2000(02)