关于机器学习建模平台的主要功能与应用价值剖析

(整期优先)网络出版时间:2024-07-22
/ 2

关于机器学习建模平台的主要功能与应用价值剖析

刘杰

421023198705231037

摘要:本文全面概述了机器学习建模平台的主要功能及常用算法,并举例阐述了机器学习建模平台在城市大脑业务中的应用场景、主要模型、建模过程及应用价值价值,总结提出机器学习建模平台正在创新迭代,且随着技术不断进步,平台将更加智能化,从而更好地服务于各个领域。

关键词:机器学习建模平台;主要功能;应用价值;

引言

大数据时代,基于海量数据的融合应用需依托相应技术作为支撑,机器学习作为 AI 领域常用的技术之一,已广泛应用于各行业领域,机器学习通常可分为三大类型,即:监督学习、无监督学习和强化学习,构建机器学习建模平台可快速推动业务场景变现。

1 平台概述

机器学习建模平台旨在解决算法需求剧增的难题,为大数据环境下复杂智能算法的构建和实现提供便利,从而支持越来越智能的算法需求,机器学习一般可分为监督学习、无监督学习和强化学习[1]

1.1 平台功能

机器学习建模平台的功能主要包括算法数据管理、算法调度器、事件引擎、算法工具库、算法扩展框架及运行监控。

1.1.1 算法数据管理

算法数据管理包括数据接入、数据处理、数据定义及数据缓存,其中:数据接入指按照标准化模块的方式,适配多种主流数据源的接入,支持选择全量或增量的数据接入方式,采用多线程分片读取数据,从而提升读取效率;数据处理指可针对接入数据进行异常值处理、缺失值处理、数据格式转换等数据清洗操作,对不同来源数据进行整合、去重、拼接等操作,将数据可转化为便于算法计算和处理的标准化格式;数据定义指根据数据内容将数据分类为基础信息数据、时序数据、地理信息数据、配置数据等特定场景,并针对不同场景提供特定的数据处理和应用逻辑,定义从来源数据到各类场景数据资源间及数据项间的映射关系;数据缓存指支持针对时序数据的分钟级分片存储和分片调用,可对缓存的刷新策略、存储策略及数据生命周期进行配置,缓存数据字典对于数据以标准化字典的方式提供给策略进行调用[2]

1.1.2 算法调度器

算法调度器包括离线调度策略、算法历史回溯、在线调度接口,其中:离线调度策略指按照指定频率进行算法调度,最高可支持分钟级频率的调度,指定固定的时间进行算法运行,可指定每日固定时间点,每月固定日期,每年固定日期等,支持自定义算法运行规则;算法历史回溯可指定策略的运行时间区间,自动控制算法策略的启停,可选择运行类型,计算实时数据或从指定的起始时间进行历史数据的回溯;在线调度接口指算法在线服务接口,即对外提供服务接口,对传入的数据进行实时计算,分析结果[3]

1.1.3 事件引擎事件引擎模块包括注册器与事件总线,其中:注册器即算法注册,将算法函数通过统一注册至业务层算法源,实现统一调用,触发事件注册即将触发算法的事件逻辑注册到事件线上;事件总线指事件发布当达成触发逻辑时,对触发的事件进行发布,以队列的方式对事件进行管理,管理整个触发流程,可管理与定义事件类型及触发逻辑[4]

1.1.4 算法工具库及框架

算法工具库包括数据处理库、机器学习库、地理信息库,其中数据处理库指对主流数据处理库集成、机器学习库指常用机器学习库集成、地理信息库指地理信息工具库集成。算法扩展框架包括了算法模块构建、算法模块管理,算法模块构建指生成用于特定项目的项目结构及各级目录,并根据输入的模块名对各级目录名进行调整,生成用于编写特定算法的策略模版,并根据常用数据源生成配置文件模版;算法模块管理指安装自定义模块到机器学习建模平台并可卸载自定义模块,在模块列表中可启用或禁用指定模块[5]

1.1.5 运行监控

运行监控包括监控数据质量与运行状态,其中:数据质量监控根据数据入库时间及数据增量监控时序数据的实时性,监控接入数据内容的有效性,分析脏数据比例,监控数据源是否可以访问,并展示连接速度,可自定义规则来对数据质量进行监控和反馈结果;运行状态监控指可对算法策略的运行状态进行展示和监控[6]

1.2 常用算法

机器学习建模平台可结合线性回归、贝叶斯公式、机器方差分析等方法,开展数据质量监控和清洗,构建一站式算法工具集,提供面向业务的算法框架,常用算法举例:

1.2.1 线性回归

机器学习建模平台中,最常见且容易掌握的是线性回归算法,重点关注于最小化建模的偏差,或以可解释性的代价来进行最精确的估计。

线性回归可由某类方程描述,首先确定每个变量的特定权重值(B),来描述输入变量(x)与输出变量

(y)之间的线性关系[7]

1.2.2 贝叶斯算法

在统计学和机器学习领域中,贝叶斯公式被广泛应用于分类、回归、聚类、推理等问题中:

P(A|B) = P(B|A) * P(A) / P(B)

其中,P(A|B)表示在 B 发生的情况下,A 发生的概率;P(B|A)表示在 A 发生的情况下,B 发生的概率;P(A)表示

A 发生的先验概率;P(B)表示 B 发生的概率

[8]

1.2.3 机器方差

方差分析是机器学习建模平台中用于检验多组样本均值间的差异是否具有统计意义的一种方法;单因素方差分析

(ANOVA)的计算、分析步骤如下。

单因素方差分析的过程,其实就是把样本的总离差平方 S_T 和与自由度分解为误差平方和因素的效应平方

和两部分,用于随机设计实验中样本均值的比较[9]

2 应用案例--城市大脑项目

2.1 应用方向

目前基于机器学习建模平台,在城市大脑项目可构建的算法应用包括:年度诉求受理总量,同比增长率;满意率、不满意件数的统计;月高峰、周高峰统计;转发次数统计;诉求类型统计;社会诉求性质分类;社会诉求行业排名;社会诉求内容分类;市、区、部门、街道的三率一回复统计;诉求事件的处理状态等。

2.2 主要模型

城市大脑项目更多的是结构化及半结构化数据,以结构化数据为主,面向业务应用提供算法服务,在机器学习建模平台中主要用到的模型有指标预测模型、指数计算模型、业务文本模型、业务指数模型,其中:指标预测模型包括随机游动预测模型、均值预测模型、季节性朴素预测模型、漂移预测模型、多元线性回归预测模型、简单指数平滑模型、二次指数平滑模型、三次指数平滑模型等,可用于预测城市发展规律;指数计算模型包括层次分析法、熵值法、变异系数法等,用于经济发展指标预测等;业务文本模型包括情感分类、观点抽取、事件聚类、事件分类、事件热词、事件归一、事件推荐、重大事件识别算法等,用于分析城市重大事件;业务指数模型包括平安指数、企业能效指数、企业合规指数、企业创新力指数、行业集中度指数、水务漏损指数、绿色智慧城市评价指数等,可评估城市大脑运行质量[10]

2.3 建模过程

以市、区、部门、街道三率一回复统计(满意率、受理率、超期率、平均回复周期)为例,机器学习建模平台构建模型的过程主要包括几方面,即:接入政务平台数据并梳理分析,确定指标计算所需数据;数据预处理,处理缺失值、异常值;数据关系定义,将数据进行分类和缓存;根据三率一回复统计的计算逻辑进行算法建模,生成算法逻辑文件;将编写好的算法模型通过算法注册器注册到业务层接口等待调用;通过调度器定义算法运行任务,并根据现场需要进行历史回溯和实时计算;对于正在运行的算法模型,依托算法运行监控模块查看运行状态,并对接入的数据进行监控,对异常进行报警[11]

2.4 应用价值

机器学习建模平台作为城市大脑架构体系的支撑工具之一,在城市大脑领域的价值凸显,其应用价值主要包括降低使用成本、降低准入门槛、提高职业门槛以及促进调参效果和业务范围的扩展,不仅可为算法工程师提供便利,而且为城市大脑的智慧化应用提供有效支撑。

3 结语

机器学习建模平台已在高科技企业中获得广泛应用,且持续投入资金提升平台性能,包括计算资源和技术支持,促使机器学习建模平台的创新迭代,为用户提供更多合理化选择;随着技术的不断进步,机器学习建模平台将更加智能化,从而更好地服务于各个领域。

参考文献

[1]王三超,刘朋朋.机器学习在计算机视觉处理中的应用[J].集成电路应用,2023(3):336-337.

[2]李雪芳.基于机器学习的计算机网络图像识别系统[J].信息技术与信息化,2022(8):206-209.

[3]张丽艳.基于机器学习的医疗影像处理方法的研究[D].天津:天津理工大学,2022.

[4]王铁胜.机器学习在计算机视觉处理中的应用策略[J].科技资讯,2021(32):5-7.

[5]张伟光,钟靖涛,于建新,等.基于机器学习和图像处理的路面裂缝检测技术研究[J].中南大学学报(自然科学版),2021(7):2402-2415.

[6]熊焰,程传虎,武建双,等.基于机器学习分类算法的前提选择技术研究[J].信息网络安全,2021,21(11):9-16.

[7]赵继业.基于机器学习算法的网络空间拟态安全分层检测技术[J].电子设计工程,2021,29(19):121-125.

[8]张伟,全志伟.基于机器学习算法的雷达估测降水技术研究[J].河南科技,2021,40(26):26-28.

[9]王计斌,陈大龙.AI 技术赋能低压配电运维系统研究[J].江苏通信,2021,37(3):99-103.

[10]徐建平,胡济恒,孙卫哲.基于机器学习的混合模型在电力负荷预测中的应用[J].河北电力技术,2021,40(1):27-30.

[11]董毅,汪安祺.基于机器学习的搜索排序算法应用[J].数码世界,2021(5):256-257.