融合仿真推演与目标检测的智能边缘控制优化策略

(整期优先)网络出版时间:2023-12-22
/ 2

融合仿真推演与目标检测的智能边缘控制优化策略

张昊 丁鹤荣 芦哲宇 王丽娜 王嘉芮

北方自动控制技术研究所,山西省 太原市 030006

摘要:本文研究融合仿真推演与目标检测实现智能边缘控制的优化策略。通过模型轻量化、量化与中断恢复机制来适配边缘环境;采用数字孪生、蒙特卡洛树搜索与强化学习来推演控制策略。提出线上跟踪校验、性能评估与策略优化的融合方案。这种融合可处理环境变化带来的不确定性,构建稳健的闭环控制,对实現智能边缘控制具有重要意义。

关键词:目标检测;仿真推演;边缘控制

引言

随着工业互联网和机器人的快速发展,边缘控制作为一种典型的复杂控制任务,对系统的实时性、智能性和安全性提出更高要求。如何在边缘端实现稳健可靠的闭环控制,是当前的研究热点。本文拟通过轻量级目标检测、数字孪生仿真以及强化学习等前沿技术的有效融合,构建一种新的边缘智能控制流程。其关键是在数字环境下快速迭代优化控制策略,并借助线上跟踪与性能评估模块解决外部环境变化带来的不确定性。

一、面向边缘控制的目标检测算法优化

(一)轻量级模型设计

针对边缘控制场景中的硬件计算能力和功耗限制,轻量级目标检测模型具有重要意义。通过模型剪枝和知识蒸馏技术来降低模型复杂度,减少参数量和计算量,实现高精度的轻量化。采用基于重要性指标的过滤器来移除模型中的冗余过滤器,也通过引入稀疏性和量化来压缩模型。此外,深度可分离卷积可大幅减少模型的参数量和计算量,是构建轻量级目标检测模型的重要组件。

(二)弱边缘计算环境适配

边缘计算环境中的计算能力和存储空间十分有限,对目标检测算法提出更高的适配性要求。重要的适配手段之一是模型的量化与知识蒸馏。通过降低模型参数的数据位宽,可有效减少存储占用。并通过与大型教师模型的联合训练,迁移教师模型的知识,在保证一定检测效果的前提下,获得更加精简的学生模型。另外,由于边缘设备容易出现中断现象,构建中断恢复机制以应对突发事件也很必要。例如保存模型中间状态,发生中断后快速恢复。

二、面向任务的仿真推演方法

(一)数字孪生建模

数字孪生是目标系统的虚拟映射,能实现对实际系统的模拟和预测。构建数字孪生模型是开展面向任务的仿真推演的重要基础。针对边缘控制场景,数字孪生模型需要包含控制对象的几何结构、运动学模型、动力学模型等,同时需要考虑传感器的噪声、网络通信的时延等不确定因素。在此基础上,可利用物理引擎和仿真软件构建虚拟环境,并通过与实际系统的联合仿真不断优化数字孪生的精度。数字孪生的优势在于能够快速多次推演方案,评估控制策略的鲁棒性,同时避免对实际系统的破坏。构建高保真的数字孪生模型,是实现面向任务仿真的关键。

(二)蒙特卡洛树搜索

蒙特卡洛树搜索是一种基于随机性的搜索算法,可有效解决状态空间巨大的复杂控制问题。其基本思想是在的状态空间内随机抽样,构建展开树,以概率统计的方式搜索最优解。这种方法搜索效率高,可用于高维复杂控制任务的仿真推演。具体来说,构建环境模型的数字孪生,在模型内部署蒙特卡洛树搜索算法,以获得最优控制策略。相比确定性搜索,蒙特卡洛树搜索处理起确定性目标函数更为方便,并可实现并行计算。

(三)强化学习

强化学习通过让智能体在模拟环境中自主学习,实现任务的自动化完成,适用于无法建立精确控制模型的复杂控制问题。针对边缘控制任务,构建包括目标检测在内的环境数字孪生,部署基于深度神经网络的强化学习算法,以实现端到端的决策和控制。相比于传统方法,强化学习处理部分可观测、动态变化的复杂问题,无需准确的物理模型。同时,强化学习方案可快速迭代优化,并可迁移至实际环境。

三、融合目标检测与仿真推演的边缘控制    

(一)线上跟踪校验

将目标检测与仿真推演技术有机结合,可实现高效可靠的边缘智能控制。其中,线上跟踪校验发挥着重要作用。可构建数字孪生环境并部署优化的目标检测算法,在线跟踪实际系统状态;与此同时,在数字孪生中模拟推演控制命令的执行效果。通过比较两者的目标运动轨迹、运动参数等信息的偏差,实现对控制指令的校验。如果偏差过大,则重新规划生成控制指令。这种基于前馈预测的闭环控制机制,可处理外部环境变化带来的不确定性,增强控制的鲁棒性。

(二)模型性能评估

实施边缘智能控制时,需要构建包括目标检测和数字孪生在内的多模型协同系统。因此模型性能的评估与验证至关重要。基于仿真数字孪生环境,通过蒙特卡洛模拟生成大规模标签数据,用于验证目标检测与跟踪模型的性能指标,如精度、召回率、延迟等。同时,系统在数字环境下的端到端控制表现也应作为一个整体进行评测。此外,定期回迁至物理环境,利用实测数据优化数字孪生和相关模型,进一步提升其预测精度与决策性能。

(三)控制策略优化

在数字孪生环境下,利用强化学习等方法自主探索最优控制策略。配置奖励机制让智能体完成指定的控制任务,并让它通过试错学习提高效果。还利用蒙特卡洛树搜索算法对的控制序列进行高效筛选。这些方法的共同优势是快速迭代、并行计算,避免受限于物理环境的试错成本。学习到的近优控制策略还回迁至数字孪生环境中进行验证,结合线上跟踪校验进一步筛选,使之适应外部环境变化。将经过多次验证的稳定控制策略迁移至实际物理系统。

结论

本文通过轻量级目标检测模型设计、数字孪生环境建模、蒙特卡洛树搜索、强化学习等技术手段,实现面向复杂边缘控制任务的仿真推演。并以线上跟踪校验、性能评估与策略优化的方式,有效融合目标检测与仿真推演。这种融合方案实现稳健的闭环控制,可处理环境变化带来的不确定性,对于构建安全可靠的智能边缘控制系统具有重要意义。后续工作将验证该方案在具体应用中的性能,并不断丰富完善数字孪生环境以提高仿真评估的保真度。

参考文献

[1]郭凯;陆由;朱小兵;王营. 基于边缘计算的公路隧道智能控制系统 [J]. 中国交通信息化, 2023, (03): 102-105.

[2]刘平凡;邹方;何昭岩;刘诺石. 基于边缘控制的智能人工作业系统 [J]. 自动化博览, 2022, 39 (02): 59-64.

[3]佟伟. 智能时代的边缘控制 [J]. 现代制造, 2021, (14): 5.

[4]朱雨萌;丁刚毅;关正. 基于仿真数据的空间实体轨道监测实现与推演评估 [J]. 上海航天, 2019, 36 (04): 76-82.

[5]夏元清;闫策;王笑京;宋向辉. 智能交通信息物理融合云控制系统 [J]. 自动化学报, 2019, 45 (01): 132-142.