人工智能在计算机兵棋推演领域的应用

(整期优先)网络出版时间:2020-06-10
/ 2

人工智能在计算机兵棋推演领域的应用

章正暘

上海电力新能源发展有限公司 200010

摘要:智能化博弈对抗的理念和技术可以应用于兵棋推演。基于计算机兵棋的特点、人工智能发展现状和核心技术,探讨将深度学习应用到兵棋推演的方法、途径和问题,分析人工智能在计算机兵棋推演中的应用现状和未来发展。

关键词:计算机工程; 兵棋推演; 人工智能; 深度学习;

1956 年达特茅斯会议上约翰•麦肯锡首次提出了人工智能(Artificial Intelligence,AI)的概念,当初定义的基本范围是“用计算机模拟人的逻辑思维”。可以看出,这一定义并没有包含人类的学习能力、归纳总结能力、决策能力等,可以认为是狭义人工智能范畴。近些年来,随着模糊逻辑和遗传算法等技术的成熟,特别是神经网络的发展及深度学习的兴起,人工智能更倾向于指依托计算机运用数学算法模仿人类智力,让机器“学会”人类的分析、推理、思维乃至决策的能力。

1 兵棋特点

兵棋推演的实施过程主要如下:在导演部及导调机构的导控下,由参演人员在想定的战场环境下,与假定的蓝军部队进行指挥层面的对抗,完整实现演训准备、组织实施和总结评估全流程。

1.1 兵棋是棋

与常规棋一样,兵棋体现了两个核心因素,(1)规则制定的客观性;(2)行棋过程的自由性。兵棋系统的基本构成要素主要有棋子、棋盘、规则、骰子(随机数发生器)、回合以及裁决表。兵棋中的棋子、棋盘、裁决表等都是具象化、数字化、精确化棋的客观特征体现。兵棋的核心是兵棋规则,包括规定棋子在地图上如何移动的行棋规则和判定两支部队相遇时交战结果的裁判规则。兵棋的行棋过程又称为兵棋推演,推演者采取类似博弈的过程轮流行棋,另设裁判者依据裁判规则对场上局势进行裁定。此外,推演过程中还通过掷骰子模拟战场上的随机因素。

1.2 兵棋非“棋”

兵棋推演往往是要展现实际作战过程,很难通过“下棋”中严格的“你来我往”的回合制来全面体现。兵棋推演需要通过以上六个基本要素之间的相互作用,充分体现了实际战争过程中的战场复杂性、战况紧迫性、战情随机性、战果规律性等,需要能逼真地反映实际作战过程,陆、海、空、火、天、网等联合作战的特点,需要各方根据态势发展进行不断地判断和决策,从而模拟出实际的作战流程及作战效果。战争还有一个显著的特点就是不可重复性,同样的基础对抗条件,在不同的随机因素影响下会产生完全不同的结果。由此可见,兵棋推演需要模拟的作战要素繁多,关系错综复杂,态势瞬息万变,常规的“棋”很难涵盖完整这么一个复杂系统。

1.3 计算机兵棋

兵棋推演本身对工具支撑并无太多要求,其流行之初也是以手工兵棋为主要手段。传统手工兵一般以棋子进攻、防御二值描述,采用的是力量对比方式,在增加随机因素的基础上,用表格的形式进行裁决以得到交战结果。

其后,为了节约人力和时间、提高推演效率,体现更复杂的联合作战行动模拟效果,开始出现了计算机兵棋。计算机兵棋推演体系采用完善的军事地理系统软件,提供规范化的作业平台,军事应用人员可以更加聚焦于对抗推演本身,使兵棋推演过程和实际作战指挥结合得更密切。随着现代计算机兵棋理念的发展,支撑规模化指挥对抗模拟的复杂兵棋系统,也开始逐步打破传统兵棋回合制的推演过程,向实时推演转变。在计算机兵棋推演环境中,作战兵力的动态性、作战过程的随机性、作战决策的多样性更能造就兵棋推演环境中的复杂性。

2 深度学习与强化学习

人工智能涉及的关键技术十分广泛,其中神经网络、强化学习和深度学习技术是其重要的代表。

神经网络技术从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。体现出了卓越的自我学习、反馈联想、高效寻优的能力特点。而在神经网络技术基础上发展起来的深度学习和强化学习对人工智能技术的成熟和推广起到了重要的作用。

具有感知能力的深度学习(deeplearning, DL)是基于神经网络上的一种再升级,是一种通过对大量有效样本的学习,形成对事物特征的提取、分类和解读的方法。

深度学习通过建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来获取、分析和解释数据,通过无监督的预训练,有监督的逐层训练、微调训练等过程,逐步提炼出事物内在的关联关系、结构关系和逻辑关系等。

3 人工智能对兵棋推演的影响

人工智能的快速发展,将计算机兵棋的作用从节约人力和时间、提高推演效率、支撑复杂推演提升到了打造指挥对抗领域的智能蓝军和辅助参谋的高度。所谓智能蓝军,就是让系统充当既定假想“蓝军”“绿军”参加演习。通过对有限样本数据的不断深度学习、强化学习,使得对手变得更加专业、更像假想蓝军,从而实现局部乃至全局的人机对抗。所谓辅助参谋,就是计算机系统充当隐藏于幕后的我方部分指挥力量、参谋力量,实现识别态势、发布计划、自主决策、监控行动、调整任务等功能,为我方指挥提供实时精准参谋。

4 问题及解决途径

人工智能迅猛发展,核心技术突飞猛进。但人工智能技术在计算机兵棋领域的深入发展也存在以下的不确定性,其根源还在“棋”与“战”固有的巨大差异,还在于如何将全面感知和精准决策的根本目标在兵棋领域实现。

(1)有效样本的获取。

目前战术、战役乃至战略层级的计算机兵棋平台百花齐放、层出不穷,先不论其自身的完善性、置信度,就目前基于上述平台的推演数据而言,基本属于量多质低的情况。在未能深入、全面研究假想“蓝军”的情况下,其指挥环节的战术战法往往就发散为自由发挥的“红军”思想。同理,在无逼真“蓝军”模拟的情况下,“红军”的指挥思路也更无针对性可言,用于支撑深度学习的数据样本的有效性和标签性均难以保证。所以,人工智能技术若想在计算机兵棋领域得以深入发展,需要确立可作为各类标签数据的基本标准,参透并运用好特定“蓝军”的战术战法,生产出涵盖所需标签类别的足够数量数据,用以支撑深度学习。

(2)信息感知与研判。

常规棋盘是透明的,是一种典型的开放式信息感知状态下的博弈。当前的棋面信息对于双方棋手来说是完全公平和透明的,棋手每走一步,都可以根据当前的盘面信息做出决策。

而战争过程并不是全透明的,甚至有时故意假亦真时真亦假,往往会释放出战争迷雾,须要通过综合情报侦察和分析来获取有效、真实战场信息,这决定了兵棋推演完全应该是一种信息非对称条件下的动态指挥博弈。兵棋推演过程若没有情报探测、战场感知等要素的支撑,就无法体现“交战”双方在感知层面的手段高低和能力差异。若无法通过强化学习手段让人工智能逐步掌握剥离战争迷雾、获取有用信息的研判和决策能力,人工智能技术也将无法进一步发挥打造“智能蓝军”和“辅助参谋”的作用。

5 结语

人工智能技术的发展将计算机兵棋的作用向前进了一大步,使之从条件支撑的角色转变为深度参与的角色。但其中支撑强大感知和决策能力的深度强化学习技术也还处于不断发展过程完善过程中。

参考文献

[1]胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60.

[2]赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33 (06):701-717.