无人集群系统自主协同技术综述

无人机10086 2021年7月29日浏览：1896 评论：1 收藏：1

无人集群系统自主协同技术综述

张婷婷¹²³ 蓝羽石² 宋爱国³

本文发表于《指挥与控制学报》第7卷第2期

1.陆军工程大学指挥控制工程学院江苏南京 210017

2. 中国电子科技集团公司第二十八研究所江苏南京 210017

3. 东南大学仪器科学与工程学院江苏南京 210096.

摘要 无人集群系统是近年来国内外军事领域的研究重点，正在推动无人作战样式由“单平台遥控作战”向海陆空协作的“智能群体作战”转变。综述了近年来国内外在无人集群系统方面的最新研究进展，包括军事、国防和学术领域在无人系统自主协同技术方面的探索和实践，阐述了无人集群系统相关的关键技术，包括多Agent系统自主协同、多Agent系统态势共识、未知系统动力学、群体智能理论与技术、机器学习方法、行为决策方法以及实验场景模拟等，分析了不同关键技术的技术特征、面临挑战和发展趋势。

关键词 无人系统，自主协同，群体智能，多智能体系统

2018年美国国防部颁布《国防部人工智能战略摘要》，强调人工智能技术在军事领域的应用，并于同年发布了无人集群系统并行作战场景[1]。2017年至今美国战略和预算评估中心连续发布针对中俄两国的马赛克式集群作战等颠覆性作战模式，打造全球范围内的武器系统协同作战[2]。

我国国务院在2017年提出《新一代人工智能发展规划》，倡导人工智能领域的军民融合，以加快国防技术的成果转化，并为指挥决策、军事论证和国防科研提供有力支撑[3]。其中，以群体智能为核心技术的无人集群系统自主协同作战是未来战争重要样式，美军已经启动高度自主智能化集群武器装备的研究。我军也在积极探索利用人工智能算法提高无人系统的智能化水平，以取得战争主动权。

进一步看，现代战争中战场环境瞬息万变，仅仅通过单系统的协作不可能完全掌握战场环境和态势，海、陆、空多类智能系统的协同感知、联合攻击必将成为未来战争的作战模式。2020年1月，中国科学院发布的《2019年人工智能发展白皮书》中，将 “群体智能技术” 列为了8大人工智能关键技术之一[4]。同时，无人装备具有低成本、小型化、功能单一、组网灵活等特性，使得无人装备集群作战通过数量优势来打击敌人。在网络环境下，这类由异质、异智系统（智能体）通过彼此之间的信息交互构成的多维异构无人集群系统，看作是异构智能群体系统，即多智能体（Agent）系统。其中，Agent是对外界的刺激作出适当反应的实体，不是被动的接受消息和控制。

展望未来，谁懂得如何最好地使用无人集群智能系统，谁就有望在战争中取得巨大优势。

未来研究方向

无人集群系统自主协同技术综述的图1

虽然目前国内外针对多Agent系统协同问题有部分成果可供借鉴，针对未来面向OODA（Observation观察、Orientation判断、Decision决策、Action行动）框架下无人系统群体自主协同作战这一新问题，需要建立多Agent协同的领域问题和计算框架，并能够在多兵种、多武器平台等应用层面形成战术级解决方案，目前的研究成果还无法支撑。需要识别智能群体聚集特征，建立协同认知观察、自主任务规划、复杂战术协同、群体学习的多智能体系统协同作战基本理论和方法体系。对应于需求，针对大规模集群协同行动主要的研究方向和挑战有：

（1）支持无人集群自主协同的系统架构设计。为支撑面向高动态场景的自组织无人集群系统的自主协同，需要改变固定契约体系架构模式，构建支持在线学习、边缘决策的动态契约的无人集群系统分布式体系结构。

（2）无人集群系统自主协同感知和信息共享。作战协同需要识别实例信息，包括作战条例、规划描述、杀伤链路等。态势感知和共享技术需要达到军事决策和协同需要的粒度，实现复杂作战场景的态势抽取、表示和融合。

（3）无人集群系统自主任务分配与规划技术。针对自组织和他组织有机结合的无人集群特点，关注任务分配的准确性与时效性，增强作战规划的辅助决策能力和任务规划系统的智能性，实现执行过程中在智能体之间动态任务分配。

（4）无人集群系统智能协同决策技术。在网络分割、信息不完备等带来的系统和环境不确定性情况下，保持智能群体系统协同有效的战术攻击能力，实现群体智能系统全局状态空间和操作空间的时变灵活性。

（5）无人集群系统战术协同算法高效学习、群体自学习能力。协同作战需要智能群体在空间和时序上形成有效战术配合，具有动态任务、情景自适应的群体自学习和自演化能力。随着无人系统数量和打击目标数量增加，群体的行动策略维度、状态组合呈指数上升，高维度策略高效学习是集群协同的难题。

无人集群系统

无人集群系统自主协同技术综述的图2

随着人工智能技术的兴起，越来越多的领域尝试用人工智能技术解决无人系统领域的工作，使其具有智能性以期实现自主协同能力。

目前美军武器装备逐步由大型集成装备转变为低成本小型无人装备。在阿富汗和伊拉克战役中运用了无人驾驶飞行器（UAV），是武器无人化的一个开端。尤其是2018年委内瑞拉恐怖分子用无人机在阅兵仪式上暗杀总统马杜罗，这是世界上第一例无人机刺杀总统案件，预示着自主武器会是将来应用的热点。美军Alpha项目发布了2025年装备研发计划[5]，军队内将配备一定比例的无人装备，包括纳米机器人、微型机器人、大型UAV以及其它无人装备和自动化系统。这些无人装备在任务范围内具有自治可调的自主权、或受监督的自主权、或者完全的自主权。

进一步，2018年美军提出分布式集群作战样式[6]，无人系统由“单平台遥控作战”向“智能集群作战”发展。DARPA在2003年就曾尝试组建一个由120个军事机器人组成的部队，装上蜂群智能软件，模仿昆虫的组织和行为，机器人形成蜂群结构使整个系统具有较高的智能[7-8]。2020年9月，阿塞拜疆运用6架无人机集群，在24小时内摧毁亚美尼亚一个坦克步兵团。无人集群作战已经到来，训练有素的无人集群具有极大杀伤力。

美国陆军正在加大力度研究蜂群式UAV系统，该蜂群系统具备快速、准确执行侦察和战斗任务的能力，借鉴蜜蜂采蜜的仿生学机理来模拟蜂群式无人系统的自主决策，此技术目前国际上处于探索阶段。

美军海军研究部提出自主式智能网络系统计划，构建自组织性无人集群系统。该系统是自主控制大量无人系统组成的部队，实现水中、地上、空中作战，形成跨域协作的牢不可破的互联网作战体系[9]。

从军用领域来说，我国无人机技术已进入世界领先，形成了一套无人机战斗系统，已在部分部队列装。2019年中国电子科技集团公司实现了200架无人机编队飞行，并于2020年10月进行了无人机蜂群作战系统试飞。2020年9月国内一家民营企业，成功地组织了3051架无人机同时集群飞行，创下了集群控制新的世界记录。但总体来说，我军无人武器系统作战运用研究还处于自动控制阶段，无人武器基本上是依靠有人装备一对一遥控指挥，即各型无人系统通过地面站进行指挥与控制，无人平台之间协同能力不高或无法协同。

考虑到无人武器系统智能化协同管控能力有限，无法适应瞬息万变的战场局势，未来战场对无人武器系统智能化控制和协同作战运用的需求日趋强烈，提升无人武器系统控制和作战管理水平，已成为未来体系作战亟待突破的瓶颈和未来无人武器系统体系作战能力形成必须解决的关键问题。

民用领域研究多智能体协作同样具有广泛的应用场景。例如，无人自主系统可用于环境监测，突破了地理空间的限制，对沼泽、湖泊、湿地等各种人员不便抵达或者抵达成本过高的复杂地理环境进行取样作业。股票市场上的交易机器人博弈[10]，广告投标智能体通过在线广告交易平台互相竞争[11]，电子商务协同过滤算法预测用户兴趣[12]，交通多路口智能协调优化[13]等等。

当前无人集群系统最大的挑战之一是如何让无人系统内的多个自主系统学会一起完成任务，学会彼此合作和相互竞争，提高群体智能。迄今为止户外自主空中集群系统可以支持30架无人机自主协同编队和避免[14]。采用Agent作为智能研究对象，未来的无人系统也会是“芯片+算法”的一个即插即用型智能系统。涉及的关键技术领域有：多Agent系统自主协同、多Agent系统态势共识、未知系统动力学、群体智能理论与技术、机器学习方法、行为决策方法。在学术研究领域，国内外的大学和研究机构在无人集群协同技术方面开展了前沿性研究，该领域的多个关键技术取得了许多理论成果。

自主协同关键技术

无人集群系统自主协同技术综述的图3

2.1 自主协同多Agent系统

无人集群系统自主协同首要解决时空的一致统一、信息的一致表达和态势的一致理解等问题，从而实现任务的协同，支撑跨无人平台异构传感器要素级协同。因此，无人集群系统的难点和关键技术是多无人系统协同控制问题。

文献[15]归纳了有人/无人自主协同研究挑战，包括高动态和自组织之间的矛盾、局部感知和全局最优决策之间矛盾、智能融合与稳定之间的矛盾、灵活性与安全性之间的矛盾。并提出协同在4个层面的科学问题，包括系统层面组织架构和协同模式、决策层面任务分配与行为规划、控制层面合作行为控制、安全层面自主协同安全指挥控制。无人集群系统上也面临这些关于协同的共性问题，值得深入研究。

文献[16]研究了多Agent共享目标系统，解决系统内Agent协同问题，提出了一种TM_Q-Learning的多Agent强化学习方法，结合基于观察的队友建模技术（Observation-based Teammate Modeling Technique）以及传统的Q-Learning方法，通过新的协作动作选择策略，改进多Agent协同，使其效率得到了有效提高。文献[17]研究了不稳定服务质量（Quality of Service）环境下，针对多Agent协同系统因Agent奖励分配不均而产生局部最优策略的问题，每个Agent在其每轮迭代中均随机改变与其交互（协同）的Agent，通过与其它具有不同奖励值的Agent反复交互学习，得到最优策略，同时探讨了不稳定通信服务对Agent奖励值产生误差的问题。文献[18-19]认为在异构环境下的多Agent系统中，同一决策协议不能适用于所有Agent，结合Agent协同信念的概率分布，提出了一种异构环境下多Agent协同系统的行为学习策略，以解决一些实际社会困境（Social Dilemma），如囚徒困境等，并通过蒙特卡洛模拟实验表明，该方法可有效提高Agent的协同效果。

文献[20]研究了Agent控制方向未知情况下，高阶多Agent系统的协同控制问题。利用自适应反演技术（Adaptive Back-stepping Technology）来解决在每一阶Agent行为中控制方向未知的问题，同时还在每一阶中使用与Nussbaum方程多个项相关的条件不等式，来解决无向和有向拓扑中的共识问题。通过实验多Agent能较好达成共识并渐近收敛到稳定状态。文献[21-22]分别通过线性和离散描述多Agent系统，对协同追踪技术进行了研究。文献[23]认为深度强化学习（Deep Reinforcement Learning，DRL）可以解决多Agent协同对抗任务中的高维问题，但在复杂环境下多Agent因局部最优选择，会导致无法得到全局最优解。通过引入MPCS（Multi-Policy Control System）来实时自主地控制Agent的行为，并用一个对抗游戏测试MPCS，结果表明在复杂环境下MPCS能使多Agent对抗行为更为有效。文献[24]研究了基于多Agent系统的无人机集群对抗系统，探讨了分布式的集群对抗决策控制，其控制框架分上下两层，上层为Multi-agent层，由相互联系的多个Agent构成，下层为个体Agent决策层，通过采集上层环境信息和态势信息形成决策。文献[25]研究了动态拓扑结构下多Agent协同控制问题，设计HJB（Hamilton-Jacobi-Bellman Equations）方程计算最优解，以达到纳什均衡（Nash Equilibrium）。

2.2 多Agent系统态势共识

态势共识是智能集群控制与决策的依据。基于智能个体所载传感器，实现集群的态势感知，获得更广的观测范围、更高的定位精度以及更高的鲁棒性。

文献[26]通过基于位置的共识主动性（Position-based Stigmergy）和神经模糊学习（Neuro-fuzzy Learning），来增强多Agent系统的协同态势感知能力。即利用用户移动设备产生地理位置信息，来侦测用户社交事件态势的发生，其中共识主动性用来短期记忆局部环境下多个用户Agent协同的位置标记，神经模型学习用来解决态势（即社交事件）发生的不确定性。文献[27]利用模糊共识模型（Fuzzy Consensus Model）来解决多Agent系统中存在的某些Agent分析结果不一致进而影响态势判断的问题。认为一个能自动标识当前态势的系统，为了确保其可靠性，往往会部署多个冗余的智能软件Agent来分析传感器数据。然而对于同一环境下的同一现象，不同的Agent可能产生不一致的结果，从而影响系统对当前态势的判定。该文献通过将基于模糊学习的共识模型整合到系统的态势感知框架中，能让不一致Agent达成共识，较好地解决了这个问题。文献[28]研究了基于Agent分布式计算的战场态势感知网络，利用无人机和无人战车等技术，基于分布式计算和多Agent系统，构建战场自组织智能感知网络，通过结合A*和蚁群算法来实现实时路径规划，解决了传统自组织网络较慢或难以收敛的问题，并且其不依赖于固定的基础网络，可有效提高战场感知能力。文献[29]提出了基于事件驱动的节点聚集方案以解决多组共识问题，该方案能确保在Agent系统抽象出的无向连接图中，每个潜在的子组都有相对强的连接度，同时为减少不必要的通讯开销，通过耦合子组内部和外部信息，设计了一种分布式的事件驱动控制器。文献[30]同样研究多Agent系统网络中多组共识问题，但采用的方法是基于交换Impulsive策略，提出了一种使用在变换时间取样的瞬时位置数据和速度数据的分布式交换的Impulsive协议。

在对抗系统中，Agent达成共识的性能（速度）对于决策制定和行为选择至关重要，而这些因素又会进一步影响态势变化。因此一些文献对于Agent的共识性能（Consensus Performance）开展了研究：如文献[31]使用LQR最优控制（Linear Quadratic Regulator）实现了线性速度最优的态势共识；文献[32]引入了一个多跳传播（Multi-hop relay）的共识协议来加快均衡共识；文献[33]基于事件触发控制，研究了多Agent系统下基于事件的有限代价的共识（Guaranteed cost consensus）问题。此外，对于分布式系统下的共识控制，如第二阶共识(Second-order consensus)的控制问题。文献[34]研究了如何改进自治Agent的感知能力，包括主动感查（Active Perception）、态势感知（Situation Awareness）和上下文感知（Context Awareness），并针对态势感知提出了一个去中心化的多Agent系统环境。该方法通过分解事件态势的上下文，解决多Agent系统态势共识问题。

2.3 未知系统动力学

系统动力学以控制论、控制工程、系统工程、信息处理和计算机仿真技术为基础，研究复杂系统随时间推移而产生的行为模式。集群动力学系统演化分析与协同控制是美国《科学》杂志2014年世界十大科技前沿研究之一，在无人机编队、敏捷制造、深空深海探测、智能电网等领域具有广阔的应用前景。在多Agent系统中，若Agent的动力学特性未知，那么多个Agent就难以达成一致，无法实现跟随、集群和追踪等行为。目前，该领域多从理论角度研究在未知动力学下的多Agent协同问题，且现有的分布式算法仅能处理目标函数已知的协同问题，如协同对抗问题中对手策略不确定，使得环境处于未知状态，需要解决未知环境下多Agent系统动力学行为特征。

文献[35]采用以数据为驱动的增强学习方法，研究离散时间动力学未知的多Agent系统一致控制问题（Consensus Control Problem）。通过自适应规划法和增强神经网络，在无系统模型情况下仅靠系统数据实现Agent跟随。文献[36]研究了未知系统动力学下多Agent双角色零和博弈中的群集策略，采用的方法是近似动态规划（Approximate Dynamic Programming）和神经网络。文献[37]采用系统的本地相对状态来代替全局状态，以解决二阶非线性多Agent系统中Leader-Follower同步问题。文献[38]采用神经网络获得近似的控制系数矩阵，提出一种“演员Agent-评论家Agent”模式，以一种“前馈时间”的方式解决有限空间的分布式跟踪控制问题。文献[39]采用一种邻居间分布式模糊适应控制协议，解决动力学未知的协作跟踪控制问题，实验证明同步误差满足一致最终有界的李雅普诺夫稳定性（Lyapunov Stability），同类文献还有[40-43]等。文献[44-45]认为传统的增强学习方法不能完全解决未知环境的路径规划问题，提出Agent无需区分位置的“已访问”和“未访问”状态，结合有监督学习（Neural Networks）和无监督学习（Kernel Smoothing）方法，研究了增强学习框架下解决未知环境的路径规划问题。文献[46]认为未知环境中自主协作规划存在任务死锁及协作效率不高的问题，提出一种基于传统启发式学习方法（蚁群算法）的多Agent协作策略。环境是开放的，文中采用随机游走的方法对环境进行搜索，采用黑板模型以保证通讯，引入距离因子和控制因子的改进蚁群算法以避免死锁，并提供协同搬运的仿真应用。文献[47]认为概率分析法可以很好地应对在不确定环境中多Agent的路径规划问题，但实际环境中会耗费大量资源（如时间和能量）。文献[48]解决未知道路状态的城区多车辆协同问题，提出一种多Agent的D-star算法和动态路由问题的求解方法。

2.4 群体智能理论与技术

群体智能（Swarm Intelligence，SI）一直被认为是无人化作战的突破口，作为一种Game-Changing的颠覆性技术，已在学术界和国防领域受到广泛关注。群体智能源于对以蚂蚁、蜜蜂等的群体行为的研究，群体没有中心控制节点，具有自组织性，采用分布式控制，利用集体学习机制，使单体低级智能聚合成高智能的群体智能。因此，仿生学原理越来越多的应用于群体智能的研究。多机器人系统利用仿真生学机理构建群体仿生系统，提高系统整体工作效率，减少局部故障对整体的影响。伦敦大学学院计算机科学系教授汪军教授及其团队一直从事多智能体协作的研究。汪军认为，目前通用人工智能研究有两个大方向，一是大家熟知的AlphaGo，这是单智体，其背后的经典算法是深度强化学习；另一个就是多智体（Multi-agent），也可以理解为群体智能，这是人工智能的下一个大方向。

文献[49]认为在很多生物系统中，大规模的复杂行为可以通过众多简单个体的随机移动和协调来实现，开发了单自由度（展开和收缩）的机器“粒子”，聚集形成一个“粒子机器人”系统，使其实现了自组织、自适应、高鲁棒性的集群行为。文献[50-51]通过对多机器人行为聚集研究，分析多机器人系统分布式合作及智能形成机理。文献[52]认为模拟狼群在合作狩猎中的行为机制，有助于无人机集群对抗决策体系的优化设计，并提出了狼群智能与无人机集群协同决策相融合的若干思路和建议。文献[53-54]把动物预测机制引入到了无人艇群集动力学中，提出基于生物集群动力学相变调控的自主无人艇集群协同关键技术，以提升群集阵列的效率和鲁棒性。

目前群体智能协同优化算法包括蚁群优化、粒子群优化、蜜蜂启发算法、细菌觅食优化，萤火虫算法、鱼群优化等，已被证明是解决静止环境下协同优化问题的有效方法。但是，无人集群系统往往面临动态环境，对于这样的动态优化问题（Dynamic Optimization Problem，DOP），传统的SI算法难以找到动态环境下的最优解。

文献 [55]给出了在算法中集成的增强策略，以解决群体智能动态优化（Swarm Intellgence Dynamic Optimization，SIDO）中使用的动态变化、性能测量和基准生成器。文献[56]利用平均场论解决多智能体交互问题，极大地简化了交互模式，使计算量大幅降低，能够解决成百上千甚至更多数量的智能体的交互问题。

上述研究包括单体智能与群体智能之间的博弈、群体智能的涌现机制，这些方法都为无人集群系统自主协同的研究提供了方法参考。

2.5 机器学习方法

人工智能和机器学习技术的不断发展，以及其在多个领域的成功应用，使得其成为发展集群系统协作的关键技术。与传统的基于知识和规则的控制技术相比，机器学习技术对于环境的动态变化、智能体间的交互协作具有拥有更强大的感知和协调控制能力，形成启发式控制方式[57]。

目前多智能体深度强化学习用于无人集群系统协同行为策略学习是一个主流的方法。无人系统通过试探和奖励反馈形成协同行为。针对多Agent系统，每个Agent的行为策略不只取决于自身的策略和环境的反馈，同时还受到其他智能体行为和合作关系的影响。文献[58]将其他Agent当作环境的一部分，Agent在学习过程中，其他Agent的策略同时发生变化，使得环境变成动态，该方法在小规模离散“状态-动作”空间下策略学习具有一定的效果，但对复杂问题无法获得理想解。文献[59-60]将所有Agent的状态和动作集中在一起，构成一个扩张的状态和动作空间，采用集中式强化学习算法训练所有的Agent。但随着Agent数量的增加，会导致状态和动作空间过大，以至于无法进行有效的搜索。2017年，文献[61]提出了一种多智能体深度确定性策略梯度算法（Multi-Agent Deep Deterministic Policy Gradient，MADDPG），该算法考虑到智能体之间的协同与对抗关系，实现了多智能体在协同与对抗场景中，连续动作空间下自主行为决策学习。MADDPG算法首次采用“中心化训练-去中心化执行”（Centralized Training Decentralized Execution，CTDE）的学习结构，成为目前最常用的一种多智能体强化学习算法结构[62-67]，该结构是对所有智能体策略进行估计，训练时充分利用全局信息，执行时策略只用局部信息，以缓解多智能体协同造成的环境不稳定问题，从而实现多智能体协同行为策略。2017年和2018年DeepMind公司又推出CTDE学习结构下的VDN[68]和QMIX[69]算法，解决离散动作空间下行为策略学习。后继的Weighted QMIX[70]、QPLEX[71]、RODE[72]、ROMA[73]等都是基于CTDE学习结构下的多智能体协同行为策略算法。到目前为至，清华大学提出的RODE算法在星际争霸平台上效果最好。文献[74]又在此基础上考虑多智能体之间的通信动态特性。这些算法本质上遵循多智能体强化学习的马尔可夫决策过程（Markov Decision Process，MDP）[75]，其策略求解方法包括两个重要的分支：第一类为基于价值函数的求解方法，其本质是用一个深度卷积网络来表示状态行为值函数，代表算法有DQN（Deep Q Network）、双DQN[76]等；第二类为基于策略梯度的求解方法，能够直接在策略梯度的方向上更新网络参数，代表算法包括策略梯度（Policy Gradient，PG）[77]、深度策略梯度（Deep Policy Gradient，DPG） [78]等。近几年，以行为者-评论家（Actor-Critic，AC）[79]为架构的深度强化学习算法在理论与实践方面有着长足的发展，正逐步成为解决智能体行为决策问题的主流[80-81]。文献[82-84]将这种AC框架与多智能体强化学习相结合，应用于大规模、高维度的多智能体策略学习。该方法中每个智能体通过自身的观测值确定合适的动作，统一一个评论家，该评论家能够接受所有行为者的状态信息，用于优化行为者的联合策略，这种方式基本解决了策略方差过大的问题，是多智能体强化学习领域策略学习的一个重要研究方向。

2.6 自主行为决策方法

自主行为决策是智能群体实现智能化的核心内容，受限于人工智能的发展水平，具备自主决策行为能力的智能体还处于初级的研究阶段，无法有效的应用于真实的作战场景中。为此，众多的研究者们提出了多种关于行为决策的方法，以期实现智能群体行为上的智能。

微分对策（Differential Game）理论提供了一种从微分方程角度求解最优目标问题的方法，可以将智能群体的行为决策问题演化为数值优化问题。文献[85]采用了开环微分对策的Nash均衡点的设计算法，针对若干智能群体通过估计它们的终端状态，实现编队控制的行为策略。文献[86]基于微分对策法用牛顿-欧拉方程建立了含扰动变量的n个智能体数学模型，模型通过降维求解Riccati方程组给出数值算例，实现多智能体的飞行策略。文献[87]提出了基于不确定信息的多智能体微分对策模型，并在智能群体博弈模型中引入了态势矩阵，为不确定性信息下的博弈过程提供最优的行动策略。然而，基于微分对策的算法需要精确的数学模型，受限于复杂多变的战场环境，其在智能群体实际行为决策中应用较为困难。

进化算法（Swarm Intelligence）是以集群动物的自组织行为为模型，在解空间中不断迭代寻优，搜寻近似最优解的算法。以粒子群算法、遗传算法为代表的进化算法常用于解决智能群体的协同任务规划问题，具有自适应强、易实现、计算复杂度低的优点。文献[88]提出了一种近似算法ARES，用于生成动作序列的最优方案。ARES使用粒子群优化，对渐近线与粒子种群进行自适应调整，产生一组用于生成V型编队的动作序列。文献[89]以遗传算法为基础，通过设计一个混合适应度函数，并利用约束满足问题检验解的有效性，求解出了由一组智能群体和作战系统组成的复杂任务规划问题。但由于进化算法初始值设置的随机性，在搜寻过程中容易陷入局部最优，通常只能求解近似全局最优值。

另外，文献[90]基于影响图法（Influence Diagram Method），提出了一种关于目标图规划的算法，通过构建2V1的作战场景任务，帮助智能体做出合理的机动决策。文献[91]根据A*算法的一种启发式搜索方式，将由Dubins路径构造的加权图应用于智能体搜索策略问题中，生成安全可行的路径。文献[92]为了提高动态不确定环境下智能体的自主决策能力，建立了一种基于模糊推理Petri网的智能行为决策方法，实现智能体攻击与防御的自主行为。然而，虽然智能体的行为决策问题得到了许多学者的关注，且进行了大量的理论研究和实验分析，取得了不少进展，但在实际应用中仍面临很多问题。

在决策层面，无人集群系统协同任务规划方面也取得了大量的研究成果[93-95]。在任务执行低代价需求下考虑协同约束，多Agent系统协同任务分配看作是复杂约束条件下的最优化NP问题[96]。解决此类问题常用的方法有：混合整数线性规划(Mixed Integer Linear Programming, MILP)法、基于协商的合同网法和粒子群算法、遗传算法等智能算法。文献[97]采用混合整数线性规划方法来对目标分配问题进行了求解，获得了较好的分配效果，其后又将该问题描述成动态规划问题进行了求解[98]。除此以外，文献[99]提出了基于多方协议（Multi Party Computation，MPC）的多无人机机协同任务分配方法，通过合同网拍卖机制将任务委派给无人机进行投标竞争，以最低代价执行的此任务无人机将获得这个任务的执行权。

航迹规划是多无人机任务规划中的另一主要问题[100-102]。在规划中要考虑无人机的性能、有效载荷、燃料消耗、飞行时间以及地形跟随、禁飞区和威胁区域等复杂约束，还有目标执行的角度和时间等[103]。目前常用的研究方法有：A*算法、Voronoi图规划法、人工势场法、蚁群算法等，路径优化使用Dubins曲线法，B样条曲线法的方法。

总的来说，目前针对复杂环境或复杂任务的多无人机协同自主规划仍停留在理论研究层面，还需要进行更多的实验测试以应用到实际环境中，集群化无人机自主协同任务规划方法和理论也需要继续探索研究。

2.7 仿真实验环境

近年来关于智能体仿真实验环境也在不断涌现，如OpenAI Gym[104]、MuJoCo[105]、rllab[116]、DeepMind Lab[107]、TORCS[108]等。继单智能体行为决策的AlphaGo[109]之后，业界开始关注多智能体协同对抗策略游戏，最为知名的是DeepMind和Blizzard合作开发的星际争霸II（StarCraft II）游戏平台，称为PySC2[110]。还有一些结合领域的群体智能仿真实验平台，如宾夕法尼亚大学2018年9月公布的OpenUAV无人机集群仿真测试与实验平台，是全球第一个用于教学和测试的无人集群系统仿真实验平台。苏黎世大学机器人和识别研究组发布了一款模块化的虚拟现实无人机仿真环境Flightmare，其中包含大型的多模块仿真传感器套装，用以仿真实际的物理效果[111]。总得来说，多智能体系统实验目前几乎都是在游戏平台验证其协同算法的有效性，极少有针对特定领域的仿真实验。为此，陆军工程大学控制技术与智能系统实验室于2019年开发完成智能无人集群系统协同对抗仿真实验平台（SwarmFlow），如图1所示，是一款结合智能陆战场景应用的群体智能模拟器，利用场景和算法分离机制，可支持各类群体智能算法和集群通信测试，实现模拟仿真和无人装备实体孪生控制。

无人集群系统自主协同技术综述的图4

图1 SwarmFlow仿真实验平台

Fig.1 SwarmFlow Virtual Platform

面临的挑战

无人集群系统自主协同技术综述的图5

目前无人集群系统自主协同技术的发展还存在以下的局限性：

1) 多智能体系统在未知环境下智能协同问题难度较大，相关研究较少。多Agent系统是一个非常热门的研究领域，在人工智能、控制理论、机器人等领域已有广泛应用。但现阶段，对于多Agent在未知环境下工作协同的研究成果较少，无法满足智能协同的迫切需求，需要系统深入的研究。

2) 将无人集群系统研究落实到应用层面的成功案例较少。大部分研究都是以数学模型和定理为背景，涉及到具体应用和平台产品的还很少，需要在理论研究和应用背景下，完成典型任务的多Agent分布式协同推理系统原理论证，实现对相关技术性能指标的验证。

3) 对Agent相关的要素进行抽象化。现有研究认为未知属性有环境信息、Agent自身状态、通讯信息和相关通讯数据。后续研究可以综合考虑上述环境属性，将Agent可以获得的环境要素分为时钟、位置、温度、速度、网络环境、Agent个数、Agent角色等，同时可以将未知的环境要素抽象为应用相关要素和应用无关要素，可使研究对象更为泛化。

4) Agent动力学特征方面，现有研究要么考虑未知的具体应用环境而假设Agent的感知和通讯是稳定的；要么考虑复杂行为Agent的系统动力学未知，而假设通讯是稳定的；要么仅考虑未知通讯。后续研究需重点关注抽象的应用环境，设计Agent 的动力学特征，包括通讯和网络拓扑等与应用相关的要素。

总结

无人集群系统自主协同技术综述的图6

从多Agent系统自主协同、多Agent系统态势共识、未知系统动力学、群体智能理论与技术、机器学习方法和行为决策方法等方面分析了自主协同技术研究现状，阐述了单体无人系统技术和群体无人系统技术的未来发展方向，给出了无人集群系统的发展趋势和技术限制。

无人集群系统是近年来国内外军事领域研究重点，正在推动无人作战样式由 “单平台遥控作战” 向海陆空协作的“智能群体作战” 发展。面对瞬息万变的战场局势，未来战场对无人武器系统智能化控制和协同作战运用的需求日趋强烈，提升对其控制和作战管理水平已成为未来体系作战亟待突破的瓶颈。涉及的关键技术包括环境的感知和集群的控制，集群控制面临的挑战是不同个体在动态对抗中的有效协同方法，以及协同策略，尤其是集群达到自主控制水平，目前这方面的研究还任重道远。