一、多智能体系统联合行动的形式化研究及其应用(论文文献综述)
赵潇楠[1](2021)在《基于车车通信列控系统的邻域列车协作方法研究》文中提出近年来,随着国内外学者对车车通信列控系统的不断探索和研究,系统在精简轨旁设备,提高车载自主性和动态间隔控制方面都有了新的突破。由于新型列控系统还处在研究初期,与传统列控相比,在系统结构以及功能划分等方面都有较大改变,需要对新增功能进行完备性设计。传统的由地面设备集中控制的方式,转换为以车载为中心的列车自主控制方式,列车通过车车直接通信方式获取前方追踪列车的运行状态信息。因此需要研究列车如何与前车建立追踪关系,并且能够在动态运行过程中对追踪关系进行管理。随着列车协同控制技术的发展,列车单独控制的方式转变为以相互协作的列车群协同控制运行的方式。该方式能够进一步缩短列车之间的运行间隔、提高高铁系统应对突发事件的能力。因此需要研究列车如何与更大范围内的列车进行通信,更大限度的共享附近列车信息,并根据运行计划的变更对邻域协作关系进行管理。因此本文针对新型列控系统中车车通信与协同控制的需求,提出了轨道交通动态邻域的概念;提出了邻域列车协作管理模式和方法;异常情况下邻域列车安全防护策略;对方案的可行性和正确性进行形式化建模与仿真验证;最后针对邻域协作的信息同步新方法展开进一步的讨论。具体工作如下:(1)比较新型列控系统车车通信方案,分析邻域列车协作的意义和可行性。分析邻域列车协作的功能需求,设计与邻域协作相关功能模块的信息交互和协作管理方法,包括追踪通信关系管理,邻域通信关系管理。(2)设计邻域协作过程中,邻域控制权的分配以及管理方法。分析邻域主控车的邻域信息处理中包含的信息交互。针对邻域关系变更的动态过程,设计邻域拆分场景和邻域组合场景中的邻域主控权管理方法。(3)分析邻域协作过程中无线通信异常的不同故障场景,针对仅与主控车通信异常、仅与前车通信异常和多个通信异常的情况,设计基于邻域信息共享和控制模式切换相结合的列车群安全防护方法,提高列车群整体对外界突发情况的应对能力。通过UML和HCPN相结合的形式化建模方法对设计方法进行建模和分析,最后通过在simulink中搭建仿真模型进行验证。(4)对列车邻域协作的应用进行扩展,设计基于邻域协作的列车群信息同步新方法,在不依赖统一时钟源的情况下,分为有无目标的列车群时钟系统同步协议,并针对同步协议进行理论证明和数值仿真分析,说明方法可行性。本文共有图64幅,表25个,参考文献68篇。
赵毓[2](2021)在《多智能体系统自主规避任务决策方法研究》文中认为随着航空航天事业的高速发展,越来越多的飞行器采用群体或多体协同的方式执行任务,呈现出典型的多智能体特征,适于使用多智能体理论对其进行分析和建模,对分布式自主决策技术的需求日益突出。飞行器自主规避是确保其安全性最直接有效的方法,但是当前对相关技术的研究多是基于静态全局规划算法,难以满足动态场景中多实体间实时协同需求。为了解决多实体协同规避问题,本文引用多智能体系统思想对其进行规避任务决策技术研究。多智能体系统有着自主、高效和可扩展的优点,本文将其与强化学习技术相结合,用以设计飞行器决策算法。本文以航天器反拦截、无人机避碰和空间机械臂轨迹规划等典型任务为研究背景,对多智能体自主规避任务决策问题进行研究,结合真实约束条件,实现智能体的实时决策。本文取得主要研究成果如下:在运动分析基础上给出智能体与环境交互的数学模型。针对多智能体系统规避决策问题,建立部分可观马尔科夫决策模型,考虑部分可观的约束条件,结合博弈理论研究了多智能体马尔科夫博弈问题,分析常规回报函数的设计方法,并给出了求解序列决策的三种典型方式。在多智能体强化学习方面,分析了航天器规避机动场景和空间机械臂捕捉场景的决策流程;将策略梯度方法向多智能体系统进行改进研究;提出一种基于策略协调和信度分配的Actor-Critic强化学习方法,用于解决全局可观条件下决策器的训练和策略提升问题,并给出相关收敛性分析;根据任务需求设计各关键环节的神经网络结构和算法流程。分别在航天器反拦截和空间机械臂避障规划等多种任务场景中进行了强化学习训练,通过对累积回报值和成功率的结果对比分析验证了所提方法的正确性和有效性。在强化学习算法应用方面,分析典型任务场景对决策效率的约束情况;针对问题场景设计了进行任务决策的神经网络结构,并对其不同部分设计压缩方法;在神经网络权值聚类和量化的基础上,提出一种自适应分层重构剪枝方法,该方法以重训练的方式对目标神经网络进行动态剪枝和压缩,用于提高决策器运行速度,并压缩其存储空间;对部分可观条件下的任务场景进行强化学习系统设计,详细给出了回报函数的设计方法。分别在有限空域大量无人机场景和多航天器反拦截场景对提出方法进行仿真验证,从决策运行速度、累计回报值和成功率等方面对算法性能进行分析和讨论,并验证了所提强化学习方法对实体数量可变环境的适应性。在任务环境稀疏奖励问题上,对任务场景约束和常规强化学习算法局限性进行分析,设计了案例评价机制;提出逆值法强化学习算法,解决了奖励延迟分配和无奖励引导系统学习效率低的问题;基于马尔科夫博弈理论设计了自学习系统,并结合启发式搜索思想分析了所提算法的收敛性;分析了有扰动状态输入情况,并设计了用于对比分析的有限状态机;分析了算法优势和改进方向。在仿真验证中与前文章节训练所得决策器进行了对比分析,验证了所提算法的正确性和相关性能优势。本文对多智能体决策技术进行探索,研究了信度分配、策略协调、执行提速和稀疏奖励等重要方向,提高了航空航天硬件设备在执行任务中的存活率,所得研究成果对航空航天安全保障技术的发展具有一定的参考价值。
张雷雷[3](2020)在《社会困境下形成个体分工的多智能体深度强化学习模型》文中研究说明利用深度强化学习的单个智能体已经能解决诸如复杂棋类游戏的决策问题,然而现实生活的许多决策问题还需要多个智能体协同合作才能完成。这类多智能体决策问题往往存在个体与群体之间的收益冲突,设计能解决这类冲突的多智能体决策算法是目前深度强化学习的热点研究问题之一。群体决策过程中,群体内个体往往会形成特定的分工。然而,当前对于群体内的个体是如何形成分工的机制还不清楚。因此,本文将基于深度强化学习,研究当智能体处于某类冲突——社会困境时,群体内的单个智能体形成特定分工的影响因素,从而提出一个基于满足度的多智能体强化学习算法。本文的主要工作和成果如下:1.设计了一个具有社会困境特征的决策任务。决策任务模拟了人类社会中自然资源与废弃物的动态变化过程。智能体在该决策任务中需要对采集资源和回收废弃物之间进行权衡。智能体持续采集资源而忽视了回收废弃物,则废弃物的增长将挤占资源的生长空间,导致智能体整体收益受限;而智能体持续回收废弃物其个体收益受损,但任务空间的其它智能体将受益。具备这类需要权衡的决策任务表现出类似社会困境的特征,该特征可以看作是一类“囚徒困境”。通过设计智能体深度强化学习算法,验证了该决策任务能够模拟个体与群体间利益冲突的现实社会困境。2.提出了基于满足度的多智能体分工合作策略算法。基于深度强化学习的策略算法,提出多智能中的每一个个体需要引入满足度这一度量,才可以在一个决策任务空间设计智能体的策略,以平衡智能体间个体和群体的利益冲突。尤其是,当智能体间满足度存在异质性特点时,智能体间能形成显着的分工。仿真实验还表明,智能体的视野大小和不同初始位置也会对智能体形成分工产生影响。本研究基于现实的社会困境环境,设计了个体与群体间利益存在冲突的决策任务,提出了求解该决策任务的一个基于满足度的多智能体深度强化学习策略算法。未来的研究方向是将该算法应用到诸如无人机协同合作等实际的工程应用中。
梁宸[4](2020)在《基于强化学习的多智能体协作策略研究》文中提出在多智能体(agent)环境中如何应用强化学习的方法完成特定任务一直以来都是强化学习领域的一个难点,多个智能体之间有效的沟通和协调是迈向通用人工智能的重要手段。目前很多传统的强化学习算法能够实现在简单环境下的单智能体学习,然而在多智能体环境中,由于环境的复杂性和动态性,学习过程遇到了很大的困难,会出现维数爆炸、目标奖励确定困难、算法不稳定难以收敛等问题。本文介绍了一种基于改进DDPG的多智能体强化学习方法,通过对结合了双向循环神经网络的DDPG模型进行改进,并和其他算法进行对比,最终改进后的算法在收敛速度和任务完成度方面有明显提高。本课题主要研究内容如下:(1)对传统强化学习(单智能体强化学习)和多智能体强化学习算法的国内外研究现状进行了概括,介绍了经典算法的模型结构及博弈论在多智能体环境下应用的基础知识,并提出基于多智能通信的多智能体强化学习算法;(2)针对两种在近年提出的较为先进的基于通信的多智能体强化学习算法MADDPG和BiCNet,根据已有的计算机模拟演习实验环境,重新定义环境奖励和任务,在不同的环境下分别对两种算法进行实验,通过实验结果分别分析其优点和各自的局限性,并结合这两种算法的优化方法,提出一种在DDPG算法基础上进行改进的算法。(3)为解决前两个算法性能低下和难以适应不同环境的问题,搭建的Mi-DDPG(Mixed Deep Deterministic Policy Gradient)算法首先在Actor网络加入双向循环网络作为同质智能体信息交流层,接着在Critic网络加入异构智能体信息来学习多智能体协同策略。另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理。这样既提升了算法的性能和执行效率,也保证了算法在不同环境下的泛化能力。(4)实验中,在不同的场景下用Mi-DDPG算法与其他算法进行了对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,它具有在现实世界应用的潜在价值。
杨耀东[5](2019)在《合作式多智能体系统下的信度分配技术研究》文中指出信度分配技术涉及确定系统组件对系统整体性能的贡献,强化学习的成功离不开信度分配技术。在多智能体强化学习领域信度分配主要是合作式环境下各智能体对全局奖励信号的分配。通过研究信度分配机制,来完善或解决合作式多智能体深度强化学习下单个智能体策略更新信号不准确的问题,从而达到提高多智能体学习效率和协作程度的目的。因此,多智能体信度分配是解决合作式多智能体协调问题的关键。然而,一方面之前的研究大多基于差异奖励来减少动作的噪声,需要指定默认的状态或动作,计算开销大的问题且实验环境较为简单导致实际应用受限。本文针对智能电网下的区域电力零售市场代理设计和大规模家庭用户用电优化两个真实的场景,对现有的差异奖励技术进行应用和改进,大大提升实际场景中的多智能体系统的协调程度,解决了智能电网下的实际问题。另一方面,最新的基于深度学习的多智能体信度分配算法也存在设计或者理论的不足。COMA利用了所有动作值对的加权平均避免了默认动作的问题,但是它采用遵循策略的方式导致采样效率较低,并且其评论者结构不适合大规模多智能体系统。基于值分解的VDN和QMIX限制了个体Q值和整体Q值的关系形式和泛化性。同时这些多智能体信度分配技术并未有效考虑异质多智能体系统。本文结合深度学习的最新进展,提出了信度分配的新方法,有效解决异质多智能体系统中的协调问题。
马碧阳[6](2019)在《多智能体预测状态表示模型研究》文中研究指明序贯预测是智能体技术的核心问题,主要考虑如何在一个充满不确定性、各种干扰、复杂多变的动态环境中建立精确的动态系统模型、实现多智能体动作-观测序列的准确预测以及建立其最优决策模型。在诸多序贯预测模型中,预测状态表示模型(Predictive State Representations,PSR)以动作-观察值序列向量表征系统的状态,进而实现对未来事件发生概率的准确预测,具有强表征能力、易于建模学习等优良特性,有效地克服传统模型处理智能体序贯决策问题的不足,普遍适用于解决单个智能体预测及其决策问题。目前,学习PSR模型的算法已经相对完善,但是其可靠性和效率均有待提高,并且这些研究工作通常考虑的是如何对单个智能体进行建模。而且PSR模型研究尚未涉及到多智能体建模问题,大部分的研究工作仍然集中在模型学习效率和可扩展性的提高。要学习一个多智能体的PSR模型是很难的,特别是随着智能体数目增多和问题领域的复杂化,其建模难度大大增加。同时,随着数据存储和处理技术的进步,大多数多智能体系统在智能体与系统交互时积累了大量的交互数据,当把交互数据在高维空间表示时呈现出明显的稀疏现象。目前,如何充分利用这些数据建立智能体预测模型,提高多智能体的决策能力,将是一个具有广阔应用前景的问题。因此本文主要在单智能体的PSR模型的基础上推广多智能体的PSR模型,着手求解具有挑战性的多智能体建模问题,特别是从大量的多智能体交互数据中学习PSR模型:针对传统预测状态表示模型在对大规模复杂多智能体系统建模时,出现的准确性差和效率低等问题,本文提出基于优化技术的多智能体预测状态表示模型建模方法。这一方法在单智能体的PSR模型的基础上推广至多智能体的PSR模型,而后把多智能体PSR模型的核心检验集合发现和模型参数学习转化为全局优化问题,借助优化技术进行求解。具体而言就是通过把PSR模型的发现问题形式化为一个凸优化问题;考虑到系统动态矩阵的全局稀疏性,把该凸优化问题转化为Lasso问题;最后运用交替方向乘子法(ADMM)求解;获得系统PSR模型核心检验集的时候一并获得PSR模型参数,由此,可马上获得系统的PSR模型。此外,本文运用的ADMM优化技术有全局收敛性的保证,且本章提出的学习预测状态表示模型的全局稀疏优化方法的不需要预先设置对核心测试集的大小。针对传统预测状态表示模型的系统状态矩阵表示多智能体系统动态特性的不足,本文研究了一个用于学习多智能体PSR模型的高维系统动力学矩阵,即张量,并提出基于张量分解的多智能体预测状态表示模型。基于单智能体的TPSR模型,提出一个使用张量分解来学习两智能体和多智能体PSR的框架,首先考虑如何将传统的张量分解方法应用于两个智能体的PSR学习,然后再将其扩展到多智能体的情况。使用张量分解来学习两智能体和多智能体PSR的框架解决了多智能体建模的难题,特别是从大量多智能体交互数据中得到的PSR模型。针对多智能体系统建模难度随着智能体个数而增加,最终导致难以获得可行的预测状态表示模型等问题,本文提出基于张量的优化技术求解多智能体预测状态表示模型。基本思想的关键是利用张量的高度连通结构和优化技术的良解的性质,并直接从原始张量中获得核心检验集合。首先,考虑如何建立并求解学习其PSR模型的优化模型,而后给出其PSR模型的模型参数,最后再将其扩展到多智能体的情况。因此,可以从模型的解中,直接得到PSR模型的核心联合检验集和模型预测参数,然后构造一些辅助矩阵后得到模型转移参数。
王元斗[7](2019)在《基于Deep-Q-network的多智能体强化学习的多目标工作流调度方法研究》文中认为云计算灵活的资源配置和现收现付的付费模式为执行大规模的科学和经济问题提供了一个高效、经济的分布式计算平台。大规模的科学和经济问题通常被建模成工作流模型,这些工作流上的应用程序不断增长的数据和计算需求使如何在云计算平台上高效的调度和部署这些应用程序的研究受到广泛关注。从用户的角度,最大完成时间和总花费是两个重要的服务质量指标,他们希望工作流应用程序可以尽可能快的完成,同时期望降低付出的总花费。然而,如何解决IaaS云环境下的多个工作流调度问题仍存在各种挑战,特别是针对多个相互冲突的目标的最优调度问题,仍有待妥善解决。现有的云工作流-多目标优化调度方法在很多方面仍然存在局限性,如在处理动态调度问题时编码受到先验或后验专家知识的限制,严重影响调度的性能。针对上述问题,本文重点研究了在不需要大量的专家知识和人为干预的情况下,同时优化最大完成时间和总花费的多工作流调度方法。在本文中,我们首先分析了云工作流调度问题的最小化最大完成时间和总成本的双目标优化问题的形式化建模。为了优化多个工作流的最大完成时间和用户成本,我们考虑了一个以工作流应用程序和异构云主机的数量为状态输入,以最大完成时间和成本为奖励的马尔可夫博弈模型,通过合适的选择机制以及奖励函数的设计使博弈模型的解收敛于相关均衡。然后本文在多智能体学习场景中运用Deep-Q-network模型求解该马尔可夫博弈模型,以指导IaaS云上的多工作流调度。该方法将两个优化目标抽象成两个智能体,并考虑了一个随机的、动态交互的环境,旨在使智能体之间通过相互协作以及与环境的交互学习基于相关均衡的动态调度策略。为了验证本文提出的模型和方法,我们基于多个着名的科学工作流模板以及Amazon EC2云实例进行了广泛的案例研究,并与传统算法,如多目标粒子群优化算法、非主导排序遗传算法-II和基于博弈理论的贪心算法进行对比实验。实验结果表明,我们提出的算法在生成调度计划的最大完成时间的最优性方面明显优于传统算法,最低水平差值优势超过53.4%,而总成本相较于对比算法的差值比率最高不超过9.9%。
张琪[8](2018)在《学习驱动的CGF决策行为建模方法研究》文中研究说明在作战仿真中,计算机生成兵力(Computer Generated Forces,CGF)的决策行为建模是构建真实可信仿真系统的重点和难点。目前对CGF的决策行为建模,特别是战术决策行为建模,在开发技术上还存在领域知识获取困难,建模工作量大、效率低,在模型表现上存在产生的行为固定、可预测,缺乏适应性等问题,难以满足作战仿真系统快速开发和提供合理、多样的仿真环境的需要。另一方面,采用机器学习方法进行智能体行为的自主生成与优化,能够很大程度减少知识工程工作量,并且提高决策模型的自主性、适应性,已成为游戏、机器人等领域的重要研究方向。因此,论文主要围绕作战仿真系统开发中,如何采用学习方法辅助进行CGF的决策行为建模展开探索,以提高建模效率、增强行为的适应性、多样性。论文的主要贡献及创新点如下:(1)构建以行为树为模型表示的学习驱动的CGF决策行为建模框架通过对作战仿真系统中CGF决策行为建模对模型表示、学习方法功能和性能的需求分析,论文构建以行为树为基本模型表示的学习驱动的CGF决策行为建模框架。针对不同阶段的建模需求,将基于进化行为树的决策模型离线生成、基于分层强化学习的行为树在线优化、基于多智能体强化学习的协调策略学习等多种技术方法与传统行为树建模方法统一起来,形成一套完整规范的建模流程和应用模式。(2)提出一种采用混合约束的进化行为树方法,用于CGF决策行为模型的离线生成针对离线开发阶段决策知识获取困难、建模效率低等问题,论文提出一种采用混合约束的进化行为树方法,依据专家提供的评估指标生成决策行为模型。该方法采用静态和动态约束相结合的方式,以加快学习,提高进化行为树生成解的质量。一方面根据行为树设计模式设定的静态结构约束,能够大大约束候选解的问题空间;另一方面基于频繁子树挖掘设定的动态约束,通过调整节点交叉概率,加速优势结构积累,引导演化过程中的搜索控制。经典追逃游戏“PacMan”中的测试结果表明,所提出的方法能够在不损失领域独立性的前提下,有效加速学习、提高生成的决策行为模型的质量。且生成的模型和行为子树是可理解、易分析和调整的,为进一步的手工建模和校验打下良好基础。(3)提出一种基于分层强化学习的行为树策略优化方法,用于有约束条件下CGF决策行为模型的在线改进针对有专家知识和约束条件下,不确定环境中的决策行为模型在线改进问题,论文提出一种基于分层强化学习的行为树策略优化方法。在采用初始行为树表示专家知识和约束基础上,重点针对已有采用强化学习优化行为树的方法在处理多个子策略同时学习时收敛困难的问题,分析了行为树和MAXQ任务图之间的结构关系,提出了结合行为树与MAXQ分层强化学习的MAXQ-BT子策略优化方法,以加速分层的多任务学习,提高大规模决策环境下的模型在线适应能力。在所设计的捕食者对抗仿真环境中,不同想定参数下的结果表明,所提出的方法能够更快地收敛到较优的策略,具有较好的在线适应能力和鲁棒性。(4)提出一种基于模型差异度的协调策略学习方法,用于解决个体策略扩展到多智能体环境中的临机协同问题针对个体策略扩展到多智能体环境中的临机协同问题,论文提出一种基于模型差异度的协调策略学习方法,以获得无冲突的最优协调策略。为降低多智能体学习的状态动作空间规模,论文将多智能体环境下的协同决策分为无冲突下的个体策略学习和有冲突下的协调策略学习两部分。针对已有方法在异质智能体、无先验协调知识等条件下存在的冲突状态检测困难问题,论文提出基于模型差异度的协调状态识别方法,通过分组采样和定义马尔可夫决策模型差异度,来精确反映个体决策和多智能体环境下的决策模型的动态变化,从而识别出需要考虑其他智能体状态的协调状态。论文在一系列标准的多智能体机动任务中对所提方法进行测试,与现有方法相比,该算法能够在多种想定配置条件下(异质智能体、较少先验知识等)的不确定环境中快速学习到无冲突的协调策略,提高了多智能体环境下决策模型的适应能力。最后,论文总结了全文的研究工作,并展望了进一步需要完善和探索的理论和应用问题。
谢冰[9](2019)在《分布式异构多智能体系统动态联盟问题研究》文中进行了进一步梳理复杂任务往往需要异构多智能体合作才能完成,而联盟是实现合作的重要方法之一。同时,在分布式系统中,通信是多智能体合作执行任务的前提。因此,在同时承担通信和任务执行的条件下,智能体如何合理有效地组建联盟是提高多智能体系统应对复杂任务的关键之一。然而,适合于通信的联盟结构(Coalition Structure,CS)不一定适合于合作完成任务,适合于合作完成任务的联盟结构也不一定能满足通信的要求;因此,需要基于这两者进行权衡协调,设计能同时满足二者的联盟优化组建框架。考虑到任务的动态性、多智能体的异构性以及智能体对彼此决策的不确定性,多智能体合作问题的解决面临巨大挑战。本文以合作博弈理论、贝叶斯理论和复杂网络理论为基础,通过分析通信和执行任务之间的约束关系,将复杂任务分配问题形式化为分布式异构多智能体系统动态联盟问题,研究了多智能体系统动态联盟优化方法,为该问题解决提供技术支撑。论文的主要研究成果如下:1、考虑智能体同时承担任务执行和通信的系统特点,基于合作博弈理论,提出面向多重职责的分布式多智能体系统动态联盟组建框架(Multi-responsibility Oriented Coalition Formation Framework,MOCFF),支持智能体完成各职责相关的联盟优化组建。首先,分析通信和任务执行这两种职责的关系,将该问题分解成动态任务联盟组建和通信联盟重构;其次,通过定义基于动态任务联盟的通信联盟效能函数,有机整合了动态任务联盟组建和通信联盟重构,并提出面向多重职责的分布式多智能体系统动态联盟组建框架。2、针对动态任务联盟组建问题,考虑智能体系统的异构性和任务的动态性,提出了基于双向选择市场机制的动态任务联盟组建方法(A Mutual-Selecting Market-based Algorithm,MSMA)。首先,考虑系统分布式的特点,采用社交网络(Social Networks)支持系统通信,并设计智能体之间的协商规则;其次,考虑任务的动态性和智能体的异构性,设计了联盟特征函数,并用智能体单体效能之和对系统全局效能进行逼近以适应分布式计算;再者,基于上述协商规则和联盟特征函数,提出基于双向选择市场机制的动态任务联盟组建方法。经过仿真实验对比,该算法的任务响应率较其它分布式动态联盟组建算法高30%。3、针对通信联盟重构问题,考虑智能体通信的局部性,提出受限贝叶斯重叠联盟博弈模型(Constrained Bayesian Overlapping Coalition Game,CBOCG),对分布式多智能体系统中通信联盟自适应重构问题进行建模,并在此基础上提出分布式通信联盟自适应重构方法。首先,考虑智能体获取信息的局部性及各智能体对于彼此通信联盟决策的不确定性,提出受限贝叶斯重叠联盟博弈,对该通信联盟重构问题进行建模;其次,考虑地理位置对智能体各职责的约束,设计了一组自适应重构规则,将重构策略映射成地理位置选择;第三,基于上述模型和设计,提出了位置剪枝自适应算法(Location Pruning Self-Adaptive Algorithm,LPSA),以对通信联盟重构问题进行求解。经过仿真实验对比,该算法有效提高了系统通讯效率也进而提高了任务响应率。4、针对通信联盟重构问题中节点状态判断和重构策略生成等问题,提出基于任务执行能力和通信能力的复杂网络节点关键性判断参数,即本地中心性(Local Centrality,LC),为系统通信联盟自适应重构提供可靠的节点评估,并优化自适应重构策略。基于复杂网络理论,分析系统复杂网络的特点,提出基于局部信息的网络节点关键性评估参数——本地中心性,以支持智能体对自己所处网络的各节点进行关键性判断,并生成合理优化的通信联盟重构策略。其次,基于本地中心性,提出分布式动态社交网络重构算法(Distributed Re-constructed Algorithm,DRA)。经仿真实验对比验证,该中心性参数能有效帮助提升系统任务响应率。
张文旭[10](2018)在《基于一致性与事件驱动的强化学习研究》文中指出强化学习是一种重要的机器学习方法,通过试错的方式来求解问题,具有学习结构简单,自适应性强等特点,在机器博弈、机器人自主导航和市场决策等领域显示出很大的发展潜力,为解决智能系统知识获取的瓶颈问题提供了一个可行之法。论文围绕如何提高强化学习的效率这一科学问题,从强化学习过程中智能体间的通信方式、强化学习的算法结构和强化学习的策略搜索方式三个方面着手进行研究,建立了分布式局部可观测马尔科夫过程、多智能体强化学习和局部通信之间的理论纽带,为发展基于事件驱动思想的强化学习理论打下了基础。针对大规模多智能体应用中的观测局部性和不确定性问题,围绕分布式局部可观测马尔科夫模型,提出一种基于一致性协议的多智能体强化学习算法。对于一个分布式学习环境,强化学习的要素在局部观测情况下往往难以进行有效描述,且每一个独立智能体的学习行为都受其队友的影响。所提算法利用一致性协议使所有智能体对观测环境达成共识,剔除了重复观测生成的部分策略;针对智能体感知能力有限并随空间变化的特性,引入观测可信度来评估智能体对当前观测的可靠程度。仿真实验表明,观测可信度可以提高团队对观测目标的共识程度,基于一致性协议的学习算法减小了多智能体的策略空间,加快了学习速度。针对多智能体强化学习过程中通信与计算资源消耗大的问题,提出一种基于事件驱动的多智能体强化学习算法。传统的强化学习算法需要周期性的通信和策略搜索,造成了部分不必要的通信和计算资源消耗。所提算法根据智能体观测信息的变化率定义触发函数,使通信和策略搜索间歇性地进行,整体学习过程由周期性转变为非周期性。仿真实验表明,事件驱动的方式可以减少通信和策略遍历次数,降低了通信和计算资源消耗。对一些收敛速度要求不高的学习问题,以收敛速度为代价来减少通信和计算资源的消耗是可取的思路。针对如何平衡启发式强化学习中策略搜索范围与学习速度的关系问题,提出一类基于事件驱动的启发式强化学习算法。首先,针对启发式学习中先验知识获取程度不明确问题,设计了基于事件驱动的先验知识获取判断机制。对于启发式学习过程,从自身的经历获取先验知识是启发式函数的一种设计方法,先验知识的优劣往往决定了搜索的速度与解的好坏。所提算法利用智能体学习步数和Q值表F范数的变化率两种方式设计触发函数,使先验知识的获取过程由固定方式转变为灵活方式;其次,针对启发式学习以约束策略搜索范围为代价提高学习速度的问题,提出了一种基于事件驱动的启发式强化学习算法。根据智能体观测信息的变化情况设计触发函数,使智能体选择性地对学习过程进行启发,在保证一定学习速度的情况下扩大了策略搜索范围。仿真实验表明,智能体可以更有效地从自身经历中获取先验知识,且更好地平衡启发式学习中最优策略与收敛速度的关系。
二、多智能体系统联合行动的形式化研究及其应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、多智能体系统联合行动的形式化研究及其应用(论文提纲范文)
(1)基于车车通信列控系统的邻域列车协作方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 车车通信列控系统 |
1.4 论文研究内容及结构 |
2 车车通信协作特点及建模验证分析方法 |
2.1 新型列控系统通信协作特点 |
2.2 列控系统形式化建模方法分析 |
2.2.1 列控系统常用建模方法分析 |
2.2.2 层次有色Petri网建模方法 |
2.2.3 功能验证与性能分析方法 |
2.3 邻域列车协作方法形式化建模与验证流程 |
2.3.1 邻域列车协作场景形式化建模与验证流程 |
2.3.2 UML与CPN模型转换规则 |
2.4 本章小结 |
3 新型列控系统邻域协作方法核心功能研究 |
3.1 邻域协作需求分析与功能划分 |
3.1.1 车车通信方案设计 |
3.1.2 邻域协作需求分析 |
3.1.3 邻域协作功能划分 |
3.2 邻域通信关系管理方法设计 |
3.2.1 邻域车识别 |
3.2.2 列车追踪关系管理方法设计 |
3.2.3 列车邻域协作关系管理方法设计 |
3.3 邻域控制权管理方法设计 |
3.3.1 基于主控车的邻域信息处理方法 |
3.3.2 邻域主控权移交方法 |
3.3.3 邻域拆分与组合方法 |
3.4 异常情况下的邻域协作安全防护方法研究 |
3.4.1 异常场景分析 |
3.4.2 基于邻域内信息共享的安全防护方法 |
3.4.3 基于控制模式切换的安全防护方法 |
3.5 本章小结 |
4 基于HCPN的邻域协作方法建模与分析 |
4.1 邻域通信关系管理方法建模与仿真分析 |
4.1.1 邻域通信关系管理顶层模型 |
4.1.2 邻域通信关系管理中间模型 |
4.1.3 邻域通信关系管理底层模型 |
4.1.4 模型仿真与分析 |
4.2 邻域控制权管理方法建模 |
4.2.1 邻域变更场景描述 |
4.2.2 基于CPN的邻域变更场景模型建立 |
4.2.3 模型仿真与分析 |
4.3 基于邻域协作的安全防护场景建模 |
4.3.1 故障场景描述 |
4.3.2 基于HCPN的安全防护场景模型建立 |
4.3.3 模型仿真与分析 |
4.4 本章小结 |
5 基于状态机的邻域协作仿真平台设计 |
5.1 邻域协作过程中列车状态分析 |
5.1.1 追踪通信关系管理状态变化 |
5.1.2 邻域协作管理状态变化 |
5.1.3 邻域安全防护状态变化 |
5.2 邻域协作的状态机模型 |
5.2.1 邻域协作整体模型结构设计 |
5.2.2 追踪通信关系管理模型 |
5.2.3 邻域通信关系管理模型 |
5.2.4 邻域控制权管理模型 |
5.2.5 邻域安全防护模型 |
5.3 仿真平台设计与功能验证 |
5.3.1 邻域协作模型仿真平台搭建 |
5.3.2 邻域协作模型仿真和功能验证 |
5.4 本章小结 |
6 基于邻域协作的列车信息同步新方法研究 |
6.1 邻域信息同步方法设计框架 |
6.2 邻域信息同步原理 |
6.2.1 分布式多智能体系统 |
6.2.2 时钟模型与数学理论基础 |
6.3 无目标邻域信息同步方法 |
6.3.1 同步协议设计 |
6.3.2 数值仿真分析 |
6.4 有目标邻域信息同步方法 |
6.4.1 同步协议设计 |
6.4.2 数值仿真分析 |
6.5 邻域变更情况下的信息同步流程设计 |
6.6 本章小结 |
7 结论与展望 |
7.1 论文总结 |
7.2 研究展望 |
参考文献 |
图索引 |
表索引 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(2)多智能体系统自主规避任务决策方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景与研究意义 |
1.2 典型多智能体系统技术发展 |
1.2.1 无人机集群避碰技术研究现状 |
1.2.2 多自由度空间机械臂避障技术研究现状 |
1.2.3 航天器规避机动算法发展现状 |
1.3 基于自学习理论的决策方法国内外研究现状 |
1.3.1 多智能体深度强化学习方法研究现状 |
1.3.2 深度神经网络压缩及加速方法研究现状 |
1.3.3 稀疏奖励强化学习方法研究现状 |
1.4 主要研究内容及论文结构 |
1.4.1 存在问题及技术难点 |
1.4.2 研究内容及章节安排 |
第2章 多智能体系统决策模型 |
2.1 引言 |
2.2 动力学相关描述 |
2.2.1 多智能体系统运动模型 |
2.2.2 空间拦截器制导律 |
2.3 多智能体部分可观决策模型 |
2.3.1 马尔科夫决策过程理论基础 |
2.3.2 分布式部分可观马尔科夫博弈 |
2.3.3 常规回报函数设计思路 |
2.4 序列决策问题求解方法 |
2.4.1 模糊系统 |
2.4.2 有限状态机 |
2.4.3 蒙特卡洛树搜索 |
2.5 本章小结 |
第3章 基于ACTOR-CRITIC架构的自主决策算法 |
3.1 引言 |
3.2 问题场景描述 |
3.2.1 航天器规避机动问题场景描述 |
3.2.2 空间机械臂轨迹规划场景描述 |
3.2.3 多智能体系统决策流程分析 |
3.3 多智能体策略梯度强化学习方法 |
3.3.1 算法基础理论框架 |
3.3.2 策略梯度算法收敛性分析 |
3.3.3 策略梯度方法在多智能体系统中应用 |
3.4 基于信度分配的多智能体强化学习框架 |
3.4.1 航天器规避决策方法 |
3.4.2 案例优选的空间机械臂决策方法 |
3.4.3 基于信度分配的算法收敛性分析和改进 |
3.4.4 网络结构设计及算法流程 |
3.5 仿真及结果分析 |
3.5.1 基于最优控制理论的对比算法 |
3.5.2 航天器规避机动仿真 |
3.5.3 空间机械臂轨迹规划仿真 |
3.5.4 强化学习算法仿真结果简析 |
3.6 本章小结 |
第4章 多智能体分布式协同避碰决策方法研究 |
4.1 引言 |
4.2 有限空域无人机集群避碰问题分析 |
4.2.1 求解策略的训练方法 |
4.2.2 在线协调和沟通机制 |
4.3 多智能体强化学习系统设计 |
4.3.1 状态空间和动作空间选取 |
4.3.2 系统体系结构和流程分析 |
4.3.3 回报函数设计 |
4.4 仿真及结果分析 |
4.4.1 仿真条件设定 |
4.4.2 训练曲线及场景案例仿真 |
4.4.3 结果分析 |
4.5 本章小结 |
第5章 基于优化神经网络的分布式规避决策方法 |
5.1 引言 |
5.2 多航天器对多拦截器协同规避问题研究 |
5.2.1 状态空间和动作空间选取 |
5.2.2 系统体系结构和流程分析 |
5.2.3 回报函数设计 |
5.3 基于自适应重构方法的深度神经网络优化方法 |
5.3.1 神经网络结构设计 |
5.3.2 权值聚类及量化 |
5.3.3 自适应分层重构剪枝 |
5.4 仿真及结果分析 |
5.4.1 基于微分对策理论的对比算法 |
5.4.2 神经网络优化算法试验及数值仿真 |
5.4.3 强化学习训练及场景案例仿真 |
5.4.4 结果分析 |
5.5 本章小结 |
第6章 基于逆值法的多航天器自学习规避算法 |
6.1 引言 |
6.2 稀疏奖励强化学习算法分析 |
6.2.1 规避任务分析 |
6.2.2 常规强化学习方法局限 |
6.2.3 逆值法强化学习算法 |
6.2.4 算法核心逻辑流程 |
6.3 多智能体稀疏奖励自学习系统设计 |
6.3.1 自学习系统结构设计 |
6.3.2 信念状态估计方法 |
6.3.3 逆值法在案例中的收敛性简析 |
6.3.4 网络结构和算法流程 |
6.4 仿真及结果分析 |
6.4.1 基于有限状态机的对比算法 |
6.4.2 仿真条件设定 |
6.4.3 结果对比分析 |
6.4.4 算法优势及改进分析 |
6.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(3)社会困境下形成个体分工的多智能体深度强化学习模型(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 论文组织结构 |
第二章 多智能体深度强化学习基础与理论 |
2.1 引言 |
2.2 深度强化学习 |
2.2.1 强化学习 |
2.2.2 基于值函数的深度强化学习 |
2.2.3 基于策略梯度的深度强化学习 |
2.3 多智能体深度强化学习 |
2.3.1 多智能体算法 |
2.3.2 多智能体深度强化学习应用 |
2.4 小结 |
第三章 具有社会困境特征的决策任务设计与实现 |
3.1 引言 |
3.2 常见的决策困境 |
3.3 决策任务描述 |
3.4 决策任务实现 |
3.5 决策任务的测试 |
3.5.1 单智能体下决策任务测试 |
3.5.2 多智能体下决策任务测试 |
3.6 小结 |
第四章 形成个体分工的深度强化学习模型 |
4.1 引言 |
4.2 基于智能体满足度的深度强化学习模型 |
4.2.1 多区域具有社会困境的决策任务 |
4.2.2 策略算法 |
4.2.3 行为结果 |
4.3 影响智能体分工的因素分析 |
4.3.1 智能体初始位置 |
4.3.2 智能体视野大小 |
4.4 小结 |
第五章 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
致谢 |
作者简介 |
1 作者简历 |
2 攻读硕士学位期间发表的学术论文 |
3 发明专利 |
学位论文数据集 |
(4)基于强化学习的多智能体协作策略研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 单智能体强化学习研究现状 |
1.2.2 多智能体强化学习研究现状 |
1.3 本文的主要工作 |
1.4 本文的结构安排 |
第2章 多智能体强化学习的相关基础理论 |
2.1 强化学习简介 |
2.1.1 马尔科夫决策过程(MDP) |
2.1.2 值函数与贝尔曼方程 |
2.1.3 强化学习的分类 |
2.2 强化学习一些常见算法的介绍和对比 |
2.2.1 基于时间差分(TD)的强化学习方法 |
2.2.2 Q-learning |
2.2.3 DQN |
2.2.4 Policy Gradient(PG) |
2.2.5 Actor-Critic和 DDPG |
2.2.6 实验对比 |
2.3 多智能体强化学习的博弈论基础和基础算法 |
2.3.1 多智能体环境需要解决的问题 |
2.3.2 博弈论基础 |
2.3.3 多智能体强化学习的基础算法 |
2.4 本章小结 |
第3章 基于通信的多智能体强化学习算法 |
3.1 BiCNet算法 |
3.2 MADDPG算法 |
3.3 算法仿真 |
3.3.1 BiCNet和 MADDPG的对比 |
3.3.2 强化学习仿真环境 |
3.3.3 实验环境 |
3.3.4 实验及结果分析 |
3.4 本章小结 |
第4章 基于改进DDPG的多智能体强化学习算法 |
4.1 模型结构 |
4.2 带注意力神经元的双向循环神经网络 |
4.3 损失函数 |
4.4 模块化Q函数 |
4.5 算法仿真 |
4.5.1 模块化Q方法阈值的选择 |
4.5.2 在不同难度下的性能测试 |
4.5.3 对比实验 |
4.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和获得的科研成果 |
致谢 |
(5)合作式多智能体系统下的信度分配技术研究(论文提纲范文)
摘要 |
abstract |
第1章 介绍与背景 |
第2章 背景部分 |
2.1 强化学习 |
2.1.1 基本概念和Q学习(Q-learning) |
2.1.2 深度Q网络(Deep Q-Network) |
2.1.3 策略梯度 |
2.1.4 深度确定策略梯度(DDPG) |
2.2 多智能体强化学习的环境定义 |
2.2.1 部分可观察的Markov Games |
2.2.2 完全合作式的Markov Games |
2.3 集中式训练,分布式执行 |
2.4 多智能体深度强化学习的基本算法 |
2.4.1 多智能体行为者评论家算法 |
2.4.2 多智能体深度策略梯度算法 |
2.5 多智能体深度强化学习的信度分配问题 |
2.5.1 懒惰智能体现象 |
2.5.2 Q值分解网络(VDN) |
2.5.3 Q值混合网络(QMIX) |
2.5.4 反事实多智能体策略梯度算法(COMA) |
2.6 路径积分 |
第3章 相关工作 |
3.1 独立Q学习及其拓展 |
3.2 集中式评论者 |
3.3 值函数分解 |
3.4 一致性问题(Consensus) |
3.5 通讯 |
3.6 新兴领域 |
第4章 电网代理的多智能体信度分配 |
4.1 区域电力零售市场环境模型 |
4.2 多智能体代理的信度分配机制设计 |
4.3 基于差异奖励技术的电网代理实验 |
4.3.1 用户模型选择 |
4.3.2 其他代理机制 |
4.3.3 差异奖励信度分配机制验证 |
第5章 大规模家庭用电优化的多智能体信度分配 |
5.1 本地微型电网环境模型 |
5.2 个体行为熵的信度分配 |
5.3 用户行为熵的信度分配的实验 |
5.3.1 实验设置 |
5.3.2 验证个体熵机制 |
第6章 Q值路径分解 |
6.1 基于累积梯度的值分解 |
6.2 多通道评论者 |
6.3 Q值路径分解的实验 |
6.3.1 星际争霸实验平台 |
6.3.2 星际多智能体挑战(SMAC)平台 |
6.3.3 实验设置 |
6.3.4 分解设置 |
6.3.5 实验及分析 |
第7章 结论和未来的工作 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(6)多智能体预测状态表示模型研究(论文提纲范文)
摘要 |
Abstract |
主要符号对照表 |
第1章 绪论 |
1.1 引言 |
1.2 研究问题 |
1.3 研究方案 |
1.4 主要贡献及意义 |
1.5 论文组织结构 |
1.6 本章结语 |
第2章 国内外研究现状 |
2.1 智能体系统建模 |
2.1.1 马尔可夫决策过程 |
2.1.2 部分可观测马尔可夫决策过程 |
2.1.3 预测状态表示 |
2.2 多智能体系统建模 |
2.2.1 分布式马尔可夫决策过程 |
2.2.2 分布式局部可观测马尔科夫决策过程 |
2.2.3 交互式部分可观察马尔可夫决策过程 |
2.2.4 交互动态影响图 |
2.3 本章结语 |
第3章 预测状态表示及相关理论基础 |
3.1 预测状态表示理论基础 |
3.2 多智能体系统预测状态表示理论 |
3.3 交警方向乘子法 |
3.4 张量理论基础 |
3.5 本章结语 |
第4章 基于优化技术的多智能体预测状态表示模型 |
4.1 基于优化技术的多智能体预测状态表示模型建模 |
4.1.1 建立预测状态表示优化模型 |
4.1.2 ADMM求解优化问题 |
4.2 学习预测状态表示模型参数 |
4.3 实验分析 |
4.3.1 性能评估 |
4.3.2 模型参数敏感性分析 |
4.3.3 实验结果对比分析 |
4.4 本章结语 |
第5章 基于张量分解的多智能体预测状态表示模型 |
5.1 基于张量分解的两智能体的预测状态表示模型 |
5.1.1 学习两智能体预测状态表示模型预测参数 |
5.1.2 最优化模型求解两智能体预测状态表示模型转移矩阵 |
5.2 基于张量分解的多智能体的预测状态表示模型 |
5.3 实验分析 |
5.4 本章结语 |
第6章 基于张量优化的多智能体预测状态表示模型 |
6.1 基于张量优化技术的两智能体预测状态表示模型 |
6.1.1 学习两智能体预测状态表示的张量优化模型 |
6.1.2 优化问题松弛化处理 |
6.1.3 ADMM求解优化模型子问题 |
6.1.4 学习两智能体预测状态表示模型的转移矩阵 |
6.2 基于张量优化技术的多智能体预测状态表示模型 |
6.2.1 学习多智能体预测状态表示的张量优化模型 |
6.2.2 学习多智能体预测状态表示模型的转移矩阵 |
6.3 实验分析 |
6.4 本章结语 |
第7章 总结和展望 |
在读期间取得的科研成果和参与的项目 |
致谢 |
附录 |
参考文献 |
(7)基于Deep-Q-network的多智能体强化学习的多目标工作流调度方法研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文的主要工作 |
1.3.1 多工作流-多目标优化调度问题的动态博弈建模 |
1.3.2 基于DQN的多智能体强化学习的工作流调度算法 |
1.4 本文的组织结构 |
2 云工作流及调度相关理论基础 |
2.1 云计算简介 |
2.2 云工作流简介 |
2.3 多目标优化 |
2.3.1 多目标优化问题 |
2.3.2 帕累托最优解 |
2.3.3 多目标优化方法 |
2.4 博弈论基本概念 |
2.4.1 博弈论简介 |
2.4.2 博弈模型的解 |
2.5 强化学习 |
2.5.1 单个智能体案例 |
2.5.2 多个智能体案例 |
2.6 本章小结 |
3 云工作流调度问题及其建模 |
3.1 云工作流调度问题 |
3.1.1 工作流模型 |
3.1.2 云资源模型 |
3.1.3 多QoS指标优化调度问题 |
3.2 基于马尔可夫博弈的云工作流调度模型 |
3.2.1 基于马尔可夫博弈的云工作流调度模型 |
3.2.2 博弈模型的相关均衡 |
3.3 本章小结 |
4 基于DQN的多智能体强化学习的云工作流调度方法 |
4.1 系统模型 |
4.2 DQN算法 |
4.3 基于DQN的多智能体强化学习算法 |
4.3.1 奖励函数设计 |
4.3.2 选择机制设计 |
4.3.3 算法设计与分析 |
4.4 本章小结 |
5 案例研究和实验结果分析 |
5.1 实验设置 |
5.2 对比算法 |
5.3 实验结果 |
5.4 本章小结 |
6 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
附录 |
A.作者在攻读学位期间发表的论文目录 |
B.缩略语对照表 |
C.符号对照表 |
D.学位论文数据集 |
致谢 |
(8)学习驱动的CGF决策行为建模方法研究(论文提纲范文)
摘要 |
ABSTRACT |
缩略语 |
第一章 绪论 |
1.1 研究背景及问题 |
1.1.1 作战仿真与计算机生成兵力 |
1.1.2 CGF决策行为建模面临的挑战 |
1.1.3 基于机器学习的行为模型自主生成 |
1.2 研究意义和应用前景 |
1.3 相关研究现状综述与分析 |
1.3.1 CGF行为建模方法 |
1.3.2 行为树自主生成方法 |
1.3.3 研究现状总结与分析 |
1.4 论文的研究内容、主要创新点及组织结构 |
1.4.1 研究内容 |
1.4.2 主要创新点 |
1.4.3 组织结构 |
第二章 学习驱动的CGF决策行为建模框架 |
2.1 引言 |
2.2 需求分析 |
2.2.1 CGF系统引入学习的效应 |
2.2.2 功能与性能需求 |
2.3 基于行为树的CGF决策行为建模 |
2.3.1 行为树的形式化描述 |
2.3.2 基于行为树的CGF决策行为模型表示 |
2.4 CGF决策行为建模框架及其关键问题 |
2.4.1 框架总体结构 |
2.4.2 关键问题分析 |
2.5 本章小结 |
第三章 基于进化行为树的决策模型离线生成方法 |
3.1 引言 |
3.2 进化行为树方法研究概述 |
3.2.1 基本思想及流程 |
3.2.2 进化行为树算法分析 |
3.3 采用混合约束的进化行为树方法 |
3.3.1 静态结构约束设计 |
3.3.2 基于频繁子树挖掘的动态约束 |
3.4 基于混合约束进化行为树的决策模型离线生成 |
3.5 仿真实验 |
3.5.1 实验想定 |
3.5.2 实验参数 |
3.5.3 结果与分析 |
3.6 本章小结 |
第四章 结合行为树与分层强化学习的决策模型在线优化方法 |
4.1 引言 |
4.2 基于强化学习的行为树决策模型在线优化 |
4.2.1 行为树节点的语义分析 |
4.2.2 基于Q-Learning的行为树选择节点优化 |
4.3 基于MAXQ分层强化学习的行为树多节点优化 |
4.3.1 MAXQ分层强化学习 |
4.3.2 行为树与MAXQ任务图的关系及转换 |
4.3.3 MAXQ-BT学习算法 |
4.3.4 行为树拓扑结构重组 |
4.4 仿真实验 |
4.4.1 实验想定 |
4.4.2 参数设置 |
4.4.3 结果与分析 |
4.5 本章小结 |
第五章 基于模型差异度的多智能体协调策略学习方法 |
5.1 引言 |
5.2 CGF协同决策问题分析 |
5.2.1 作战过程中的临机协同问题 |
5.2.2 协调策略学习方法对比分析 |
5.3 稀疏交互下基于模型差异度的协调策略学习 |
5.3.1 多智能体强化学习方法分析 |
5.3.2 基于模型差异度的协调状态识别 |
5.3.3 协调策略学习算法 |
5.4 仿真实验 |
5.4.1 实验想定 |
5.4.2 参数设置 |
5.4.3 结果与分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(9)分布式异构多智能体系统动态联盟问题研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 问题提出 |
1.1.2 理论背景 |
1.1.3 研究目标 |
1.2 国内外研究现状 |
1.2.1 联盟组建问题的相关研究 |
1.2.2 不确定性多智能体合作问题的相关研究 |
1.2.3 社交网络及复杂网络节点关键性判定相关研究 |
1.2.4 其它一些相关的研究成果 |
1.3 论文研究内容及创新点 |
1.3.1 研究内容 |
1.3.2 创新点 |
1.4 论文组织结构 |
第二章 系统框架设计与相关理论方法介绍 |
2.1 引言 |
2.2 分布式异构多智能体系统动态联盟框架设计 |
2.2.1 基于功能的规划体系结构 |
2.2.2 系统框架设计 |
2.3 合作博弈 |
2.3.1 合作博弈分类 |
2.3.2 贝叶斯联盟博弈 |
2.3.3 合作博弈的解空间 |
2.4 市场机制 |
2.4.1 市场机制的一些基本概念 |
2.4.2 竞拍算法的基本概念 |
2.4.3 常见的竞拍算法 |
2.5 复杂网络节点的关键性 |
2.5.1 判断节点关键性的两类方法 |
2.5.2 结构性中心性 |
2.5.3 迭代修正中心性 |
2.6 本章小结 |
第三章 分布式异构多智能体系统动态任务联盟组建 |
3.1 引言 |
3.2 基于社交网络的通信机制 |
3.2.1 分布式多智能体系统的社交网络 |
3.2.2 协商机制 |
3.3 问题描述及联盟特征函数定义 |
3.3.1 问题描述 |
3.3.2 联盟特征函数 |
3.3.3 全局效能逼近 |
3.3.4 智能体个体效能函数 |
3.4 基于双向选择市场机制的动态任务联盟组建算法 |
3.4.1 状态定义 |
3.4.2 算法框架设计 |
3.4.3 基于市场双向选择的动态任务联盟组建算法 |
3.4.4 MSMA算法收敛到纳什稳定联盟结构的证明 |
3.5 动态任务分配算法的仿真实验与分析 |
3.5.1 仿真实验设置 |
3.5.2 算法性能评估参数 |
3.5.3 对比结果分析 |
3.5.4 算法复杂度及适用范围分析 |
3.6 本章小结 |
第四章 基于受限贝叶斯重叠联盟博弈模型的通信联盟重构 |
4.1 引言 |
4.2 智能体多重职责之间关系 |
4.2.1 系统假设和相关的定义 |
4.2.2 多重职责之间的关系 |
4.2.3 社交网络拓扑优化的分析 |
4.2.4 理想本地社交网络结构 |
4.3 自适应规则设计 |
4.3.1 自适应重构的规则设计 |
4.3.2 不确定性决策概率计算 |
4.4 面向动态任务的贝叶斯重叠联盟重构方法 |
4.4.1 面向多重职责的联盟组建框架 |
4.4.2 动态任务联盟组建 |
4.4.3 通信联盟重构 |
4.5 基于多重职责算法框架及LPSA算法 |
4.5.1 MSMA算法 |
4.5.2 LPSA算法介绍 |
4.5.3 MOCFF框架工作流程 |
4.5.4 LPSA算法收敛到纳什稳定结构的证明 |
4.6 通信联盟重构算法的仿真实验与性能分析 |
4.6.1 仿真实验设置 |
4.6.2 性能评估指标介绍 |
4.6.3 仿真实验结果分析 |
4.6.4 算法复杂度及适用范围分析 |
4.7 本章小结 |
第五章 动态复杂网络中的本地中心性 |
5.1 引言 |
5.2 基于多重职责的动态复杂网络的拓扑关系分析 |
5.2.1 系统复杂网络结构 |
5.2.2 系统系统中的多重职责约束关系分析 |
5.2.3 动态社交网络特点分析 |
5.3 基于局部信息的本地中心性 |
5.3.1 本地中心性 |
5.3.2 基于本地中心性的分布式网络重构算法 |
5.4 本地中心性的仿真实验与分析 |
5.4.1 仿真试验设置 |
5.4.2 实验性能评价指标 |
5.4.3 结果分析 |
5.5 本章小结 |
第六章 结论与展望 |
6.1 工作总结 |
6.2 工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
附录A 合作博弈中的稳定性 |
附录B 复杂网络中本地纳什均衡 |
(10)基于一致性与事件驱动的强化学习研究(论文提纲范文)
摘要 |
Abstract |
主要符号对照表 |
第1章 绪论 |
1.1 课题的背景及意义 |
1.2 多智能体的协调与协作 |
1.3 不确定环境下的多智能体系统 |
1.4 强化学习的策略空间与收敛速度 |
1.5 论文的主要研究内容及章节安排 |
第2章 多智能体协作与学习模型 |
2.1 引言 |
2.2 强化学习原理 |
2.2.1 MonteCarlo算法 |
2.2.2 瞬时差分法 |
2.2.3 Q-学习 |
2.2.4 Sarsa算法 |
2.2.5 Actor-Critic学习算法 |
2.2.6 R-学习算法 |
2.3 分布式强化学习原理 |
2.3.1 分布式强化学习模型 |
2.3.2 研究现况及存在的问题 |
2.4 分布式马尔科夫决策模型 |
2.4.1 分布式马尔科夫模型 |
2.4.2 局部可观测的马尔科夫模型 |
2.4.3 分布式局部可观测的马尔科夫模型 |
2.4.4 研究现状与存在的问题 |
2.5 多智能体一致性原理 |
2.5.1 图论 |
2.5.2 Gossip一致性算法 |
2.5.3 离散一致性算法 |
2.6 启发式强化学习原理 |
2.6.1 盲目搜索与启发式搜索 |
2.6.2 启发式强化学习 |
2.7 本章小结 |
第3章 基于一致性的多智能体强化学习研究 |
3.1 引言 |
3.2 基于一致性的DEC-POMDP强化学习框架 |
3.2.1 强化学习中的局部观测性和不确定性分析 |
3.2.2 分布式多智能体强化学习模型设计 |
3.2.3 多智能体强化学习一致性方案设计 |
3.3 基于一致性的多智能体强化学习算法 |
3.3.1 基于一致性的多智能体强化学习算法设计 |
3.3.2 基于一致性的策略化简设计 |
3.4 收敛性分析 |
3.5 仿真实验 |
3.6 本章小结 |
第4章 基于事件驱动的多智能体强化学习研究 |
4.1 引言 |
4.2 事件驱动原理 |
4.3 强化学习的事件驱动模型与触发规则设计 |
4.3.1 基于事件驱动的强化学习模型设计 |
4.3.2 触发规则设计 |
4.4 基于事件驱动的强化学习 |
4.4.1 基于事件驱动的强化学习算法设计 |
4.4.2 计算资源消耗分析 |
4.4.3 算法收敛性分析 |
4.5 仿真实验 |
4.6 本章小结 |
第5章 基于事件驱动的启发式强化学习研究 |
5.1 引言 |
5.2 启发式加速强化学习方法 |
5.2.1 启发式加速Q-学习 |
5.2.2 基于状态回溯代价分析启发式Q-学习 |
5.2.3 基于CaseBasedReasoning的启发式加速Q-学习 |
5.3 基于事件驱动的启发式Q-学习设计 |
5.3.1 基于事件驱动的HAQL算法 |
5.3.1.1 触发函数设计 |
5.3.1.2 算法设计 |
5.3.1.3 仿真实验 |
5.3.2 基于事件驱动的HASB-QL算法 |
5.3.2.1 触发函数设计 |
5.3.2.2 算法设计 |
5.3.2.3 启发式函数分析 |
5.3.2.4 仿真实验 |
5.3.3 基于事件驱动的CB-HAQL算法 |
5.3.3.1 触发函数设计 |
5.3.3.2 案例设计 |
5.3.3.3 算法设计 |
5.3.3.4 仿真实验 |
5.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读博士学位期间发表的论文及科研成果 |
四、多智能体系统联合行动的形式化研究及其应用(论文参考文献)
- [1]基于车车通信列控系统的邻域列车协作方法研究[D]. 赵潇楠. 北京交通大学, 2021(02)
- [2]多智能体系统自主规避任务决策方法研究[D]. 赵毓. 哈尔滨工业大学, 2021(02)
- [3]社会困境下形成个体分工的多智能体深度强化学习模型[D]. 张雷雷. 浙江工业大学, 2020(02)
- [4]基于强化学习的多智能体协作策略研究[D]. 梁宸. 沈阳理工大学, 2020(08)
- [5]合作式多智能体系统下的信度分配技术研究[D]. 杨耀东. 天津大学, 2019(01)
- [6]多智能体预测状态表示模型研究[D]. 马碧阳. 厦门大学, 2019(08)
- [7]基于Deep-Q-network的多智能体强化学习的多目标工作流调度方法研究[D]. 王元斗. 重庆大学, 2019(01)
- [8]学习驱动的CGF决策行为建模方法研究[D]. 张琪. 国防科技大学, 2018(01)
- [9]分布式异构多智能体系统动态联盟问题研究[D]. 谢冰. 国防科技大学, 2019(01)
- [10]基于一致性与事件驱动的强化学习研究[D]. 张文旭. 西南交通大学, 2018(10)