代理计算理论_AI Passyyds网站首页

一、Agent计算的理论（论文文献综述）

张艺帆^[1]（2021）在《基于Q-学习演化博弈模型的区域交通优化方法研究》文中进行了进一步梳理区域交通优化的目的是通过路口之间的协调配合,均衡路口之间的流量,缓解区域内的交通拥堵。无论是传统的区域协调控制还是结合了强化学习与博弈论的区域交通优化,现有的研究基本都是利用具体的交通参数构建博弈模型或强化学习模型在微观交通仿真层面实现区域交通协调控制,没有将宏观路网结构下的路口之间的冲突与微观的交通信号优化结合。因此,本文构建了交通网络Q-学习模型和博弈网络Q-学习模型,将双层模型结合提出了基于Q-学习演化博弈模型的区域交通协调优化方法,利用博弈网络中个体的博弈策略指导实际路网中路口的信号策略选择,从而实现宏观路网演化博弈与微观路口信号优化的结合。本文的主要研究工作如下:首先,本文利用演化博弈理论分析了路口之间的冲突问题,建立了路口演化博弈模型。考虑从全局的角度对区域或者路口进行优化,定义了基于介数的路口全局属性,将路口的全局属性引入路口的异构学习能力中,依托区域交通路网结构,从宏观上分析了路口作为演化博弈中的个体其学习能力对区域内路口之间合作行为的影响。其次,针对路口在博弈过程中无法获取相邻路口收益和博弈策略的问题,提出了基于Q-学习的路口演化博弈模型。采用Q-学习的三种决策机制作为演化博弈中路口博弈策略的选择机制,针对不同的复杂网络类型,不同的博弈模型参数和不同的强化学习参数进行实验,量化分析了不同的博弈策略选择机制对网络合作水平的影响。最后,建立实际交通网络Q-学习模型,与博弈网络中的路口Q-学习演化博弈模型结合,提出了基于Q-学习演化博弈模型的区域交通信号优化算法。基于SUMO-Python搭建了交通交互仿真平台,利用不同算法对路网的信号优化策略进行训练,得到实时信号优化模型。仿真实验表明,与传统强化学习控制和定时控制对比,该算法提高了路网的平均速度,缓解了区域内的交通拥堵。

孔祥龙^[2]（2021）在《信任网络上的联盟结构生成研究》文中研究表明联盟形成是多Agent系统中的重要研究课题,多个不同的Agent联合在一起,可以实现个人无法单独实现的目标,或者取得更优的效用。联盟结构生成问题是其中的关键挑战之一,目的是寻找最优联盟结构以最大限度地提高个体利益和联盟收益。目前,寻找最优的联盟结构是困难的。一方面,大多数联盟形成模型假设任意Agent都能够形成联盟。这种假设过于宽泛,在现实生活中,联盟的形成过程常常需要考虑现实存在的各种约束,但即使添加约束条件,问题的复杂度仍然较高,需要新的、快速有效的算法解决大规模现实问题。另一方面,假设一个Agent集可以形成任意数量的联盟,但在许多实际情况下,联盟的数量应该受到限制。例如,在任务分配领域,Agent需要合作来完成所有的任务。由于单个Agent执行任务的资源或能力有限,将任务分配给联盟是必要的,这就要求联盟的数量与任务的数量相一致,以免浪费资源或无法完成任务。针对上述问题,对联盟形成过程中的两种常见假设进行改进,具体工作如下:1)用图来表示现实场景中Agent之间关系的约束,图中的每个节点代表一个Agent,边表示Agent之间的关系,称为图联盟结构生成问题。借鉴蒙特卡洛树搜索中的技术,提出可扩展的Anytime联盟形成算法来解决大规模的图联盟结构生成问题。如果给定时间有限,算法可以即时返回当前的最优解;如果时间充足,算法可以收敛到最优解。2)在任务分配背景下,利用Agent之间的信任效用关系约束联盟的形成,使联盟数量与任务数量一致。提出高信任效用关系的边收缩联盟形成算法,通过连续的边收缩来模拟Agent之间的联盟形成过程,求解设定条件下的联盟结构。最后,设计仿真实验验证所提算法的快速性和有效性。

张良杰^[3]（2021）在《钝感型破碎剂的设计与应用研究》文中认为传统的炸药爆破技术已经较为成熟,但存在着爆破振动、爆破飞石、粉尘污染、噪声等有害效应,且炸药本身也具有较大的危险性,在一些特殊环境下,工业炸药被限制使用。安全性较高的非炸药破岩技术也存在诸多局限,如破碎效率低、破碎效果差、破碎成本高等。本文致力于研究一种高度钝感,高安全性的土岩破碎剂,在实现快速破岩的同时,能有效降低爆破过程产生的振动、飞石、粉尘等有害效应。为特殊环境下岩土爆破提供了另一个可行的选择,对国家重要资源开采具有重大意义。本文设计并制备钝感型破碎剂,通过理论与实验探究破碎剂的性能。设计并制备激发装置,进行破碎剂的现场破岩试验,探究破碎剂的破岩能力与效果。具体研究工作与结论如下:（1）对破碎剂的组成成分进行分析,确定氧化剂组分为硝酸钾,可燃剂组分为铝粉和煤粉,设计并制备多种配方钝感型破碎剂。通过理论研究,以铝粉作为可燃剂时,铝粉含量为30～40%时,破碎剂具有较高的爆热与爆温;以煤粉作为可燃剂时,煤粉含量对破碎剂的爆热、爆温影响较小,煤粉含量为20%时,破碎剂的爆容最高。（2）为指导破碎剂在岩土爆破中的装药密度与装药长度等参数,对破碎剂的堆积密度进行测量。当可燃剂含量为20～40%时,铝粉含量对破碎剂的堆积密度影响较小,堆积密度在1.00 g·cm-3左右,以煤粉为可燃剂时,破碎剂的堆积密度随煤粉含量的增加而降低,堆积密度为0.75～0.91 g·cm-3。（3）为探究破碎剂在生产、使用过程中的安全性。对多种破碎剂进行撞击感度、摩擦感度、静电火花感度测试,测试结果均未出现发火现象,结果表明本文所研究的破碎剂高度钝感,生产、使用过程中的安全性高。（4）通过弹道抛掷实验,对破碎剂的做功能力进行测试。当可燃剂含量为30%左右时,破碎剂的做功能力最强,30%铝粉含量的破碎剂,其做功能力为16.04J·g-1,30%煤粉含量的破碎剂,其做功能力为35.02 J·g-1。（5）为探究破碎剂的储存稳定性,分别探究破碎剂在开放与密封环境中储存一个月的含水率与吸湿性。在开放环境中,含铝粉破碎剂的含水率稳定在2.57%,已经明显结块,无法使用,含煤粉的含水率为0.45%,仍可以激发起爆;在密封环境中,含铝粉破碎剂的含水率稳定在1.26%,含煤粉的含水率为0.20%,破碎剂均能正常激发。（6）以氧化铜粉末与铝粉质量比为3:2制得激发药,设计并制作破碎剂激发装置,在矿山现场,进行破岩试验。破岩试验结果表明,激发装置能够安全可靠地对钝感型破碎剂点火起爆;钝感型破碎剂在岩土爆破中能够达到松动爆破效果,有效降低爆破飞石、爆破粉尘的产生,爆破振动速度仅相当于传统工业炸药爆破的59%,能有效地降低岩土爆破中的爆破振动。图[32]表[27]参[91]

胡大鹏^[4]（2021）在《基于强化学习的多智能体协作建模方法研究》文中研究表明本文是以《中国制造2025》背景,以达到实现智能制造的要求为目标,通过融合工业场景和互联网技术,在全球化充满不确定的局面下提高中国制造业的竞争力。当前工业中智能制造面临资源难共享、过程难协调、依赖领域专家等普遍问题,本文基于Agent,多Agent系统和强化学习等相关技术,构建了面向工业的多Agent混合式智能控制模型,并对多Agent系统中的Agent协作能力、作业调度策略等关键问题进行研究,以实现工业生产过程智能控制。本文基于多Agent技术,将工业过程的工艺关键点、关键设备抽象成若干Agent,构建了一个三层结构的混合式多Agent智能模型。该模型基于JADE框架从而实现底层基础功能,此外通过一些接口实现基于状态表示学习的多Agent协作方法的智能模块及基于强化学习的多Agent系统作业调度方法的智能模块,从而满足工业需求。本文针对工业中Agent接触的环境复杂,以及Agent对重要特征感知能力差的问题,基于M3DDPG算法,提出了SRL＿M3DDPG算法,在保留M3DDPG算法的强鲁棒性特点的同时提高设备Agent对重要特征的获取,从而使设备Agent的动作达到预期效果。改进的算法利用状态表示学习来帮助捕捉特征,通过深度神经网络来构造观测值和状态值的映射,然后M3DDPG中的Actor和Critic网络从新的神经网络中学习,而不是从最初的观察中学习,从而使Agent动作达到预期并且能够适应高维数据。本文针对多Agent系统中的作业调度问题,提出了一种将TS算法和Q-learning相结合的TS＿Qlearning算法,该方法通过禁忌搜索算法的禁忌表存储算法的早期训练经验,来指导算法的早期训练。并且,TS＿Qlearning算法优化了Q-learning算法解决调度问题中的策略,在保留了Q-learning算法的探索优势的基础上,在训练早期指导算法的训练,从而提高算法训练的质量,从而更好的优化资源配置。

柴小丰^[5]（2021）在《多智能体系统事件触发编队控制研究》文中进行了进一步梳理多智能体系统由多个具备一定感知、计算、执行与通讯功能的智能体组成,和单个个体执行任务相比,多个体协作可以提高任务执行能力与效率,降低单个体成本,增加系统冗余和抗风险能力,因此多智能体系统协同控制问题受到越来越多研究人员的关注。编队控制是多智能体协同控制的重要研究分支之一,目标是使多个智能体根据任务需要,在运动过程中保持或变换队形,其在军事领域和民用领域具有广泛的应用前景,如战斗机编队、卫星编队、无人机表演等。实际系统中,由于通讯带宽和计算资源有限,并且要求系统在指定时间内形成编队,因此研究提高多智能体系统编队控制策略的收敛速度,以及节省有限的计算和通讯资源,具有重要的实际意义。本文主要研究了多智能体系统事件触发编队控制问题,针对一些典型的系统模型与控制目标,设计了不同的分布式控制策略,包括事件触发控制、自触发控制、有限时间控制、固定时间控制与动态事件触发控制等。论文主要研究内容包括以下几个方面:1.针对多智能体系统的时变编队问题,分别设计了基于观测器的事件触发控制策略与自触发控制策略,通过将状态观测误差引入事件触发函数,可以提高状态观测器收敛速度与系统编队精度。两种控制策略均可实现时变编队控制,并且避免Zeno行为,同时自触发策略可以避免智能体之间的连续通讯。2.对于受扰多智能体系统,研究了具有领航者的编队跟踪控制问题,分别设计固定时间事件触发与自触发控制策略。固定时间控制可有效提高系统收敛速度,并且收敛时间与系统初始状态无关;事件触发控制可以降低控制器更新次数,自触发控制可以避免智能体之间的连续通讯。3.针对基于采样数据的多智能体系统,研究了一阶多智能体系统基于采样数据的编队跟踪控制问题,分别设计了有限时间事件触发与自触发策略,后者可以避免连续通讯。4.对于基于采样数据的非线性高阶多智能体系统,研究了基于采样数据的编队控制问题,设计了分布式动态事件触发机制,通过动态调整触发函数参数,可以有效减少系统触发次数。5.目前多智能体协同控制研究多以理论研究与仿真验证为主,本文利用多无人车实验平台,对多智能体编队控制策略进行实验验证,分别设计了基于采样数据的多无人车有限时间事件触发编队跟踪实验与固定时间事件触发编队跟踪实验。通过实验对比,验证了有限时间控制、固定时间控制与事件触发控制与自触发控制的有效性。

林萍萍^[6]（2021）在《基于情感分析的人机谈判研究》文中指出电子商务的发展使得在线交易日益频繁,在线交易规模也日益扩大。消费者与商家的交互越来越多,不可避免地要进行在线谈判。传统的在线谈判方式是低效的人工谈判,人工谈判已经不能满足广大消费者日益增长的潜在需求。随着人工智能技术的发展,智能主体技术已日益成熟,使得电子商务领域的自动谈判成为了可能。智能主体能够随时与人类进行高效的谈判,节约了大量人工成本。因此,人机谈判吸引越来越多的学者的兴趣。目前有很多关于自动谈判系统的研究,大多数是计算机与计算机的自动谈判系统,而关于人机谈判的研究相对较少。即使有少许关于人机谈判的研究,也往往忽略了人类谈判方的情感因素,不能根据人类谈判方的情感采用相应的谈判策略,从而导致谈判对话生硬,用户体验感较差。设计合理的自动谈判系统可以帮助买家和卖家在合理的时间范围内就价格、数量以及其他条款上达成协议。为此,本文以自动谈判理论、谈判心理学为基础,利用情感分析技术,设计新的谈判策略,并研发出了具备情感能力的人机谈判系统。本文主要有以下几个方面的贡献。第一、综述了情感分析、自动谈判、人机谈判以及对话系统。我们详细分析和比较了情感分析技术以及其广泛应用,对比了情感分析技术在不同领域的应用,并说明可以继续研究的方向。第二、创新性地将情感分析引入到人机谈判中,提出了相应情感分析方法。第三、设计基于情感的人机谈判策略。第四、利用自然语言处理技术、情感分析技术、对话系统技术开发出了人机谈判系统。第五、进行大量实验证实我们融入情感分析的人机谈判系统能够提高谈判双方的联合效用,并且提升人类谈判方的体验感。因此,我们的人机谈判系统是有效的,能很好地满足当下电子商务的需求。

范怡帆^[7]（2021）在《基于强化学习的人机谈判系统》文中进行了进一步梳理随着人工智能的兴旺,电子商务行业迎来了新的发展机遇。随着在线交易的频率和规模的增加,商家与客户之间的在线协商和沟通变得越来越频繁。因为它们无法实现谈判,也无法分析用户,因此难以针对特定用户更好地达成交易。在线交易谈判流程的自动化已逐渐成为商家和消费者的潜在需求。但是,现有的在线对话系统（例如淘宝上的阿里小蜜和京东的在线客户服务）无法很好地满足这样的需求。目前,一方面,自动谈判的研究者主要集中在计算机对计算机的谈判上,而对人机谈判的研究不多。另一方面,对话系统的研究人员很少关注自动谈判。因此,在本文中,我们将对话系统的体系结构与自动谈判集成在一起,研发了一个人机谈判系统。它可以代替人工客服来处理许多重复性和多样化的谈判。它可以随时随地与多方进行谈判,从而显着提高谈判效率,并减少企业使用人工客服的成本。具体来说,我们基于微信小程序平台,研发了一个基于强化学习的人机谈判系统。我们的系统能够应对不同的用户或同一用户的不同出价方式,并采用动态谈判策略,提高谈判的效率。本文的主要贡献如下:我们综述了对话系统和自动谈判系统领域中的最新技术,比较了它们的优点和缺点,并建议了进一步研究的方向;我们将强化学习与用户行为建模相结合,设计了一种新颖的谈判策略,这个策略让我们的谈判系统在谈判中可以根据用户的行为来调整谈判策略;我们编写了对话语料和谈判语料库,采用fast Text算法训练识别人类意图的分类器,并且我们用基于特征词抽取的匹配算法来提取谈判对话中与价格相关的结构化信息;我们在微信小程序平台上实现人机谈判系统,该系统包括了分别从用户界面,对话理解,对话谈判管理和对话回应生成四个模块,并使用中文的自然语言与用户进行多轮谈判;我们进行了大量实验来分析我们的系统,通过分析意图识别模型的性能评估对话理解模块的性能,从系统谈判效率、对话成功率和公平性三个方面分析谈判策略的有效性,采用问卷调查的方式分析用户对系统的满意度。实验结果表明,我们研发的系统可以很准确地识别人类对手的意图,与人类对手进行谈判的效率、成功率以及公平性,大部分人类对手对我们的系统表示满意。本文设计和实现的人机谈判对话系统为研究对话系统和自动谈判的学者们提供了一个新的研究方向。

何永菁^[8]（2021）在《基于多智能体的微网经济优化运行策略及方法研究》文中进行了进一步梳理近年来,随着社会环保意识的增强以及弥补限制化石能源开采造成的能源供应不足问题,我国2020年末提出了“碳达峰、碳中和”的目标。发展低碳经济、顺应绿色低碳潮流的战略正驱动着电网朝着高效、灵活、智能和可持续方向发展。可持续性作为未来电网的基础特征,表现为新能源发电将越来越普遍的接入电网中。而微网作为一种灵活、多样的网络形式,为分布式电源的接入与控制提供了有效途径。但微网网络拓扑灵活、运行特性复杂、控制对象丰富的特点,令集中式的控制方式难以适用于微网。同时,在微网实际运行中,通信延时、故障等问题也不可避免,需要各单元具有在短时间内接收、处理信息并计算出出力最优值的能力。鉴于以上问题以及微网在未来电网发展中的重要角色,本文围绕微网经济优化运行及互联多微网间的协调优化运行问题开展了深入的研究,主要工作如下:（1）提出了基于多智能体分层架构的微网优化运行模型。为充分反映多微网以及微网内各设备的具体运行方式,建立了基于多智能体的微网分层分布式控制架构,分析了在两层优化运行策略中偏重的不同时间尺度、控制对象、控制范围、优化目标以及两层之间的控制关系。具体设计并描述了微网内各发电单元智能体的功能、类型及成本函数。在此基础上,建立了微网系统的优化运行模型,并利用一致性算法进行了验证。（2）针对实时的微网经济优化运行问题,提出了一种分布式的改进扩散算法,可以实现快速收敛。在扩散算法基础上增加了修正步骤并更换了梯度项,使其在计算中能够保证微网内有功功率平衡,且支持完全分布式运行,不依赖任何“领导者”。同时,从理论上分析了算法的收敛能力,对一致性算法与改进扩散算法的收敛速率进行了对比。考虑运行中的线路损耗,完善了功率输出最优值的表达式。算例结果表明:该算法收敛速度快,在通信拓扑发生改变的情况下仍能稳定收敛到最优值,同时能满足对于微网中设备“即插即用”能力的要求。（3）考虑到非理想通信状态下通信延时及链路故障对微网实时优化运行的影响,提出了微网经济优化运行策略,并分析了延时下的算法收敛性和稳定性。建立了延时存在下的微网优化运行模型,在前述算法基础上进行了简化,使其更适合于求解延时存在下的微网优化运行问题。利用矩阵扰动理论分析了通信延时对优化运行过程及算法收敛性的影响,给出了算法参数步长的理论上界,能保证算法收敛至理论最优值。算例结果表明:通信延时会使智能体获得全局信息过程变慢,反映在算法中即迭代次数增加;但即使通信延时和通信链路故障存在,算法仍能在确保经济性目标最优的前提下稳定收敛。（4）针对考虑可再生能源出力及负荷不确定性的互联多微网系统协调优化问题,提出了双层协调优化运行策略,该策略可以兼顾子微网经济性目标和可再生能源的就地消纳目标。详细设计了互联多微网系统的日前协同优化方案,建立了双层协调优化模型,上层多微网层计算内部激励电价,下层计及不确定性,以经济性最优为目标,由各微网根据激励电价计算得出出力计划,两层之间存在双向且多轮的交互。为求解该模型,利用蝙蝠算法提出了混合的交互迭代算法,算例结果表明了所提双层协调优化模型的有效性,同时证明了多微网间的协调优化不仅能够有效改善峰谷差、波动率等系统运行特性,促进了可再生能源的就地消纳,也有利于提高微网自身的经济性,对多微网系统的稳定、经济运行起到了积极的作用。

陆晓华^[9]（2021）在《调频辅助服务市场交易模型的仿真研究》文中认为当前,我国辅助服务市场化建设正逐渐步入关键阶段,伴随着新能源发电装机容量的快速增长和对清洁能源消纳的巨大需求,亟需加快推进电力辅助服务市场化改革步伐。辅助服务市场交易机制的设计是辅助服务市场建设的重点内容之一,合理的辅助服务市场交易机制能够在保证电力系统安全稳定运行的前提下,激励市场交易主体提高辅助服务产品的供应质量降低社会购电成本,进而提升社会整体效益。鉴于此,国内外许多专家学者纷纷对其展开持久而深入的研究来推动各地区辅助服务市场的建设。本文所研究的调频辅助服务市场交易机制涉及多方面的相关规则,由于辅助服务市场建设需要结合市场运行的实际情况和配套政策规则进行探索和调整,本文以江苏、山西和福建省调频辅助服务市场作为研究对象,针对各调频辅助市场运作机制和竞价交易模型进行对比研究,并利用基于MATLAB软件仿真方法对各上述调频辅助服务市场搭建仿真模型,通过分析和对比各省的仿真结果来检验和评估相关市场机制的合理性及有效性,以期为我国辅助服务市场化建设提供有益参考。本文首先介绍了国内外典型国家和地区电力辅助服务市场建设基本情况;其次梳理和分析了调频辅助服务的研究现状;接着对江苏、山西和福建省电力调频辅助服务市场交易机制展开研究,通过梳理和对比各调频市场两个细则的交易申报、调度决策、出清机制和结算机制等内容,建立发电机组参与调频的成本和收益模型;然后根据调频辅助服务市场的物理属性确定其为复杂自适应系统,并采用基于多Agent建模方法搭建各调频辅助服务市场竞价交易模型,考虑供需情况、调频性能和装机容量设计多台机组参与的9个调频市场仿真场景,分析不同调频辅助服务市场机制对市场交易主体竞价行为的影响。结果显示,相较于PAB竞价机制,MCP竞价机制下发电机组趋向于采取更加灵活的报价策略,且市场竞争更为激烈;PAB竞价机制下,市场均衡状态下市场平均结算价格较MCP竞价机制下的市场统一结算价格更高;整体上看,江苏、福建调频辅助市场机制能有效提升高性能机组市场占有率和整体调频容量申报水平,两者中,江苏调频辅助市场总购电成本相对较低,山西调频辅助市场机制也能有效提升高性能机组市场占有率,且购电成本相对较低,但整体调频容量申报水平为同等需求水平下最低。

赵毓^[10]（2021）在《多智能体系统自主规避任务决策方法研究》文中提出随着航空航天事业的高速发展,越来越多的飞行器采用群体或多体协同的方式执行任务,呈现出典型的多智能体特征,适于使用多智能体理论对其进行分析和建模,对分布式自主决策技术的需求日益突出。飞行器自主规避是确保其安全性最直接有效的方法,但是当前对相关技术的研究多是基于静态全局规划算法,难以满足动态场景中多实体间实时协同需求。为了解决多实体协同规避问题,本文引用多智能体系统思想对其进行规避任务决策技术研究。多智能体系统有着自主、高效和可扩展的优点,本文将其与强化学习技术相结合,用以设计飞行器决策算法。本文以航天器反拦截、无人机避碰和空间机械臂轨迹规划等典型任务为研究背景,对多智能体自主规避任务决策问题进行研究,结合真实约束条件,实现智能体的实时决策。本文取得主要研究成果如下:在运动分析基础上给出智能体与环境交互的数学模型。针对多智能体系统规避决策问题,建立部分可观马尔科夫决策模型,考虑部分可观的约束条件,结合博弈理论研究了多智能体马尔科夫博弈问题,分析常规回报函数的设计方法,并给出了求解序列决策的三种典型方式。在多智能体强化学习方面,分析了航天器规避机动场景和空间机械臂捕捉场景的决策流程;将策略梯度方法向多智能体系统进行改进研究;提出一种基于策略协调和信度分配的Actor-Critic强化学习方法,用于解决全局可观条件下决策器的训练和策略提升问题,并给出相关收敛性分析;根据任务需求设计各关键环节的神经网络结构和算法流程。分别在航天器反拦截和空间机械臂避障规划等多种任务场景中进行了强化学习训练,通过对累积回报值和成功率的结果对比分析验证了所提方法的正确性和有效性。在强化学习算法应用方面,分析典型任务场景对决策效率的约束情况;针对问题场景设计了进行任务决策的神经网络结构,并对其不同部分设计压缩方法;在神经网络权值聚类和量化的基础上,提出一种自适应分层重构剪枝方法,该方法以重训练的方式对目标神经网络进行动态剪枝和压缩,用于提高决策器运行速度,并压缩其存储空间;对部分可观条件下的任务场景进行强化学习系统设计,详细给出了回报函数的设计方法。分别在有限空域大量无人机场景和多航天器反拦截场景对提出方法进行仿真验证,从决策运行速度、累计回报值和成功率等方面对算法性能进行分析和讨论,并验证了所提强化学习方法对实体数量可变环境的适应性。在任务环境稀疏奖励问题上,对任务场景约束和常规强化学习算法局限性进行分析,设计了案例评价机制;提出逆值法强化学习算法,解决了奖励延迟分配和无奖励引导系统学习效率低的问题;基于马尔科夫博弈理论设计了自学习系统,并结合启发式搜索思想分析了所提算法的收敛性;分析了有扰动状态输入情况,并设计了用于对比分析的有限状态机;分析了算法优势和改进方向。在仿真验证中与前文章节训练所得决策器进行了对比分析,验证了所提算法的正确性和相关性能优势。本文对多智能体决策技术进行探索,研究了信度分配、策略协调、执行提速和稀疏奖励等重要方向,提高了航空航天硬件设备在执行任务中的存活率,所得研究成果对航空航天安全保障技术的发展具有一定的参考价值。

二、Agent计算的理论（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、Agent计算的理论（论文提纲范文）

（1）基于Q-学习演化博弈模型的区域交通优化方法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 传统区域交通优化方法

1.2.2 博弈论与强化学习在区域交通信号优化中的应用

1.2.3 研究现状总结

1.3 研究内容

1.4 技术路线

第二章基于演化博弈的路口学习能力研究

2.1 博弈论

2.2 路口演化博弈模型

2.2.1 路口冲突问题分析

2.2.2 路口博弈模型

2.2.3 基于路口全局属性的异构学习能力定义

2.3 仿真实验及结果分析

2.3.1 实验数据

2.3.2 仿真实验与结果

2.3.3 结果分析

2.4 小结

第三章基于Q-学习的路口博弈策略选择机制研究

3.1 Q-学习

3.1.1 马尔可夫决策问题

3.1.2 Q-学习算法基本原理

3.1.3 多智能体Q-学习

3.2 博弈网络的Q-学习演化博弈模型

3.2.1 囚徒困境演化博弈模型

3.2.2 Q-学习规则

3.3 三种Q-学习决策机制对比分析

3.3.1 Epsilon-greedy决策机制

3.3.2 Boltzmann决策机制

3.3.3 Epsilon-Max-plus决策机制

3.4 仿真实验及结果分析

3.4.1 实验结果

3.4.2 结果分析

3.5 小结

第四章基于Q-学习演化博弈模型的区域交通优化平台

4.1 区域交通优化中的Q-学习参数定义

4.1.1 环境状态

4.1.2 动作定义

4.1.3 奖励函数

4.1.4 动作选择方式

4.2 区域路网与博弈网络结合的Q-学习演化博弈模型

4.2.1 交通网络Q-学习模型

4.2.2 博弈网络Q-学习模型

4.2.3 信号优化算法

4.3 区域交通协调优化平台模块设置

4.3.1 SUMO仿真环境设置

4.3.2 博弈网络模块参数设置

4.3.3 交通网络模块参数设置

4.4 仿真实验及结果分析

4.4.1 平均速度结果对比

4.4.2 平均占有率结果对比

4.5 小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

在学期间的研究成果

致谢

（2）信任网络上的联盟结构生成研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 传统算法联盟结构生成

1.2.2 约束条件下联盟结构生成

1.3 研究内容和组织结构

1.4 创新点

2 研究理论基础

2.1 联盟形成

2.1.1 传统联盟形成主要定义

2.1.2 图联盟形成主要定义

2.1.3 最优联盟结构生成问题

2.1.4 联盟结构搜索空间

2.2 蒙特卡洛树搜索

2.2.1 蒙特卡洛方法

2.2.2 蒙特卡洛树搜索

2.3 信任

2.3.1 信任及其度量

2.3.2 信任传递

2.3.3 信任网络

2.4 Min k-cut问题

2.4.1 Min k-cut

2.4.2 现有方法

2.5 本章小结

3 基于蒙特卡洛树搜索的图联盟结构生成

3.1 引言

3.2 GCSG-UCT

3.2.1 选择

3.2.2 扩展

3.2.3 模拟

3.2.4 反向传播

3.3 算法分析和讨论

3.4 实验结果与分析

3.4.1 对比算法

3.4.2 评价指标

3.4.3 实验结果

3.5 本章小结

4 信任效用关系图上的Min k-cut联盟结构生成

4.1 引言

4.2 基本定义

4.3 ECCF算法

4.4 ECCF算法求解过程实例

4.5 实验结果与分析

4.5.1 对比算法

4.5.2 评价指标

4.5.3 实验结果与分析

4.6 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读硕士期间发表的论文

攻读硕士期间参与的会议

附录一表目录

附录二图目录

（3）钝感型破碎剂的设计与应用研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 研究背景

1.2 研究现状

1.2.1 高能火工药剂研究现状

1.2.2 铝热剂研究现状

1.3 研究目的与意义

1.4 主要研究内容

2 破碎剂的制备及理论研究

2.1 破碎剂配方设计

2.1.1 氧化剂的选择

2.1.2 可燃剂的选择

2.1.3 配方设计原则

2.1.4 破碎剂配方确定

2.2 破碎剂的制备

2.2.1 实验材料与仪器

2.2.2 制备过程

2.3 破碎剂爆炸反应参数的理论计算

2.3.1 爆炸反应方程式的确定

2.3.2 爆热

2.3.3 爆温

2.3.4 爆容

2.4 本章小结

3 破碎剂性能实验研究

3.1 密度测试

3.2 感度测试

3.2.1 撞击感度

3.2.2 摩擦感度

3.2.3 静电火花感度

3.3 摩擦带电量测试

3.4 做功能力测试

3.5 破碎剂的含水率与吸湿性

3.6 本章小结

4 破碎剂现场破岩试验

4.1 激发装置设计与制备

4.1.1 激发药的设计与制备

4.1.2 电激发装置结构设计

4.1.3 激发装置点火试验

4.2 破碎剂的选择与制备

4.3 爆破参数的选择

4.3.1 矿山概况

4.3.2 爆破参数的确定

4.3.3 爆破试验

4.4 爆破效果分析

4.5 本章小结

5 结论与展望

5.1 结论

5.2 展望

参考文献

致谢

作者简介及读研期间主要科研成果

（4）基于强化学习的多智能体协作建模方法研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究目的及意义

1.2 国内外研究现状

1.2.1 多Agent系统的研究现状

1.2.2 强化学习的研究现状

1.2.3 多Agent强化学习的研究现状

1.3 本文研究内容

1.4 本文的技术路线

1.5 本文的创新点

1.6 全文的组织框架

第2章相关理论介绍

2.1 智能制造

2.1.1 智能制造的背景

2.1.2 智能制造系统对控制模型的要求

2.2 Agent相关技术

2.2.1 Agent相关概念及特性

2.2.2 Agent体系及结构

2.2.3 多Agent系统概念

2.2.4 多Agent系统体系结构

2.3 强化学习与多Agent强化学习方法

2.3.1 强化学习

2.3.2 多Agent强化学习

2.4 本章小结

第3章面向工业的多Agent混合式智能模型

3.1 多Agent建模的含义和优势

3.2 Agent之间的通信

3.2.1 ACL相关介绍

3.2.2 利用JADE平台实现ACL

3.3 面向工业的多Agent混合式智能模型

3.3.1 多Agent混合式智能模型的构建

3.3.2 多Agent混合式智能模型中各模块功能及主要Agent的结构

3.3.3 在JADE平台上构建多Agent混合式智能模型

3.4 本章小结

第4章基于状态表示学习的多Agent协作算法

4.1 研究背景

4.2 MADDPG算法概述

4.3 M3DDPG算法概述

4.4 SRL_M3DDPG算法概述

4.4.1 状态表示学习

4.4.2 SRL_M3DDPG算法

4.5 仿真实验

4.6 本章小结

第5章基于TS_Qlearning的多Agent作业调度

5.1 研究背景

5.2 作业调度问题描述

5.3 强化学习求解作业调度问题

5.3.1 调度问题中的强化学习

5.3.2 Q-learning算法

5.3.3 TS_Qlearning算法

5.4 仿真实验

5.5 本章小结

第6章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

在校期间主要研究成果

一、发表学术论文

二、其他科研成果

（5）多智能体系统事件触发编队控制研究（论文提纲范文）

致谢

摘要

Abstract

符号清单

1 绪论

1.1 课题来源

1.2 研究背景及意义

1.3 国内外研究现状

1.3.1 多智能体系统编队控制研究进展

1.3.2 多智能体系统事件触发控制研究进展

1.4 存在的关键问题

1.5 论文的主要内容及结构安排

2 理论基础

2.1 图论及相关引理

2.2 编队相关定义

2.3 系统稳定性理论

2.4 其它相关引理

3 基于状态观测器的多智能体系统事件触发时变编队控制

3.1 引言

3.2 问题描述

3.3 分布式事件触发编队控制策略

3.4 分布式自触发编队控制策略

3.5 仿真验证

3.6 本章小结

4 受扰多智能体系统固定时间事件触发编队控制

4.1 引言

4.2 问题描述

4.3 固定时间事件触发实际编队跟踪控制算法设计

4.4 固定时间自触发实际编队跟踪控制算法设计

4.5 仿真验证

4.6 本章小结

5 基于采样数据的多智能体系统有限时间事件触发编队控制

5.1 引言

5.2 问题描述

5.3 基于采样数据的有限时间事件触发编队跟踪策略

5.4 基于采样数据的有限时间自触发编队跟踪策略

5.5 仿真验证

5.6 本章小结

6 基于采样数据的多智能体系统动态事件触发编队控制

6.1 引言

6.2 问题描述

6.3 基于采样数据的动态事件触发编队控制策略

6.4 仿真验证

6.5 本章小结

7 基于采样数据的多无人车编队跟踪实验

7.1 引言

7.2 多无人车实验验证平台

7.3 无人车运动学模型

7.4 基于采样数据的多无人车有限时间事件触发编队跟踪实验

7.5 基于采样数据的多无人车固定时间事件触发编队跟踪实验

7.6 本章小结

8 结论

8.1 本文总结

8.2 未来展望

参考文献

作者简历及在学研究成果

学位论文数据集

（6）基于情感分析的人机谈判研究（论文提纲范文）

摘要

Abstract

第1章引言

1.1 研究背景

1.2 动机

1.2.1 情感因素对于人类谈判的影响

1.2.2 情感因素对于人机谈判的影响

1.2.3 研发基于情感的人机谈判系统的意义

1.3 研究思路和技术路线

1.4 本文的主要贡献

1.5 本文的组织结构

第2章文献综述

2.1 引言

2.2 基于机器学习的情感分析

2.2.1 基于线性分类器的方法

2.2.2 基于概率分类器的方法

2.2.3 其它基于机器学习的方法

2.2.4 讨论

2.2.5 小结

2.3 基于深度学习的情感分析

2.3.1 基于卷积神经网络的方法

2.3.2 基于循环神经网络的方法

2.3.3 混合的方法

2.3.4 其它基于深度学习的方法

2.3.5 多模态的情感分析

2.3.6 小结

2.4 情感分析技术的应用

2.4.1 商业应用

2.4.2 中国的智能客服系统

2.4.3 非商业应用

2.4.4 关系和事件预测

2.4.5 对话系统

2.4.6 讨论与挑战

2.4.7 小结

2.5 自动谈判

2.5.1 机器对机器的自动谈判

2.5.2 人机自动谈判

2.6 对话系统

2.6.1 对话理解

2.6.2 对话管理

2.6.3 对话生成

2.7 本章小结

第3章系统结构及原理

3.1 引言

3.2 模型定义

3.3 系统框架

3.4 系统主函数

3.5 界面设计

3.6 情感分类

3.6.1 情感分类标准

3.6.2 情感强度分类标准

3.6.3 情感关键词库

3.7 意图特征和情感特征抽取

3.7.1 意图特征抽取

3.7.2 情感特征抽取

3.8 意图分类

3.9 情感分类

3.10 价格特征词及其值抽取

3.11 谈判决策

3.11.1 安抚策略

3.11.2 让步策略

3.11.3 谈判算法

3.12 生成回复

3.13 本章小结

第4章系统的实现

4.1 概述

4.2 收集语料与预处理

4.3 交互界面

4.4 意图和情感特征抽取

4.5 意图识别与分类

4.6 情感识别与分类

4.7 价格特征及其值抽取

4.8 谈判策略

4.9 生成回复

4.10 本章小结

第5章谈判实例与分析

5.1 谈判成功样例分析

5.2 谈判破裂样例分析

5.3 两样例总分析

5.4 本章小结

第6章系统评估与分析

6.1 意图和情感分类模型的性能评估

6.2 谈判成功率

6.3 谈判结果的效用

6.4 人类谈判对手满意度

6.5 本章小结

第7章结束语

7.1 总结

7.2 展望

参考文献

附录A 部分意图语料

A.1 问候意图类

A.2 讲价意图类

A.3 破裂意图类

A.4 成交意图类

附录B 部分情感语料

B.1 愤怒情感类

B.2 生气情感类

B.3 失望情感类

B.4 着急情感类

B.5 担心情感类

B.6 委屈情感类

B.7 高兴情感类

B.8 感激情感类

附录C 部分回复模板

C.1 愤怒回复模板库

C.2 生气回复模板库

C.3 失望回复模板库

C.4 着急回复模板库

C.5 担心回复模板库

C.6 委屈回复模板库

C.7 高兴回复模板库

C.8 感激回复模板库

C.9 问候类回复模板库

C.10 讲价类回复模板库

C.11 破裂类回复模板库

C.12 成交类回复模板库

读硕期间获得的成果与奖励

致谢

（7）基于强化学习的人机谈判系统（论文提纲范文）

摘要

Abstract

第1章引言

1.1 研究背景

1.2 研究的动机

1.3 技术路线

1.4 本文主要贡献

1.5 本文结构

第2章文献综述

2.1 引言

2.2 对话管理

2.2.1 对话行为识别

2.2.2 对话状态跟踪

2.2.3 对话策略

2.2.4 本节小结

2.3 对话回应生成

2.3.1 基于规则的方法

2.3.2 基于知识的方法

2.3.3 基于深度学习的方法

2.3.4 基于生成式的特殊模型

2.3.5 基于知识和深度学习的混合方法

2.3.6 本节小结

2.4 对话系统的评估

2.4.1 评估基于任务的对话系统

2.4.2 评估开放域对话系统

2.4.3 基于学习的评估

2.4.4 挑战

2.4.5 本节小结

2.5 强化学习

2.5.1 简介

2.5.2 Q学习算法

2.5.3 本节小结

2.6 人机谈判

2.6.1 人机谈判必要性

2.6.2 人机谈判策略

2.6.3 谈判的相关方法

2.6.4 基于强化学习的人机谈判

2.6.5 本节小结

2.7 本章小结

第3章系统结构

3.1 引言

3.2 人机谈判对话系统框架

3.3 系统模型定义

3.4 系统主函数

3.5 本章小结

第4章人机谈判系统的用户界面

4.1 引言

4.2 用户界面的设计

4.2.1 基于微信小程序的前端输入

4.2.2 基于Flask框架的后台输出

4.3 用户界面的实现

4.4 本章小结

第5章谈判对话理解

5.1 引言

5.2 对话理解的方法

5.2.1 基于特征词抽取的匹配算法

5.2.2 基于fast Text的意图识别

5.3 对话理解的实现

5.4 本章小结

第6章基于强化学习的对话谈判管理

6.1 引言

6.2 对话谈判管理的原理

6.2.1 用户行为建模

6.2.2 基于Q学习的谈判策略

6.2.3 基于Q学习与用户行为建模的谈判策略

6.3 对话谈判管理的实现

6.4 本章小结

第7章谈判回应生成

7.1 引言

7.2 基于模板匹配的回应生成方法

7.3 对话回应生成的实现

7.4 本章小结

第8章谈判示例与分析

8.1 引言

8.2 谈判示例展示

8.3 谈判成功示例分析

8.4 谈判破裂示例分析

8.5 本章小结

第9章系统评估

9.1 引言

9.2 意图识别模型的性能

9.3 价格谈判的衡量指标

9.4 用户满意度

9.5 本章小结

第10章结束语

10.1 总结

10.2 展望

参考文献

附录A 意图识别模型的部分训练语料

A.1 问候意图类部分语料

A.2 商品询问意图类部分语料

A.3 谈判破裂意图类部分语料

A.4 谈判成功意图类部分语料

附录B 部分回复模板

B.1 问候类部分回复模板

B.2 商品询问类部分回复模板

B.3 谈判成功类部分回复模板

B.4 谈判破裂类部分回复模板

B.5 价格谈判类部分回复模板

读硕期间获得的成果与奖励

致谢

（8）基于多智能体的微网经济优化运行策略及方法研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 引言

1.1 选题背景与意义

1.2 国内外研究现状

1.2.1 多智能体系统研究现状

1.2.2 微网优化运行方法研究现状

1.2.3 多微网协调优化研究现状

1.3 本文研究思路与主要工作

1.3.1 研究思路

1.3.2 主要工作

2 基于多智能体的微网分层优化运行方法

2.1 微网分层分布式优化运行架构

2.1.1 微网系统基本结构

2.1.2 基于多智能体的微网分层分布式运行架构

2.2 一致性与凸优化理论

2.2.1 图论

2.2.2 多智能体一致性

2.2.3 凸优化

2.3 微网经济优化运行模型及仿真验证

2.3.1 微网内各智能体发电成本模型

2.3.2 系统优化运行模型及最优性条件

2.3.3 一致性算法及算例验证

2.4 小结

3 微网经济优化运行策略及分布式算法设计

3.1 微网经济优化运行策略

3.1.1 微网优化运行方案

3.1.2 考虑损耗的微网经济优化运行模型

3.2 分布式优化算法设计及性能分析

3.2.1 基本扩散算法

3.2.2 改进的扩散算法

3.2.3 算法收敛性分析

3.2.4 扩散算法与一致性算法收敛速率对比

3.3 面向微网经济优化运行问题的算法流程

3.4 算例分析

3.4.1 场景描述

3.4.2 收敛速度对比分析

3.4.3 有效性分析

3.4.4 传输损耗影响分析

3.4.5 适应性分析

3.5 小结

4 非理想通信状态下的微网经济优化运行策略

4.1 非理想通信状态下的微网优化运行模型

4.1.1 通信延时对分布式优化过程及算法的影响

4.1.2 链路故障对分布式优化过程及算法的影响

4.1.3 通信延时下的微网优化运行模型

4.2 通信延时下的算法收敛性分析

4.3 算法关键参数对稳定性的影响分析

4.4 算例分析

4.4.1 场景描述

4.4.2 通信延时下的有效性分析

4.4.3 非理想通信状态下的适应性分析

4.5 小结

5 互联多微网系统的协调优化运行策略

5.1 需求响应在多微网系统中的参与方式

5.2 基于多智能体的互联多微网系统分层架构

5.2.1 互联多微网系统基本结构

5.2.2 基于多智能体的多微网分层架构

5.2.3 智能体功能描述

5.2.4 互联多微网系统协调优化方案

5.3 双层协调优化运行模型

5.3.1 上层:内部电价激励模型

5.3.2 下层:考虑随机性的微网经济优化运行模型

5.4 混合交互迭代算法设计

5.4.1 模型函数性质分析及线性化处理

5.4.2 基于蝙蝠算法的混合交互迭代算法

5.5 算例分析

5.5.1 场景描述

5.5.2 经济性分析

5.5.3 可再生能源消纳能力分析

5.5.4 不确定性影响分析

5.5.5 用户满意度系数灵敏性分析

5.6 小结

6 结论与展望

6.1 结论

6.2 研究不足及工作展望

参考文献

作者简历

学位论文数据集

（9）调频辅助服务市场交易模型的仿真研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 选题背景及意义

1.1.1 选题背景

1.1.2 选题意义

1.2 国内外研究概况

1.2.1 国外辅助服务市场建设概况

1.2.2 国内辅助服务市场建设概况

1.2.3 调频辅助服务研究现状

1.3 本文研究工作

1.4 本章小结

第2章调频辅助服务市场交易主体收益分析

2.1 辅助服务基本理论

2.2 调频市场结构体系

2.3 调频资源成本理论及建模

2.3.1 AGC成本构成

2.3.2 AGC成本数学模型

2.4 调频性能指标

2.5 调频补偿费用模型

2.5.1 江苏调频市场补偿规则

2.5.2 山西调频市场补偿规则

2.5.3 福建调频市场补偿规则

2.6 本章小结

第3章江苏、山西及福建省调频市场细则分析

3.1 调频市场交易要求

3.1.1 调频市场参与方式

3.1.2 调频市场准入条件

3.2 调频市场交易流程

3.2.1 江苏调频市场交易组织时序

3.2.2 山西调频市场交易组织时序

3.2.3 福建调频市场交易组织时序

3.3 调频市场组织实施

3.3.1 调频市场交易申报

3.3.2 调频市场调度决策

3.3.3 调频市场出清机制

3.4 本章小结

第4章调频市场竞价交易模型

4.1 复杂适应性系统

4.2 多Agent系统理论

4.3 基于多Agent的调频市场竞价模型

4.4 调频市场竞价流程

4.5 本章小结

第5章调频市场交易主体的交易过程研究

5.1 仿真算例设计

5.2 江苏与山西(PAB竞价机制)仿真结果分析

5.2.1 仿真算例1——市场需求450MW

5.2.2 仿真算例2——市场需求720MW

5.2.3 仿真算例3——市场需求780MW

5.3 福建(MCP竞价机制)仿真结果分析

5.3.1 仿真算例4——市场需求450MW

5.3.2 仿真算例5——市场需求720MW

5.3.3 仿真算例6——市场需求780MW

5.4 各省仿真结果对比分析

5.5 本章小结

第6章结论与展望

6.1 结论

6.2 展望

参考文献

攻读硕士学位期间发表的论文及其它成果

致谢

（10）多智能体系统自主规避任务决策方法研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题背景与研究意义

1.2 典型多智能体系统技术发展

1.2.1 无人机集群避碰技术研究现状

1.2.2 多自由度空间机械臂避障技术研究现状

1.2.3 航天器规避机动算法发展现状

1.3 基于自学习理论的决策方法国内外研究现状

1.3.1 多智能体深度强化学习方法研究现状

1.3.2 深度神经网络压缩及加速方法研究现状

1.3.3 稀疏奖励强化学习方法研究现状

1.4 主要研究内容及论文结构

1.4.1 存在问题及技术难点

1.4.2 研究内容及章节安排

第2章多智能体系统决策模型

2.1 引言

2.2 动力学相关描述

2.2.1 多智能体系统运动模型

2.2.2 空间拦截器制导律

2.3 多智能体部分可观决策模型

2.3.1 马尔科夫决策过程理论基础

2.3.2 分布式部分可观马尔科夫博弈

2.3.3 常规回报函数设计思路

2.4 序列决策问题求解方法

2.4.1 模糊系统

2.4.2 有限状态机

2.4.3 蒙特卡洛树搜索

2.5 本章小结

第3章基于ACTOR-CRITIC架构的自主决策算法

3.1 引言

3.2 问题场景描述

3.2.1 航天器规避机动问题场景描述

3.2.2 空间机械臂轨迹规划场景描述

3.2.3 多智能体系统决策流程分析

3.3 多智能体策略梯度强化学习方法

3.3.1 算法基础理论框架

3.3.2 策略梯度算法收敛性分析

3.3.3 策略梯度方法在多智能体系统中应用

3.4 基于信度分配的多智能体强化学习框架

3.4.1 航天器规避决策方法

3.4.2 案例优选的空间机械臂决策方法

3.4.3 基于信度分配的算法收敛性分析和改进

3.4.4 网络结构设计及算法流程

3.5 仿真及结果分析

3.5.1 基于最优控制理论的对比算法

3.5.2 航天器规避机动仿真

3.5.3 空间机械臂轨迹规划仿真

3.5.4 强化学习算法仿真结果简析

3.6 本章小结

第4章多智能体分布式协同避碰决策方法研究

4.1 引言

4.2 有限空域无人机集群避碰问题分析

4.2.1 求解策略的训练方法

4.2.2 在线协调和沟通机制

4.3 多智能体强化学习系统设计

4.3.1 状态空间和动作空间选取

4.3.2 系统体系结构和流程分析

4.3.3 回报函数设计

4.4 仿真及结果分析

4.4.1 仿真条件设定

4.4.2 训练曲线及场景案例仿真

4.4.3 结果分析

4.5 本章小结

第5章基于优化神经网络的分布式规避决策方法

5.1 引言

5.2 多航天器对多拦截器协同规避问题研究

5.2.1 状态空间和动作空间选取

5.2.2 系统体系结构和流程分析

5.2.3 回报函数设计

5.3 基于自适应重构方法的深度神经网络优化方法

5.3.1 神经网络结构设计

5.3.2 权值聚类及量化

5.3.3 自适应分层重构剪枝

5.4 仿真及结果分析

5.4.1 基于微分对策理论的对比算法

5.4.2 神经网络优化算法试验及数值仿真

5.4.3 强化学习训练及场景案例仿真

5.4.4 结果分析

5.5 本章小结

第6章基于逆值法的多航天器自学习规避算法

6.1 引言

6.2 稀疏奖励强化学习算法分析

6.2.1 规避任务分析

6.2.2 常规强化学习方法局限

6.2.3 逆值法强化学习算法

6.2.4 算法核心逻辑流程

6.3 多智能体稀疏奖励自学习系统设计

6.3.1 自学习系统结构设计

6.3.2 信念状态估计方法

6.3.3 逆值法在案例中的收敛性简析

6.3.4 网络结构和算法流程

6.4 仿真及结果分析

6.4.1 基于有限状态机的对比算法

6.4.2 仿真条件设定

6.4.3 结果对比分析

6.4.4 算法优势及改进分析

6.5 本章小结

结论

参考文献

攻读博士学位期间发表的论文及其它成果

致谢

个人简历

四、Agent计算的理论（论文参考文献）

[1]基于Q-学习演化博弈模型的区域交通优化方法研究[D]. 张艺帆. 北方工业大学, 2021(11)
[2]信任网络上的联盟结构生成研究[D]. 孔祥龙. 烟台大学, 2021(09)
[3]钝感型破碎剂的设计与应用研究[D]. 张良杰. 安徽理工大学, 2021(02)
[4]基于强化学习的多智能体协作建模方法研究[D]. 胡大鹏. 齐鲁工业大学, 2021(10)
[5]多智能体系统事件触发编队控制研究[D]. 柴小丰. 北京科技大学, 2021
[6]基于情感分析的人机谈判研究[D]. 林萍萍. 广西师范大学, 2021(09)
[7]基于强化学习的人机谈判系统[D]. 范怡帆. 广西师范大学, 2021(09)
[8]基于多智能体的微网经济优化运行策略及方法研究[D]. 何永菁. 北京交通大学, 2021(02)
[9]调频辅助服务市场交易模型的仿真研究[D]. 陆晓华. 华北电力大学(北京), 2021(01)
[10]多智能体系统自主规避任务决策方法研究[D]. 赵毓. 哈尔滨工业大学, 2021(02)

标签：微网论文; 强化学习论文; 系统仿真论文; 系统学习论文; 优化策略论文;

代理计算理论

一、Agent计算的理论（论文文献综述）

二、Agent计算的理论（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、Agent计算的理论（论文提纲范文）

（1）基于Q-学习演化博弈模型的区域交通优化方法研究（论文提纲范文）

（2）信任网络上的联盟结构生成研究（论文提纲范文）

（3）钝感型破碎剂的设计与应用研究（论文提纲范文）

（4）基于强化学习的多智能体协作建模方法研究（论文提纲范文）

（5）多智能体系统事件触发编队控制研究（论文提纲范文）

（6）基于情感分析的人机谈判研究（论文提纲范文）

（7）基于强化学习的人机谈判系统（论文提纲范文）

（8）基于多智能体的微网经济优化运行策略及方法研究（论文提纲范文）

（9）调频辅助服务市场交易模型的仿真研究（论文提纲范文）

（10）多智能体系统自主规避任务决策方法研究（论文提纲范文）

四、Agent计算的理论（论文参考文献）

猜你喜欢