免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 97038 | 回复: 7

【有奖话题讨论】关于分布式人工智能这个新领域你了解多少? [复制链接]

论坛徽章:
0
发表于 2021-06-21 09:48 |显示全部楼层

获奖用户:
renxiao2003  2楼    @renxiao2003
jieforest    3楼         @jieforest
aloki        8楼          @aloki

请大家及时站内短信联系我哦  发送自己的最新个人信息和邮寄地址


话题背景:

分布式机器学习是随着大数据和机器学习的发展而兴起的。在大数据的大量应用前,研究者致力于研究提高机器学习的方法,主要使用多个处理器进行工作,这类似于一种“并行计算”的方式,通过任务的拆解、分配处理单元和归并的方式进行处理。分布式人工智能系统可以从大数据中总结规律,归纳整个人类的知识库,通过分布式机器学习建立语义学习系统,通过分布式的方式,从上千亿的文本和大规模的用户数据中进行机器学习,归纳汉语语义,形成相关性的训练模型。它可以在一毫秒之内解析语句,理解歧义,将广告系统、搜索引擎、推荐系统的理解能力大幅度提升。机械工业出版社出版的《分布式人工智能:基于TensorFlow、RTOS与群体智能体系》一书对分布式人工智能的相关知识做了系统讲述,本次活动便是以此为契机,和各位人工智能技术爱好者就相关话题展开讨论,欢迎大家踊跃发言。

本期话题:

(1)在深度学习中,常用于训练加速的方法有哪些?如何通过分布式的方式对深度学习的参数训练进行大规模加速?
(2)在强化学习方面,如何处理多个智能体协同决策?如何在复杂的环境下找出长期路径下的最优策略?
(3)在游戏开发领域,常用的人工智能算法有哪些?您觉得该如何去打造一个MOBA游戏的算法结构?

嘉宾介绍:

王静逸  神兔未来科技有限公司/魔境世界科技有限公司创始人,中国商业联合会智库专家,中国计算机学会会员,ACM会员,中国数字仿真协会专家委员。曾经任职于武汉中铁桥梁科学研究院、上海联想研究院和华为研究所,任研究员。曾为QQ炫舞1和2引擎开发工程师及客户端负责人,第一视频研究院(CCF区块链专委单位)研究员和技术总监,布比区块链(BUMO)公链架构师,姿美堂科技集团大数据中心技术总监。现为中国建设银行建信金融科技基础技术中心人工智能平台专家、架构师和研究员,从事大数据、分布式人工智能和区块链智能网络等领域的研究工作。著有《Unity与C 网络游戏开发实战:基于VR、AI与分布式架构》及《区块链与金融大数据整合实战》等图书。在区块链与分布式人工智能领域发表多篇相关论文并获奖,并拥有多项技术专利。

本期奖品:

最佳积极参与经验分享奖5名,各奖励价值169元的《分布式人工智能:基于TensorFlow、RTOS与群体智能体系 》图书1本。

分布式人工智能:基于TensorFlow、RTOS与群体智能体系
王静逸  著
书号:978-7-111-66520-5
印张:34.25(文前12页,正文536页,0个广告页,共548页)
定价:169.00元
上架:计算机/人工智能

1.jpg


参与方式:

直接在该主题下回帖即可。

活动时间:

2021年6月21日-2021年7月20日

图书购买:



图书试读: 前言 目录.pdf (1.97 MB, 下载次数: 92)

论坛徽章:
59
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
发表于 2021-06-21 22:20 |显示全部楼层
本帖最后由 renxiao2003 于 2021-07-15 10:56 编辑

(1)在深度学习中,常用于训练加速的方法有哪些?如何通过分布式的方式对深度学习的参数训练进行大规模加速?

训练加速方法有如下两大类:
一、内部方法
网络结构的选择
比如 CNN 与 RNN,前者更适合并行架构
优化算法的改进:动量、自适应学习率
减少参数规模
比如使用 GRU 代替 LSTM
参数初始化
Batch Normalization
mini-batch 的调整
二、外部方法
GPU 加速
数据并行
模型并行
混合数据并行与模型并行
CPU 集群
GPU 集群

分布式加速方式:

1.python服务接口
在python服务器上部署模型文件,给出一个http服务,后台通过这个服务就可以调用模型进行输入输出了。
优点:算法与后端的工作界限明显,不需要特别多的沟通;在使用模型前还需要进行数据预处理,不需要额外再进行代码迁移。
缺点:需要服务器安装python环境,维护的成本增加,服务器之间接口的通信问题,获取模型输出所需时间可能更长。
2.java直接加载模型
目前工业界比较成熟的部署方案就是使用tensorflow的java包,然后加载训练的模型文件。
需要事先将模型文件保存成pb格式,然后在java的环境中添加依赖。最后再加载模型。
优点:不需要额外的接口,调用方便;不需要额外安装python环境
缺点:需要将数据预处理这部分代码迁移成java,并添加到后端项目代码中。另外google对这种方法重视不高,没有详细的文档,也很少更新维护代码。模型预测速度和调python接口差不多。
3.docker+tf-serving部署模型
这个是google比较推荐的部署方法,部署文档比较详细。也是广泛使用的方法。这种方法直接将模型部署在docker容器中,然后提供两种接口,分别是Grpc接口和http接口,前者据说是在读取批量数据上更有优势,例如图片数据;服务启动后只要可以连接,任何语言都可以调用。
优点:部署方便,不受服务器限制;可以同时部署多个模型,方便模型的管理和版本控制;模型推理的速度快,经过测试比前两种快2倍。
缺点:同样需要编写数据预处理代码,数据输入格式需要按文档的要求。

(2)在强化学习方面,如何处理多个智能体协同决策?如何在复杂的环境下找出长期路径下的最优策略?

多智能体系统(MAS, Multi-Agent System)是多个智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的,易于管理的系统。MAS是分布式人工智能(DAI,Distributed Artificial Intelligence)的一个重要分支,是20世纪末至21世纪初国际上人工智能的前沿学科。研究的目的在于解决大型、复杂的现实问题,而解决这类问题已超出了单个智能体的能力。
它的研究涉及智能体的知识、目标、技能、规划以及如何使智能体采取协调行动解决问题等。研究者主要研究智能体之间的交互通信、协调合作、冲突消解等方面,强调多个智能体之间的紧密群体合作,而非个体能力的自治和发挥,主要说明如何分析、设计和集成多个智能体构成相互协作的系统。 多智能体系统在表达实际系统时, 通过各智能体间的通讯、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性。
多智能体系统具有自主性、分布性、协调性, 并具有自组织能力、学习能力和推理能力。采用多智能体系统解决实际应用问题, 具有很强的鲁棒性和可靠性, 并具有较高的问题求解效率。
多智能体系统是智能体技术应用及研究上的一个质的飞跃。通过不同行业的专家学者对之进行深入的研究,我们可知多智能体系统用于解决实际问题有很多的优势特点。其主要的优势特点如下:
(1) 在多智能体系统中,每个智能体具有独立性和自主性,能够解决给定的子问题,自主地推理和规划并选择适当的策略,并以特定的方式影响环境。
(2) 多智能体系统支持分布式应用,所以具有良好的模块性、易于扩展性和设计灵活简单,克服了建设一个庞大的系统所造成的管理和扩展的困难,能有效降低系统的总成本;
(3) 在多智能体系统的实现过程中,不追求单个庞大复杂的体系,而是按面向对象的方法构造多层次,多元化的智能体,其结果降低了系统的复杂性,也降低了各个智能体问题求解的复杂性;
(4) 多智能体系统是一个讲究协调的系统,各智能体通过互相协调去解决大规模的复杂问题;多智能体系统也是一个集成系统,它采用信息集成技术,将各子系统的信息集成在一起,完成复杂系统的集成;
(5) 在多智能体系统中,各智能体之间互相通信,彼此协调,并行地求解问题,因此能有效地提高问题求解的能力;
(6) 多智能体技术打破了人工智能领域仅仅使用一个专家系统的限制,在MAS环境中,各领域的不同专家可能协作求解某一个专家无法解决或无法很好解决的问题,提高了系统解决问题的能力;
(7) 智能体是异质的和分布的。它们可以是不同的个人或组织,采用不同的设计方法和计算机语言开发而成,因而可能是完全异质的和分布的。
(8) 处理是异步的。由于各智能体是自治的,每个智能体都有自己的进程,按照自己的运行方式异步地进行。 多智能体系统适合于复杂的、开放的分布式系统。它们通过智能体的合作来完成任务的求解,实现多智能体系统的关键是多个智能体之间的通信和协调。
最具影响力的通信语言是在ARPA主持下研究而成的ACL(智能体Communication Language)语言,它由KIF(Knowledge Interchange Format)和KQML(Knowledge Query and Manipulation Language)等组成。 (01)智能机器人
(02)交通控制
(03)柔性制造
(04)协调专家系统
(05)分布式预测、监控及诊断
(06)分布式智能决策
(07)软件开发
(08)虚拟现实
(09)操作系统
(10)网络自动化与智能化
(11)分式布计算
(12)产品设计
(13)商业管理
(14)网络化的办公自动化
(15)网络化计算机辅助教学及医疗
(16)控制

(3)在游戏开发领域,常用的人工智能算法有哪些?您觉得该如何去打造一个MOBA游戏的算法结构?
提到人工智能,就不能不说说我非常景仰的人工智能之父图灵。他相信如果模拟人类大脑的思维就可以做出一台可以思考的机器,他于1950写文章提出了著名的“图灵测试”,测试是让人类考官通过键盘向一个人和一个机器发问,这个考官不知道他问的是人还是机器。如果在经过一定时间的提问以后,这位人类考官不能确定谁是人谁是机器,那这个机器就有智力了。这个测试在我们想起来十分简单,可是伟大的思想就源于这种简单的事物之中。
然而,图灵的测试也只说明了事物具有了智能的表象,何可谓智能的本质呢,可能当今世上谁也说不清楚。浩浩星空茫茫幻化演变,何可谓智,何可谓能,本就是空。只是以我们人类的认识和想象,无中生有罢了。所以我们谈的智能只能局限于我们人类的认知和想象,抛开了主观,也就只剩客观存在而已。
也正因为我上面的观点,在此我仅讲一些简单的实用的模型,使我们的程序具有一定的智能表象,但绝非智能的本质。希望大家能通过不断的实践进行学习,如果能对大家有些许帮助,就已心满意足。
在这里先说一句非常重要的话,如果你无法用语言描述一个事物,那么你就很难更深入的研究它。在我们计算机程序中,如何为事物建立模型是非常非常重要的,好的模型一旦建立,就已成功一半了。
在这里,我们逐步学习一些的算法模型,逐步建立更好的智能系统,希望大家能够喜欢。

论坛徽章:
32
CU大牛徽章
日期:2013-05-20 10:45:13每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
发表于 2021-06-23 08:49 |显示全部楼层
本帖最后由 jieforest 于 2021-06-30 10:46 编辑

(1)在深度学习中,常用于训练加速的方法有哪些?如何通过分布式的方式对深度学习的参数训练进行大规模加速?
深度学习中,常用于训练加速的方法有GPU加速、数据并行、模型并行等方法。
1)GPU加速
矢量化编程是提高算法速度的一种有效方法。矢量化编程强调单一指令并行操作多条相似数据,从而形成单指令流多数据流的编程范式。深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矢量化的形式。
GPU中通常包含了成千上万的流处理器,可将矢量运算并行化执行,从而大幅缩短计算时间。利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。
2)数据并行
数据并行是指对训练数据做切分,同时采用多个模型实例,对多个分片的数据并行训练。数据并行有同步模式和异步模式之分。同步模式中,所有训练程序同时训练一个批次的训练数据,完成后经过同步,再同时交换参数。参数交换完成后所有的训练程序就有了共同的新模型作为起点,再训练下一个批次。而异步模式中,训练程序完成一个批次的训练数据,立即和参数服务器交换参数,不考虑其他训练程序的状态。异步模式中一个训练程序的最新结果不会立刻体现在其他训练程序中,直到他们进行下次参数交换。
3)模型并行
模型并行是将模型拆分成几个分片,由几个训练单元分别持有,共同协作完成训练。当一个神经元的输入来自另一个训练单元上的神经元的输出时,会产生通信开销。
多数情况下,模型并行带来的通信开销和同步消耗会超过数据并行,因此加速比也不及数据并行。但对于单机内存无法容纳的大模型来说,模型并行是一个很好的选择。
令人遗憾的是,数据并行和模型并行都不能无限扩展。数据并行的训练程序太多时,不得不减小学习率,以保证训练过程的平稳;模型并行的分片太多时,神经元输出值的交换量会急剧增加,效率大幅下降。因此,同时进行模型并行和数据并行也是一种常见的方案。

为了提高深度学习模型的训练效率,减少训练时间,我们普遍会采用分布式技术来执行训练任务,即同时利用多个工作节点,分布式地、高效地训练出性能优良的神经网络模型。分布式技术是深度学习技术的加速器,能够显著提高深度学习的训练效率、进一步增大其应用范围。
分布式深度学习框架中,包括数据/模型切分、本地单机优化算法训练、通信机制、和数据/模型聚合等模块。现有的算法一般采用随机置乱切分的数据分配方式,随机优化算法(例如随机梯度法)的本地训练算法,同步或者异步通信机制,以及参数平均的模型聚合方式。
可以使用SGD算法,随机梯度下降法(SGD)是目前最流行的深度学习的优化算法之一。
可以使用Ensemble-Compression算法:改进非凸模型的聚合方法,参数平均是现有的分布式深度学习算法中非常普遍的模型聚合方法。


(2)在强化学习方面,如何处理多个智能体协同决策?如何在复杂的环境下找出长期路径下的最优策略?
MAS,即Multi-Agent System,多智能体系统,是在同一个环境中由多个交互智能体组成的系统,该系统常用于解决独立智能体以及单层系统难以解决的问题,其中的智能可以由方法、函数、过程,算法或强化学习来实现。
多智能体系统是分布式AI的一个分支,在这个系统中,智能体处在一个不能够进行全局控制或全局学习的环境中,这些智能体可能需要与其它智能体共同协作来达到自己的局部目标。

1)隐式的协作机制
在智能体之间需要相互协商、从而达成最优的联合动作的问题中,个体之间的相互建模,能够为智能体的决策提供潜在的协调机制。在联合动作学习(joint action learner,JAL)方法中,智能体i会基于观察到的其他智能体j的历史动作、对其他智能体j的策略进行建模。在频率最大Q值(frequency maximum Q-value, FMQ)方法中,在个体Q值的定义中引入了个体动作所在的联合动作取得最优回报的频率,从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作,那么所有智能体的最优动作组合被选择的概率也会更高。
JAL和FMQ方法的基本思路都是基于均衡求解法,但这类方法通常只能处理小规模(即智能体的数量较少)的多智能体问题:在现实问题中,会涉及到大量智能体之间的交互和相互影响,而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况。在大规模多智能体学习问题中,考虑群体联合动作的效应,包括当前智能体受到的影响以及在群体中发挥的作用,对于智能体的策略学习是有较大帮助的。
2)显式的协作机制
关于显式的协作机制,可以通过多机器人领域的应用来了解。在现实生活中,多机器人的应用场景主要是通过多个机器人的协作来提升系统的性能和效率,此时多智能体强化学习的关注重点主要在于机器人(智能体)之间的合作。
在移动机器人方面,自主避障导航是底层应用的关键技术,近几年通过强化学习的方法来学习单机器人导航策略这方面的工作成果比较多;而当环境中存在多个移动机器人同时向各自目标点移动的时候,需要进一步考虑机器人之间的相互避碰问题,这也是 MARL 在多机器人导航(multi-robot navigation)领域的主要研究问题。

宾夕法尼亚大学GRASP实验室的科学家们提出,通过策略梯度进行可扩展的集中式深度多智能体强化学习。经过一系列的实验结果表明,随着智能体数量的增长,在性能方面优于当前最先进的多智能体深度强化学习算法。


(3)在游戏开发领域,常用的人工智能算法有哪些?您觉得该如何去打造一个MOBA游戏的算法结构?
游戏中的人工智能为了方便的控制和体现游戏演出效果,一般使用较简单的算法。总体而言,游戏工业中涉及到的人工智能更多的是有多少智能就需要多少人工。

1)寻路方面
* Dijkstra算法:最短路径算法。遍历路径中所有可能的及节点。效率低,没有启发式函数。
* Asta算法:在静态网格中寻找最短路径的算法。有启发式函数。
* Dstar算法:在动态网格中寻找最短路径的算法。有启发式函数
* 启发式函数:是否在寻路的过程中使用一些预估用的函数。
* 动态静态网格:我们在寻路的移动过程中,路径上环境是否会改变。
基于上述的算法。可以修改出带层级的寻路,基于网格的寻路。
2)决策方面:游戏中的NPC决策
* 状态机
* 行为树
* 模糊逻辑
* GOAP:Goal Oriented Action Planning,目标驱动的行动规划

设计MOBA游戏的算法结构很复杂。比如角色,有
基础属性:最大生命、最**力、物理攻击、物理防御、法术防御
成长属性:最大生命、最**力、物理攻击、物理防御、法术防御
技能属性:物理伤害、法术伤害、其他特效伤害(持续掉血、禁锢等)
铭文属性:各种属性都有
装备属性:各种属性都有+辅助属性
......

以上问题挺难的,抛砖引玉吧!






评分

参与人数 1可用积分 +10 收起 理由
飘絮絮絮丶 + 10 很给力!

查看全部评分

论坛徽章:
3
季节之章:冬
日期:2015-01-15 10:36:57IT运维版块每日发帖之星
日期:2015-09-24 06:20:00IT运维版块每日发帖之星
日期:2015-10-24 06:20:00
发表于 2021-06-28 11:56 |显示全部楼层
不懂,,参加不了。。。

论坛徽章:
0
发表于 2021-06-28 16:24 |显示全部楼层
我也占一个位置~

论坛徽章:
3
IT运维版块每日发帖之星
日期:2015-12-05 06:20:00数据库技术版块每日发帖之星
日期:2015-12-05 06:20:00luobin
日期:2016-06-17 17:46:36
发表于 2021-06-29 17:30 |显示全部楼层
再支持一下

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2021-06-30 00:48 |显示全部楼层
mark

论坛徽章:
8
2017金鸡报晓
日期:2017-01-10 15:13:2915-16赛季CBA联赛之天津
日期:2019-06-20 14:25:4015-16赛季CBA联赛之天津
日期:2019-08-20 23:06:5319周年集字徽章-庆
日期:2019-08-27 13:24:4219周年集字徽章-19
日期:2019-09-06 18:55:5019周年集字徽章-年
日期:2019-09-06 18:55:5019周年集字徽章-周
日期:2019-09-20 17:18:2220周年集字徽章-CU
日期:2020-11-11 13:06:03
发表于 2021-07-04 16:49 |显示全部楼层
本帖最后由 aloki 于 2021-07-04 16:54 编辑

(1)在深度学习中,常用于训练加速的方法有哪些?如何通过分布式的方式对深度学习的参数训练进行大规模加速?
在深度学习中,常用于训练加速的方法有:模型结构优化、模型剪枝、模型量化、知识蒸馏、通信机制优化、通信数据量优化、硬件优化。
目前各大主流框架的多GPU分布式训练一般存在两种模式:模型并行和数据并行。模型并行是将模型切分为多个子模块,每个计算设备负责其中一个子模块的计算。数据并行则是对训练数据进行切分,将数据分片分配到不同设备上进行并行计算。随着内存和显存容量的扩大,大部分深度学习模型可以直接存放在单个节点上,以数据并行的方式运行。分布式机器学习系统的核心是参数的同步和更新,而Parameter Server(PS)是目前主流的深度学习系统默认参数同步方案。该方案中包含两类节点,一类是Server,负责存储模型参数;一类是Worker,负责模型计算。

(2)在强化学习方面,如何处理多个智能体协同决策?如何在复杂的环境下找出长期路径下的最优策略?
多智能体强化学习研究的是“多状态,多玩家”问题,数学上一般用马尔科夫博弈描述。OpenAI 公司和伯克利大学研究团队提出的 MADDPG 模型,首先引入了“集中式训练,分布式执行”的思想,既符合马尔科夫博弈模型中智能体需分布式执行的要求,又在训练中建模了智能体联合动作的收益,使智能体学会合作和协同。另一种“多层次学习”的思路由伦敦大学学院和上海交通大学的研究团队提出,它在训练时规定了智能体的行动次序,从而使联合动作收敛到 Stackelberg 均衡,在合作类场景中取得比纳什均衡更高的收益。
强化学习智能体 (agent) 与环境 (environment) 交互,针对序列决策问题,通过试错 (trial-and-error) 的方式学习最优策略。强化学习一般定义为马尔科夫决策过程(Markov Decision Process, MDP). 在每一个时间步骤,智能体接受到一个状态 (state),根据策略 (policy) 选择一个动作 (action),获得奖赏 (reward),然后根据环境的动态模型转移到下一个状态。这里面,策略表达智能体的行为,就是状态到动作的映射。强化学习中,经验 (experience) 是指 (状态,动作,奖赏,下一个状态) 这样一系列的数据。在片段式 (episodic) 的环境中,上述过程一直持续直到遇到终止状态,然后重新开始。在连续性 (continuing) 的环境中,则没有终止状态。用一个折扣因子(discount factor)来表达将来的奖赏对现在的影响。

(3)在游戏开发领域,常用的人工智能算法有哪些?您觉得该如何去打造一个MOBA游戏的算法结构?
游戏中的人工智能为了方便的控制和体现游戏演出效果,一般使用较简单的算法。常用的算法有Dijkstra算法、Asta算法、Dstar算法、状态机、行为树、模糊逻辑等。
MOBA游戏带给我们的主要挑战是1)没有游戏引擎或API,需要通过多目标检测提取特征,并通过终端运行游戏,计算能力较低。然而,计算复杂度可以达到1020,000。(2)延迟奖励和稀疏奖励。游戏的最终目标是摧毁敌人的水晶,这意味着奖励被严重延迟。与此同时,如果根据最终结果的输赢来设置t1 /1,则确实存在稀疏性。(3)多代理。合作与沟通对于RTS游戏非常重要,尤其是对于5v5模式。层次强化学习模型可用于MOBA游戏。在这个层次结构中,agent通过模仿学习来制定宏观策略,通过强化学习来进行微观操作。



评分

参与人数 1可用积分 +10 收起 理由
飘絮絮絮丶 + 10 很给力!

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP