AI创想

标题: 强化学习—多智能体 [打印本页]

作者: 米落枫    时间: 12 小时前
标题: 强化学习—多智能体
作者:Tony Wey
强化学习—多智能体


多智能体强化学习

多智能体强化学习(Multi-Agent Reinforcement Learning, MARL) 是强化学习(RL)的一类扩展,专注于多个智能体(agents)在共享的环境中学习和决策的场景。与单智能体强化学习不同,多智能体强化学习需要考虑智能体之间的相互作用、协作与竞争等复杂因素。
基本概念

在多智能体环境中,通常有多个智能体同时存在,它们在同一个环境中感知、行动并获得各自的奖励。每个智能体的行为不仅影响自己的奖励,还可能影响其他智能体的行为和奖励。因此,环境的动态性大大增加。
多智能体强化学习中有几种主要的场景:
多智能体强化学习的挑战

主要方法与算法

应用领域

多智能体强化学习被广泛应用于以下领域:
总结

多智能体强化学习是强化学习中的一个重要分支,涉及多个智能体在动态和交互的环境中学习和决策。它面临着挑战,如非稳定性、维度灾难以及智能体之间的协作与竞争。然而,随着算法的不断进步,MARL 在多个复杂应用领域中显示出巨大的潜力和前景。
如果有更多的具体问题或需要深入讨论某个方面,欢迎继续提问!
纳什均衡

Nash Equilibrium(纳什均衡) 是博弈论中的一个核心概念,用来描述在一个多人参与的博弈中,各个参与者(玩家)在已知其他玩家策略的情况下,无法通过单方面改变自己的策略来获得更好的收益。这意味着在纳什均衡状态下,每个玩家的策略都是对其他玩家策略的最佳回应。
基本定义

在一个包含多个玩家的博弈中,每个玩家都有一个策略集                                        Σ                         i                                  \Sigma_i               Σi​,以及对应的收益函数                                       u                         i                              (                               σ                         1                              ,                               σ                         2                              ,                      …                      ,                               σ                         n                              )                          u_i(\sigma_1, \sigma_2, \dots, \sigma_n)               ui​(σ1​,σ2​,…,σn​),其中                                        σ                         i                                  \sigma_i               σi​表示玩家 i 选择的策略。纳什均衡可以形式化地定义为:
一个策略组合 (                                       σ                         1                         ∗                              ,                               σ                         2                         ∗                              ,                      …                      ,                               σ                         n                         ∗                                  \sigma_1^*, \sigma_2^*, \dots, \sigma_n^*               σ1∗​,σ2∗​,…,σn∗​)是一个纳什均衡, 如果对于每一个玩家i,有:
                                             u                            i                                  (                                   σ                            2                            ∗                                  ,                         …                         ,                                   σ                            i                            ∗                                  ,                         …                         ,                                   σ                            n                            ∗                                  )                         ≥                                   u                            i                                  (                                   σ                            1                            ∗                                  ,                                   σ                            2                            ∗                                  ,                         …                         ,                                   σ                            i                                  ,                         …                         ,                                   σ                            n                            ∗                                  )                               u_{i}(\sigma_2^*, \dots, \sigma_i^*, \dots, \sigma_n^*) \geq u_i(\sigma_1^*, \sigma_2^*, \dots, \sigma_i, \dots, \sigma_n^*)                   ui​(σ2∗​,…,σi∗​,…,σn∗​)≥ui​(σ1∗​,σ2∗​,…,σi​,…,σn∗​)
这表示玩家 i 的最优策略                                        σ                         i                         ∗                                  \sigma_i^*               σi∗​ 给出的收益不小于在其他所有策略                                        σ                         i                                  \sigma_i               σi​ 下得到的收益,前提是其他玩家都保持他们的均衡策略不变。
直观理解

纳什均衡的一个简单例子是经典的“囚徒困境”:
在这个例子中,招供是每个嫌疑人的纳什均衡策略,因为如果假设对方已经选择了招供,那么无论自己选择什么,结果都会更差(沉默得到 10 年,而招供只有 5 年)。因此,两个嫌疑人都会选择招供,尽管这对他们整体而言并不是最优的选择。
特点

应用领域

纳什均衡在许多领域都有广泛应用,包括:
计算方法

总结

纳什均衡是博弈论中描述策略稳定性的重要概念。在纳什均衡下,每个玩家的策略都是最佳回应,没有人有动力去单方面改变自己的策略。尽管纳什均衡在某些情况下并不一定是全局最优的策略组合,但它在解释和预测多方互动中的行为方面具有广泛的应用和影响。
如果你有其他问题或需要进一步探讨,请随时告知!
笔记

四种常见设定

多智能体下的基本概念

(, 下载次数: 0)


(, 下载次数: 0)


(, 下载次数: 0)


(, 下载次数: 0)

(, 下载次数: 0)


(, 下载次数: 0)

(, 下载次数: 0)


单智能体的策略学习:
判断网络收敛的标准是函数J的值停止上升。
(, 下载次数: 0)


多智能体策略学习:
判断收敛的标准是:纳什均衡
(, 下载次数: 0)


单智能体策略梯度方法用在多智能体问题中的问题

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)


(, 下载次数: 0)


(, 下载次数: 0)


(, 下载次数: 0)


多智能体强化学习(中心化、去中心化)

架构

局部观测

(, 下载次数: 0)


完全去中心化

本质是单智能体的策略学习

(, 下载次数: 0)

(, 下载次数: 0)


完全中心化

训练和决策都需要中央控制器来操作。每个agent没有自己的策略网络和价值网络。
训练时:
(, 下载次数: 0)


执行时:
(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)


缺点:
(, 下载次数: 0)


中心化训练去中心化执行

训练需要中央控制器来操作。每个agent有自己的策略网络,但是价值网络都在中央控制器上。中央控制器只是用来帮助训练的,执行动作都是每个agent用自己训练好的策略网络结合自己的局部观测来决策。
训练时:
(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)


执行时:
(, 下载次数: 0)


共享参数

是否共享参数取决于具体应用。每个智能体功能不同,则不共享参数;若功能都相同可以相互替换,则可以共享参数。
(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)


总结

(, 下载次数: 0)

(, 下载次数: 0)


(, 下载次数: 0)

(, 下载次数: 0)



原文地址:https://blog.csdn.net/qq_38023194/article/details/141155281




欢迎光临 AI创想 (https://www.llms-ai.com/) Powered by Discuz! X3.4