添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
爱搭讪的烤土司  ·  Error: Unknown ...·  7 月前    · 
忐忑的显示器  ·  在Spring ...·  1 年前    · 
成熟的黄豆  ·  Visual Studio 2019 版本 ...·  1 年前    · 
本文探讨了强化学习模型不收敛的常见问题,如数据质量问题、探索不足、环境复杂、奖励设置不合理等,提出优先经验回放和调整奖励策略。特别强调了在多智能体强化学习中的局部可观测性问题,以及选择和调整基础算法的重要性。 摘要由CSDN通过智能技术生成

强化学习模型不收敛可能的问题及改进方向

  • 数据太脏;
  • 状态and/or动作空间大。探索不够,采样不到足够多的正负例;
  • 环境太复杂,而经验回放库设置过小。若迫于内存原因,无法使用太大的经验回放库,可以使用优先经验回放的方法,优先存储更重要的样本;
  • 奖励设置不好。智能体难以获得正向的奖励,导致智能体觉得:与其获得负奖励不如"摆烂"。因此,我们需要适当的调整奖励,只要往好的方向前进,就应该给予适当的奖励。需要充分考虑不好的情况,并给予不同程度的惩罚;
  • 多智能体强化学习(MADRL)中,由于局部可观测特性,本身就容易不稳定。设计MADRL算法,需要注意:避免相同的(s,a)也就是状态动作对下,给予相同的奖励。若没有遵守这个原则,那么你的MADRL训练中,环境其实是在变化的,导致网络难以收敛;
  • 基础的算法网络不好。例如,你用最简单的DQN去训练智能体打网球。每个基础的DRL算法,都有自己的局限性,需要选择适当的基础算法,并结合所学环境进行适当的改动;
  • …(持续更新)

暂时想到这里了。

其他的改进方向欢迎大家在评论区补充 (*^▽^*)

对于随机性策略(PPO等)可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升,策略变得越来越确定,此时熵应该是随着逐渐降低的,熵曲线趋于平缓。 2. loss指标(网络 收敛 好坏) 这是DL中的直观指标,虽然不能直接用在DRL来说明策略好坏,但loss是在一直下降还是已经趋于平缓了,可以一定程度上说明网络 模型 的学习程度,看 模型 是“学会了”还是“学废了”,趋于平缓可能就是已经训练差不多了,当然“训练差不多”不代表“策略最优”,有些可能loss还在掉,但 数据量过大,而 模型 过小。 学习率设置过大,导致了loss震荡,进而导致 模型 无法 收敛 。 数据分布较为复杂,没有进行归一化设置,导致每次迭代 模型 都往不同的 方向 上优化。 可能出现了梯度爆炸或者梯度消失,可以看梯度消失和梯度爆炸的解决方法. 代码是不是有bug,导致迭代的时候优化器没有进行参数的更新。 (1)训练数据中没有标签,只有奖励函数(Reward Function)。 (2)训练数据不是现成给定,而是由行为(Action)获得。 (3)现在的行为(Action)不仅影响后续训练数据的获得,也影响奖励函数(Reward Function)的取值。 (4)训练的目的是构建一个“状态->行为”的函数,其中状态(State)描述了目前内部和外部的环境,在此情况下,要使一个智能体(Agent)在某个特定的状态下,通过这个函数,决定此时应该采取的行为。希望采取这些行为后,最终
很多同学会发现,为什么我训练网络的时候loss一直居高不下或者准确度时高时低,震荡趋势,一会到11,一会又0.1,不 收敛 。 又不知如何解决,博主总结了自己训练经验和看到的一些方法。 首先你要保证训练的次数够多,不要以为一百两百次就会一直loss下降或者准确率一直提高,会有一点震荡的。只要总体 收敛 就行。若训练次数够多(一般上千次,上万次,或者几十个epoch)没 收敛 ,则试试下面方法: 1. 数据...
(1)深度推荐 模型 的前沿趋势, 强化学习 (Reinforcement Learning,又叫增强学习)与深度推荐 模型 的结合。 强化学习 的大体过程:通过训练一个智能体(它与环境交互,不断学习并强化自己的智力),从而指导自己的下一步行为,取得最大的预期收益。可见其优势—— 模型 能够实时更新,用户行为快速反馈等。 (2) 强化学习 的落地不容易,工程量巨大(涉及到了 模型 训练、线上服务、数据收集、实时 模型 更新等几乎推荐系统的所有工程环节)。不像之前学过的深度学习 模型 ,只要重新训练一下它,就可以 改进 一个 模型 结构。本次
收敛 困难,调参困难。 DRL算法通常需要海量的Agent和环境的交互数据,而这些数据只有在模拟场景下(游戏)才很充足并且廉价,想象一下自动驾驶和机器人领域,如果拿真的汽车和机器人去做Action,万一是负奖赏的Action,那损失也太大点了。 奖赏函数需要定义的很准确,这其实很难。 最重要的是:很多应用,比较成熟的方法效果都不比DRL差,所以公司不愿意去冒这个风险吧。
一、联邦 强化学习 介绍 强化学习 (RL)是 机器学习 的一个分支,主要研究序列决策问题, 强化学习 系统通常由一个动态环境和与环境进行交互的一个或多个智能体(agent)组成。智能体根据当前环境条件选择动作决策,环境在智能体决策的影响下发生相应改变,智能体可以根据自身的决策以及环境的改变过程得出奖励。 对于智能体的周期,智能体首先会观察环境的状态,然后基于这个状态选择动作,同时智能体期望根据所选的动作从环境中得到奖励,智能体的奖励与其上一步的状态、下一步状态和所做出的决策等因素有关。因此,智能体会在【状态-动作-奖励