强化学习模型不收敛的改进方向_强化学习不收敛_link之家

添加链接

注册登录

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

爱搭讪的烤土司 · Error: Unknown ...· 7 月前 ·

忐忑的显示器 · 在Spring ...· 1 年前 ·

沉着的回锅肉 · 如何使用Java8按字段分组并统计非空字段的数量？· 1 年前 ·

成熟的黄豆 · Visual Studio 2019 版本 ...· 1 年前 ·

非常酷的钥匙扣 · python中不完整的gamma函数？· 1 年前 ·

本文探讨了强化学习模型不收敛的常见问题，如数据质量问题、探索不足、环境复杂、奖励设置不合理等，提出优先经验回放和调整奖励策略。特别强调了在多智能体强化学习中的局部可观测性问题，以及选择和调整基础算法的重要性。摘要由CSDN通过智能技术生成

强化学习模型不收敛可能的问题及改进方向

数据太脏；
状态and/or动作空间大。探索不够，采样不到足够多的正负例；
环境太复杂，而经验回放库设置过小。若迫于内存原因，无法使用太大的经验回放库，可以使用优先经验回放的方法，优先存储更重要的样本；
奖励设置不好。智能体难以获得正向的奖励，导致智能体觉得：与其获得负奖励不如"摆烂"。因此，我们需要适当的调整奖励，只要往好的方向前进，就应该给予适当的奖励。需要充分考虑不好的情况，并给予不同程度的惩罚；
多智能体强化学习(MADRL)中，由于局部可观测特性，本身就容易不稳定。设计MADRL算法，需要注意：避免相同的（s,a）也就是状态动作对下，给予相同的奖励。若没有遵守这个原则，那么你的MADRL训练中，环境其实是在变化的，导致网络难以收敛；
基础的算法网络不好。例如，你用最简单的DQN去训练智能体打网球。每个基础的DRL算法，都有自己的局限性，需要选择适当的基础算法，并结合所学环境进行适当的改动；
…(持续更新)

暂时想到这里了。

其他的改进方向欢迎大家在评论区补充 (*^▽^*)

对于随机性策略（PPO等）可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升，策略变得越来越确定，此时熵应该是随着逐渐降低的，熵曲线趋于平缓。 2. loss指标（网络收敛好坏）这是DL中的直观指标，虽然不能直接用在DRL来说明策略好坏，但loss是在一直下降还是已经趋于平缓了，可以一定程度上说明网络模型的学习程度，看模型是“学会了”还是“学废了”，趋于平缓可能就是已经训练差不多了，当然“训练差不多”不代表“策略最优”，有些可能loss还在掉，但数据量过大，而模型过小。学习率设置过大，导致了loss震荡，进而导致模型无法收敛。数据分布较为复杂，没有进行归一化设置，导致每次迭代模型都往不同的方向上优化。可能出现了梯度爆炸或者梯度消失，可以看梯度消失和梯度爆炸的解决方法. 代码是不是有bug，导致迭代的时候优化器没有进行参数的更新。（1）训练数据中没有标签，只有奖励函数（Reward Function）。（2）训练数据不是现成给定，而是由行为（Action）获得。（3）现在的行为（Action）不仅影响后续训练数据的获得，也影响奖励函数（Reward Function）的取值。（4）训练的目的是构建一个“状态->行为”的函数，其中状态（State）描述了目前内部和外部的环境，在此情况下，要使一个智能体（Agent）在某个特定的状态下，通过这个函数，决定此时应该采取的行为。希望采取这些行为后，最终

很多同学会发现，为什么我训练网络的时候loss一直居高不下或者准确度时高时低，震荡趋势，一会到11，一会又0.1，不收敛。又不知如何解决，博主总结了自己训练经验和看到的一些方法。首先你要保证训练的次数够多，不要以为一百两百次就会一直loss下降或者准确率一直提高，会有一点震荡的。只要总体收敛就行。若训练次数够多（一般上千次，上万次，或者几十个epoch）没收敛，则试试下面方法： 1. 数据...

（1）深度推荐模型的前沿趋势， 强化学习 （Reinforcement Learning，又叫增强学习）与深度推荐模型的结合。 强化学习 的大体过程：通过训练一个智能体（它与环境交互，不断学习并强化自己的智力），从而指导自己的下一步行为，取得最大的预期收益。可见其优势—— 模型能够实时更新，用户行为快速反馈等。（2） 强化学习 的落地不容易，工程量巨大（涉及到了模型训练、线上服务、数据收集、实时模型更新等几乎推荐系统的所有工程环节）。不像之前学过的深度学习模型，只要重新训练一下它，就可以改进一个模型结构。本次

收敛困难，调参困难。 DRL算法通常需要海量的Agent和环境的交互数据，而这些数据只有在模拟场景下（游戏）才很充足并且廉价，想象一下自动驾驶和机器人领域，如果拿真的汽车和机器人去做Action，万一是负奖赏的Action，那损失也太大点了。奖赏函数需要定义的很准确，这其实很难。最重要的是：很多应用，比较成熟的方法效果都不比DRL差，所以公司不愿意去冒这个风险吧。

一、联邦 强化学习 介绍 强化学习 （RL）是 机器学习 的一个分支，主要研究序列决策问题， 强化学习 系统通常由一个动态环境和与环境进行交互的一个或多个智能体（agent）组成。智能体根据当前环境条件选择动作决策，环境在智能体决策的影响下发生相应改变，智能体可以根据自身的决策以及环境的改变过程得出奖励。对于智能体的周期，智能体首先会观察环境的状态，然后基于这个状态选择动作，同时智能体期望根据所选的动作从环境中得到奖励，智能体的奖励与其上一步的状态、下一步状态和所做出的决策等因素有关。因此，智能体会在【状态-动作-奖励

推荐文章

爱搭讪的烤土司 · Error: Unknown option: .preset. Check out https://babeljs.io/docs/en/babel-core/#options for more in

7 月前

忐忑的显示器 · 在Spring Boot的上下文中，查询大型CSV是否有最佳实践？

1 年前

沉着的回锅肉 · 如何使用Java8按字段分组并统计非空字段的数量？

1 年前

成熟的黄豆 · Visual Studio 2019 版本 16.11 发行说明 | Microsoft Learn

1 年前

非常酷的钥匙扣 · python中不完整的gamma函数？

1 年前

今天看啥 · Py中国 · codingpro · 小百科 · link之家 · 卧龙AI搜索

删除内容请联系邮箱 2879853325@qq.com

link之家 - 链接快照平台

© 2024 ~ 沪ICP备11025650号