添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
学习
实践
活动
专区
工具
TVP
写文章

深度强化学习实验室

专栏作者
84
文章
105718
阅读量
39
订阅数
【最全总结】离线强化学习(Offline RL)数据集、Benchmarks、经典算法、软件、竞赛、落地应用、核心算法解读汇总
Supported by: Nanjing University and Polixir
深度强化学习实验室
2022-12-31
353 0
【重磅最新】ICLR2023顶会376篇深度强化学习论文得分出炉(376/4753,占比8%)
声明:本文整理自顶会ICLR-2023官方,强化学习相关文章大约共计376篇(376/4753), 占比8%,整理难免有不足之处,还望交流指正。
深度强化学习实验室
2022-12-31
1.7K 0
【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)
https://www.deepmind.com/publications/active-offline-policy-selection
深度强化学习实验室
2022-12-31
185 0
【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法
强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题,能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理,因为过多的数学可能会让不少读者望而生畏。
深度强化学习实验室
2022-09-23
386 0
【DeepNash智能体】DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准
我们介绍了 DeepNash,一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体,直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树,大约有 10535 个节点,比围棋大 10175 倍。它具有额外的复杂性,需要在不完全信息下进行决策,类似于德州扑克,它的游戏树要小得多(大约 10164 个节点)。Stratego 中的决策是根据大量离散的行动做出的,行动和结果之间没有明显的联系。情节很长,在玩家获胜之前通常需要数百步棋,并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。由于这些原因,Stratego 几十年来一直是 AI 领域的一项重大挑战,现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法,无需搜索,通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分,通过直接修改底层多智能体学习动力学,收敛到近似纳什均衡,而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法,并在 Gravon 游戏平台上获得了年度(2022 年)和历史前三名,与人类专家玩家竞争。
深度强化学习实验室
2022-09-23
419 0
【万字专栏总结】离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等)
强化学习发展的特别早,但一直不温不火,其中Sutton老爷子早在1998年就写了强化学习领域的圣经书籍:An Introduction : Reinforcement Learning ,但也并未开启强化学习发展的新局面。直到2012年,深度学习广泛兴起,大规模的神经网络被成功用于解决自然语言处理,计算机视觉等领域,人工智能的各个方向才开始快速发展,强化学习领域最典型的就是2013年DeepMind公司的Volodymyr Mnih发表Playing Atari with Deep Reinforcement Learning(DQN技术),可以说开启了深度强化学习技术发展的新高潮,2015年该论文的加强版Human-level control through deep reinforcement learning 登上Nature, 以及2016年Nature上的AlphaGo: Mastering the game of Go with deep neural networks and tree search 充分证明了深度强化学习技术的发展潜力。
深度强化学习实验室
2022-09-23
1.5K 0
【经验】深度强化学习训练与调参技巧
来源:知乎(https://zhuanlan.zhihu.com/p/482656367)
深度强化学习实验室
2022-09-23
580 0
【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL
Ziniu Li, Yingru Li, Yushun Zhang, Tong Zhang, and Zhi-Quan Luo. HyperDQN: A Randomized Exploration Method for Deep Reinforcement Learning. In Proceedings of 10th International Conference on Learning Representations, 2022.
深度强化学习实验室
2022-09-23
191 0
【Richard S. Sutton】谈 The Bitter Lesson(AI 研究中痛苦的教训)
从 70 年的 AI 研究中可以读出的最大教训是,利用计算的一般方法最终是最有效的,而且幅度很大。造成这种情况的最终原因是摩尔定律,或者更确切地说是它对每单位计算成本持续呈指数下降的概括。大多数 AI 研究已经进行,就好像智能体可用的计算是恒定的(在这种情况下,利用人类知识将是提高性能的唯一方法之一),但是,在比典型研究项目稍长的时间里,大量的计算量不可避免地变得可用。为了寻求在短期内产生影响的改进,研究人员试图利用他们对该领域的人类知识,但从长远来看,唯一重要的是利用计算。这两者不需要相互对立,但在实践中它们往往会发生冲突。花在一个上的时间是没有花在另一个上的时间。对一种方法或另一种方法的投资存在心理承诺。人类知识方法往往会使方法复杂化,使其不太适合利用利用计算的一般方法。有很多人工智能研究人员迟来的惨痛教训的例子,回顾一些最突出的例子是有启发性的。
深度强化学习实验室
2022-09-23
274 0
【47页综述】牛津大学联合7家单位发布AutoRL综述,还在手动调参吗?你已经落后了
强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的壮举,许多人认为(深度)强化学习提供了通向通用智能体的途径。然而,RL 智能体的成功通常对训练过程中的设计选择高度敏感,这可能需要繁琐且容易出错的手动调整。这使得将 RL 用于新问题变得具有挑战性,同时也限制了它的全部潜力。在机器学习的许多其他领域,AutoML 已经表明可以自动化此类设计选择,并且在应用于 RL 时也产生了有希望的初步结果。然而,自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用,还包括 RL 独有的额外挑战,这些挑战自然会产生一组不同的方法。因此,AutoRL 已成为 RL 研究的一个重要领域,为从 RNA 设计到围棋等游戏的各种应用提供了希望。鉴于 RL 中考虑的方法和环境的多样性,许多研究都是在不同的子领域进行的,从元学习到进化。在本次调查中,我们寻求统一 AutoRL 领域,提供通用分类法,详细讨论每个领域并提出未来研究人员感兴趣的开放问题
深度强化学习实验室
2022-09-23
173 0
【重磅】Gym发布 8 年后,迎来第一个完整环境文档,强化学习入门更加简单化!
OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。 它与其他的数值计算库兼容,如pytorch、tensorflow 或者theano 库等。现在主要支持的是python 语言
深度强化学习实验室
2022-09-23
499 0
重磅推荐【Pettingzoo】类似gym的多Agent强化学习的环境(61类环境),史上最全!
http://deeprl.neurondance.com/d/465-pettingzoogymagent
深度强化学习实验室
2022-09-23
325 0
【总结】为什么对累积奖励减去baseline项能起到减小方差的作用?
很多论文的工作都专注于减少policy gradient的方差,以得到更加优质且稳定的policy。其中一项最经典的工作就是对policy gradient的累积奖励减去一个baseline,但为什么减去一个baseline就可以达到减小方差,同时又不引入偏差的效果呢?
深度强化学习实验室
2022-09-23
146 0
【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程
模仿学习,是一种从专家示例中进行学习的方法。这里专家示例指的是由最优(或者次优)策略采集到的状态-动作序列,智能体便是通过模仿专家示例来学习策略。模仿学习主要包含两大类算法框架:行为克隆和对抗式模仿学习。基于这两种算法框架,研究者们提出了各种各样的模仿学习算法,在实验中取得了很好的效果。尽管已经有很多对模仿学习算法的实验研究,关于模仿学习算法的理论分析直到最近才被逐步建立和完善。这些理论结果很好地解释了算法的实验现象,并且对今后的算法设计也有启发。 模仿学习简要教程着重从统计学习理论的角度来介绍模仿学习算法,能使读者对模仿学习算法有深刻的理解,使读者能够通过借助理论来分析已有的实验结果、并且设计更好的算法。
深度强化学习实验室
2022-09-23
167 0
【Mava】一个分布式多智能体强化学习研究框架
Mava 是一个用于构建多智能体强化学习 (MARL) 系统的库。Mava 为 MARL 提供了有用的组件、抽象、实用程序和工具,并允许对多进程系统训练和执行进行简单的扩展,同时提供高度的灵活性和可组合性。
深度强化学习实验室
2021-08-10
1.2K 0
【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)
人们普遍认为,将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力,表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起,已经有几种 方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展,在ALE 基准测试中实现了最先进的性能. 然而,这一进步带来了非常高的计算成本,不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。
深度强化学习实验室
2021-07-16
313 0
强化学习 | 基于Novelty-Pursuit的高效探索方法
Li, Ziniu, and Xiong-Hui Chen. “Efficient Exploration by Novelty-Pursuit.” International Conference on Distributed Artificial Intelligence, 2020, pp. 85–102.
深度强化学习实验室
2021-07-16
370 0
【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库
目前,深度强化学习(DRL)技术在游戏等领域已经取得了巨大的成功,同时在量化投资中的也取得了突破性进展,为了训练一个实用的DRL 交易agent,决定在哪里交易,以什么价格交易以及交易的数量,这是一个具有挑战性的问题,那么强化学习到底如何与量化交易进行结合呢?下图是一张强化学习在量化交易中的建模图:
深度强化学习实验室
2021-03-17
2.7K 0
【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
近年来,人工智能(AI)在强化学习算法的加持下,取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中,AI 都有着世界冠军级的表现,以及在机器人跑步、跳跃和抓握等技能的自主学习方面,也起到了显著的推动作用。
深度强化学习实验室
2021-03-17
1.1K 0
【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。
元学习作为一种增加强化学习的灵活性和样本效率的方法,科研学者对此的关注兴趣迅速增长。然而,该研究领域中的一个问题是缺乏足够的基准测试任务。通常,过去基准的基础结构要么太简单以至于无法引起兴趣,要么就太不明确了以至于无法进行有原则的分析。在当前的工作中,DeepMind科学家介绍了用于元RL研究的新基准:Alchemy,该基准是将结构丰富性与结构透明性相结合。它是在Unity中实现的3D视频游戏,涉及潜在的因果结构,该过程都经过程序重新采样,从而提供了结构学习,在线推理,假设测试以及基于抽象领域知识的动作排序。并在Alchemy上评估了一对功能强大的RL方法,并对这些方法进行了深入分析。结果清楚地表明,Alchemy作为元RL的挑战性基准提供了验证。
深度强化学习实验室
2021-02-26
483 0
点击加载更多
关注 - 腾讯云 开发者 公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
扫码关注腾讯云开发者
活动推荐
社区活动
【玩转 GPU】有奖征文
精美礼品等你拿!
腾讯云自媒体分享计划
入驻社区,可分享总价值百万资源包
邀请好友加入自媒体分享计划
邀请好友,同享奖励 30 / 100 / 180 元云服务器代金券
立即邀请
领券