“
SFFAI105期来自清华大学的
翁文涛
推荐的文章主要关注于
基础研究的强化学习
领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。
”
关注文章公众号
回复"
SFFAI105
"获取本主题精选论文
推荐理由:
使用ODE方法研究强化学习收敛性的开创文章。是这一领域的必读文献。
推荐理由:
该文章分析了带函数近似的TD学习的收敛性。其中的许多建模与证明思想对现在的强化学习理论产生了深远的影响。
推荐理由:
该文章将控制论中的Lyapunov分析思想巧妙地引入到了强化学习的理论分析中,开启了一大片研究方向。
推荐理由:
该文章全面的介绍了如何使用随机近似理论分析Q-学习,并提出了改进Q-学习均方误差的方法。
推荐理由:
该文章介绍了如何从理论上精准地计算线性随机近似方法的均方误差。
推荐理由:
该文章首次刻画了表格型双Q-学习在有限时间内均方误差的收敛速度。
强化学习近年来在控制、机器人、自动驾驶、多智能体、在线决策等领域得到了广大的发展。但这些成功大多基于实验上的探索,缺乏数学上的性能保障。因此,从理论上理解强化学习算法的稳定性与收敛性显得尤为重要。双Q-学习就是这样一个例子。双Q-学习被提出以解决Q-学习的不稳定性问题,作为一个启发式算法在实践中得到有效的应用。但人们对其收敛性质与收敛速度的理解非常有限。理论地证明双Q-学习的有效性或找到双Q-学习存在的不足能帮助研究人员更好地了解并进而设计更有效的强化学习算法。
翁文涛,
清华大学姚班大四在读。主要研究兴趣为大规模随机系统中的算法与设计,研究问题包括云上的调度问题、按需服务平台、以及强化学习理论。
双Q-学习的均方误差
本文在理论上严格比较了双Q-学习和Q-学习均方误差。基于最优策略的唯一性和算法的收敛性假设,本文基于线性随机近似理论对Q-学习和双Q-学习的Lyapunov方程进行了分析。该分析对表格型和带线性函数近似的情况均成立。我们证明了当双Q-学习的学习率为Q-学习的学习率的两倍,且输出其两个值函数估计的平均值时,渐近意义上双Q-学习的均方误差与Q-学习的均方误差是一致的。我们使用仿真实验进一步提供了该理论结果的实际意义。
论文标题:
The Mean-Squared Error of Double Q-Learning
论文下载:
关注本公众号,对话框回复“
SFFAI105
”,获取下载
会议
亮点
1、本文首次严格给出双Q学习准确的渐进意义上的均方误差;
2、本文提供了以渐进均方误差为指标比较两种强化学习方法的理论框架;
3、本文根据文中的理论发现,提出了改进双Q学习均方误差的简单方法。
2021年5月9日(周日)20:00—21:00 线上直播
关注本公众号,对话框回复
“SFFAI105
”,获取入群二维码
注:直播地址会分享在交流群内
SFFAI招募!
现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest,通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献,欢迎大家关注SFFAI论坛:https://bbs.sffai.com。
更多论文推荐历史文章
请点击文章底部“
阅读原文
”查看
分享、点赞、在看,给个三连击呗!
论文推荐“SFFAI105期来自清华大学的翁文涛推荐的文章主要关注于基础研究的强化学习领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。”关注文章公众号回复"SFFAI...
Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.
Gerald Tesauro. Temporal difference learning and TD-gammon. Communications of the ACM, 38(3):58–68, 1995....
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
Deep-Q-Network 学习笔记
https://www.cnblogs.com/cjnmy36723/p/7017549.html
强化学习
和自适应控制
https://www.cnblogs.com/qpswwww/p/9337740.html
贪心
算法
https://blog.csdn.net/gaoruowen1/article/detail
文章目录2020REINFORCED ACTIVE LEARNING FOR IMAGE SEGMENTATION
REINFORCED ACTIVE LEARNING FOR IMAGE SEGMENTATION
code: https://github.com/ArantxaCasanova/ralis
基于学习的语义分割方法有两个固有的挑战。首先,获取像素级标签是昂贵和耗时的。其次,真实的分割数据集是高度不平衡的:一些类别比其他类别要丰富得多,从而使性能偏向于最具代表性的类别。在本文中
强化学习
是
机器学习
中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
本期Aminer特推出20
篇
强化学习
必读
论文
。
1.Emergent Tool Use From Multi-Agent Autocurricula
链接:https://w...
在深度
强化学习
领域,以下三
篇
论文
是
必看
的:
1. "Playing Atari with Deep Reinforcement Learning" by Volodymyr Mnih et al. 这
篇
论文
首次将深度
强化学习
应用于Atari游戏,成功地实现了从像素级别的输入学习到游戏策略。这个方法被称为深度Q网络(DQN),它是深度
强化学习
的里程碑之一。
2. "Human-Level Control through Deep Reinforcement Learning" by Volodymyr Mnih et al. 这
篇
论文
进一步改进了DQN
算法
,提出了一种叫做Double Q-learning的方法,通过解决DQN中的过估计问题,实现了更稳定和高效的学习。
3. "Mastering the game of Go with deep neural networks and tree search" by David Silver et al. 这
篇
论文
介绍了AlphaGo,它是一个通过深度神经网络和蒙特卡洛树搜索相结合的方法,在围棋领域取得了突破性的成果。这个方法在深度
强化学习
的研究中具有重要的意义。
这三
篇
论文
分别介绍了深度
强化学习
在不同领域的应用,对于
了解
深度
强化学习
的基本原理和方法都非常有帮助。<span class="em">1</span>