ChatGPT 的优秀表现使得业内学者们重新开始关注强化学习,ChatGPT 是 在 GPT-3 上使用人类反馈强化学习 (RLHF) 来强化对人类指令的识别。ChatGPT 能理解并生成文字,属于 AIGC(AI-Generated Content,人工智能 生产内容)技术应用中的文本生成模态应用模型。
作为 AIGC 另外一个成功落地的优秀分支,AI 绘画(文生图)近两年持续 火爆。AI 绘画背后用到的核心技术 Diffusion Model(扩散模型),是深度生成 模型中新的 SOTA,而目前有关它的理论和实践还在“野蛮生长”阶段,缺乏系 统性的回顾。
为帮助相关人员把握强化学习和扩散模型的发展趋势,理解强化学习和扩散 模型技术要点与项目问题解决方案,我公司决定举办《强化学习与扩散模型专题 培训班》,欢迎大家踊跃参加。
一、培训时间与地点:
时间:2023 年 4 月 10 日—4 月 20 日 (上课时间 11 天,每天晚上 3 小时,晚上 19:00-22:00)
地点:钉钉直播
二、主要内容:(详见内容安排表) 时间 内容 价格
4.10 -4.14(15 学时) 强化学习 2490 元/人
4.15-4.20(18 学时) AIGC 与扩散模型 3480 元/人
如果两科同时学习,培训费用 4980 元/人。
三、参加对象:银行、保险、证券等金融领域及相关院校、研究院所的从事信息科技应用、数据分析 应用的领导和技术人员等。
四、主讲师资(邹博):
邹伟 睿客邦创始人、国内资深 AI 专家,兼备大学老师和企业 CEO 双重身份,擅长利用 AI 技术解决工业、工程中的 复杂问题。邹老师担任华东建筑设计研究总院研究员、山东交通学院 客座教授、南昌航空大学硕士生导师、中国软件行业协会 专家委员、天津大学创业导师中华中医药学会会员;近几年带队与全国二十多所高校、国企建立了 AI 联合实 验室,完成 50 多个深度学习实践项目广泛应用于医疗、 交通、农业、气象、银行、电信等多个领域,内容不仅包 括深度学习、机器学习、数据挖掘等具体技术要点,也包括 AI 的整体发展、现状、应用、 商业价值、未来方向等,涵盖内容非常丰富;邹老师出版 8 本人工智能领域的著作,数十所大学将其作为研究生教材使用,同时这些著 作也被多家大学引进图书馆名录。
五、学习收益 课程体系完整,案例丰富。涵盖强化学习+扩散模型两大知识模块,实战案例丰富。直播+回看,外加群答疑 在线直播课,提供 1 年检回放便于巩固复习。同时建立微信群,训练营期间分享嘉宾 群内答疑解惑,保证学习知识的转化和吸收。配套教学资源免费赠送 课程教材、相关源代码、数据、PPT、案例素材等全部免费提供,教研教学更轻松
强化学习与扩散模型
第一讲:扩散模型 第一节:扩散模型-DDPM 系列方法-图像编辑
DM 扩散和去噪(Diffusion&Denoise)
训练和采样(Training&Sampling)
离散步骤的马尔可夫链
分子热动力学的扩散过程
DDPM-最经典的扩散模型
DDIM:加速采样、可控扩散
IVLR:迭代去燥的图像编辑,低通滤波上采样
RePaint: 被掩码的区域进行扩散生成
代码和案例实践一:
低质量噪声图像修复
精确复原原图 图像去除遮挡、
图像补全 图像生成(人物恢复青春、人物变瘦)
第二节:引导扩散模型-图文引导图像生成
图像引导、文本引导、图像+文本引导
CLIP和扩散模型的结合:基于CLIP模型的多模态引导图像生成:图文引导 GLIDE:文本引导
DALL·E
DALL·E 2:diffusion model和CLIP结合在一起
隐式分类器引导的图像生成
Blended Diffusioni模型
Diffusion-CLIP模型
DiffEdit模型
代码和案例实践二:
分别实现图像引导、文字引导、图文引导下的图片生成
第三节:扩散模型-可控自然语言生成
可控语言生成任务
Diffusion LM
代码和案例实践三:
句子填充任务
第四节:由“万有引力定律”启发:“泊松流”扩散模型(PFGM)
万有引力、模式坍塌
高维泊松方程
半球上的均匀分布
柏松流:柏松场中粒子的运动方式
基于ODE的生成模型
柏松场归一化
代码和案例实践四:
基于PFGM的高效图像生成
探讨PFGM扩散模型和其他方法的不同,兼顾质量和速度
第二讲:ChatGPT 先导课-强化学习
第一节:强化学习概述和马尔可夫决策过程
强化学习的定义、原理、组成
马尔可夫性、马尔可夫过程 、马尔可夫决策过程
贝尔曼期望方程、贝尔曼最优方程、最优策略
第二节:动态规划
动态规划基本思想
策略评估和策略改进
策略迭代算法
值迭代算法
代码和案例实践二:
使用DP的Policy Iteration方法解决“寻宝”问题
使用DP的Value Iteration方法解决“寻宝”问题
第三节:蒙特卡罗
蒙特卡罗核心思想
蒙特卡罗评估
增量式方法
蒙特卡罗控制
在线策略/离线策略
在线策略蒙特卡罗算法
重要性采样离线策略蒙特卡罗算法
代码和案例实践三:
使用On-Policy 的MC方法,解决“十点半”问题
使用Of-Policy 的MC方法,解决“十点半”问题
给Of-Policy 的MC方法添加重要性采样
第四节:时序差分
时序差分简介、TD目标值 / TD 误差DP/MC/TD对比
在线策略TD:Sarsa算法
离线策略TD:Q-learning算法
代码和案例实践四:
使用gym搭建带有陷阱的gridworld网格世界环境
学会设置陷阱
使用Sarsa方法解决“陷阱寻宝”问题
使用Q-learning方法解决“陷阱寻宝”问题
第五节:资格迹
前后向TD(λ)算法
前后向Sarsa(λ)算法
前后向Watkins’s Q(λ)算法
代码和案例实践五:
使用gym搭建“风格子”世界环境
使用后向Sarsa (λ)方法解决“风格子”问题
使用后向Watkins’s Q(λ)方法解决“风格子”问题
第六节:值函数逼近、DQN 系列
表格型强化学习/函数近似型强化学习
值函数逼近-Q-learning算法
DQN方法
Double DQN方法
Dueling DQN方法
代码和案例实践六:
在线游戏平台Atari 2600介绍
Pygame介绍
使用pygame搭建Flappy Bird环境
使用DQN算法训练 Flappy Bird 游戏
使用DQN算法训练“贪吃蛇”游戏
使用DQN算法训练“吃豆人”游戏
第七节:随机策略梯度
随机策略梯度定理
REINFORCE方法
带基线的REINFORCE方法
代码和案例实践七:
使用REINFORCE训练 MountainCar游戏
使用REINFORCE训练CartPole游戏
第八节:Actor-Critic 及变种
A2C方法
异步 Q-learning 方法
异步 Sarsa 方法
异步 n步 Q-learning方法
A3C方法
代码和案例实践八:
使用AC算法训练CartPole游戏
使用AC算法训练“钟摆”游戏
使用A3C算法训练“钟摆”游戏
使用A3C算法训练“超级玛丽”游戏
第九节:确定性策略梯度方法
确定性策略梯度定理
DPG 方法
在线策略确定性 AC方法
离线策略确定性AC方法
DDPG 方法
代码和案例实践九:
使用gym加载“钟摆”游戏
比较AC和DDPG方法在训练同一个游戏的不同
使用DDPG训练“钟摆”游戏
第十节:博弈强化学习
蒙特卡罗树搜索
AlphaGo基本原理
AlphaGo神经网络
AlphaGo蒙特卡罗树搜索
AlphaGo的整体思路
AlphaGo Zero下棋原理
AlphaGo Zero的网络结构
AlphaGo Zero的蒙特卡罗树搜索
AlphaGo Zero总结
AlphaZero
代码和案例实践十:
用pygame实现“五子棋”游戏环境
设置棋盘、游戏规则、禁手等
使用MCTS算法训练“五子棋”游戏
使用AlphagoZero算法训练“五子棋”游戏
编程实现人机对弈
返回搜狐,查看更多
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
发布于:
河北省