添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

ChatGPT 的优秀表现使得业内学者们重新开始关注强化学习,ChatGPT 是 在 GPT-3 上使用人类反馈强化学习 (RLHF) 来强化对人类指令的识别。ChatGPT 能理解并生成文字,属于 AIGC(AI-Generated Content,人工智能 生产内容)技术应用中的文本生成模态应用模型。

作为 AIGC 另外一个成功落地的优秀分支,AI 绘画(文生图)近两年持续 火爆。AI 绘画背后用到的核心技术 Diffusion Model(扩散模型),是深度生成 模型中新的 SOTA,而目前有关它的理论和实践还在“野蛮生长”阶段,缺乏系 统性的回顾。

为帮助相关人员把握强化学习和扩散模型的发展趋势,理解强化学习和扩散 模型技术要点与项目问题解决方案,我公司决定举办《强化学习与扩散模型专题 培训班》,欢迎大家踊跃参加。

一、培训时间与地点:

时间:2023 年 4 月 10 日—4 月 20 日 (上课时间 11 天,每天晚上 3 小时,晚上 19:00-22:00)

地点:钉钉直播

二、主要内容:(详见内容安排表) 时间 内容 价格

4.10 -4.14(15 学时) 强化学习 2490 元/人

4.15-4.20(18 学时) AIGC 与扩散模型 3480 元/人

如果两科同时学习,培训费用 4980 元/人。

三、参加对象:银行、保险、证券等金融领域及相关院校、研究院所的从事信息科技应用、数据分析 应用的领导和技术人员等。

四、主讲师资(邹博):

邹伟 睿客邦创始人、国内资深 AI 专家,兼备大学老师和企业 CEO 双重身份,擅长利用 AI 技术解决工业、工程中的 复杂问题。邹老师担任华东建筑设计研究总院研究员、山东交通学院 客座教授、南昌航空大学硕士生导师、中国软件行业协会 专家委员、天津大学创业导师中华中医药学会会员;近几年带队与全国二十多所高校、国企建立了 AI 联合实 验室,完成 50 多个深度学习实践项目广泛应用于医疗、 交通、农业、气象、银行、电信等多个领域,内容不仅包 括深度学习、机器学习、数据挖掘等具体技术要点,也包括 AI 的整体发展、现状、应用、 商业价值、未来方向等,涵盖内容非常丰富;邹老师出版 8 本人工智能领域的著作,数十所大学将其作为研究生教材使用,同时这些著 作也被多家大学引进图书馆名录。

五、学习收益 课程体系完整,案例丰富。涵盖强化学习+扩散模型两大知识模块,实战案例丰富。直播+回看,外加群答疑 在线直播课,提供 1 年检回放便于巩固复习。同时建立微信群,训练营期间分享嘉宾 群内答疑解惑,保证学习知识的转化和吸收。配套教学资源免费赠送 课程教材、相关源代码、数据、PPT、案例素材等全部免费提供,教研教学更轻松

强化学习与扩散模型

第一讲:扩散模型 第一节:扩散模型-DDPM 系列方法-图像编辑

DM 扩散和去噪(Diffusion&Denoise)

训练和采样(Training&Sampling)

离散步骤的马尔可夫链

分子热动力学的扩散过程

DDPM-最经典的扩散模型

DDIM:加速采样、可控扩散

IVLR:迭代去燥的图像编辑,低通滤波上采样

RePaint: 被掩码的区域进行扩散生成

代码和案例实践一:

低质量噪声图像修复

精确复原原图 图像去除遮挡、

图像补全 图像生成(人物恢复青春、人物变瘦)

第二节:引导扩散模型-图文引导图像生成

图像引导、文本引导、图像+文本引导

CLIP和扩散模型的结合:基于CLIP模型的多模态引导图像生成:图文引导 GLIDE:文本引导

DALL·E

DALL·E 2:diffusion model和CLIP结合在一起

隐式分类器引导的图像生成

Blended Diffusioni模型

Diffusion-CLIP模型

DiffEdit模型

代码和案例实践二:

分别实现图像引导、文字引导、图文引导下的图片生成

第三节:扩散模型-可控自然语言生成

可控语言生成任务

Diffusion LM

代码和案例实践三:

句子填充任务

第四节:由“万有引力定律”启发:“泊松流”扩散模型(PFGM)

万有引力、模式坍塌

高维泊松方程

半球上的均匀分布

柏松流:柏松场中粒子的运动方式

基于ODE的生成模型

柏松场归一化

代码和案例实践四:

基于PFGM的高效图像生成

探讨PFGM扩散模型和其他方法的不同,兼顾质量和速度

第二讲:ChatGPT 先导课-强化学习

第一节:强化学习概述和马尔可夫决策过程

强化学习的定义、原理、组成

马尔可夫性、马尔可夫过程 、马尔可夫决策过程

贝尔曼期望方程、贝尔曼最优方程、最优策略

第二节:动态规划

动态规划基本思想

策略评估和策略改进

策略迭代算法

值迭代算法

代码和案例实践二:

使用DP的Policy Iteration方法解决“寻宝”问题

使用DP的Value Iteration方法解决“寻宝”问题

第三节:蒙特卡罗

蒙特卡罗核心思想

蒙特卡罗评估

增量式方法

蒙特卡罗控制

在线策略/离线策略

在线策略蒙特卡罗算法

重要性采样离线策略蒙特卡罗算法

代码和案例实践三:

使用On-Policy 的MC方法,解决“十点半”问题

使用Of-Policy 的MC方法,解决“十点半”问题

给Of-Policy 的MC方法添加重要性采样

第四节:时序差分

时序差分简介、TD目标值 / TD 误差DP/MC/TD对比

在线策略TD:Sarsa算法

离线策略TD:Q-learning算法

代码和案例实践四:

使用gym搭建带有陷阱的gridworld网格世界环境

学会设置陷阱

使用Sarsa方法解决“陷阱寻宝”问题

使用Q-learning方法解决“陷阱寻宝”问题

第五节:资格迹

前后向TD(λ)算法

前后向Sarsa(λ)算法

前后向Watkins’s Q(λ)算法

代码和案例实践五:

使用gym搭建“风格子”世界环境

使用后向Sarsa (λ)方法解决“风格子”问题

使用后向Watkins’s Q(λ)方法解决“风格子”问题

第六节:值函数逼近、DQN 系列

表格型强化学习/函数近似型强化学习

值函数逼近-Q-learning算法

DQN方法

Double DQN方法

Dueling DQN方法

代码和案例实践六:

在线游戏平台Atari 2600介绍

Pygame介绍

使用pygame搭建Flappy Bird环境

使用DQN算法训练 Flappy Bird 游戏

使用DQN算法训练“贪吃蛇”游戏

使用DQN算法训练“吃豆人”游戏

第七节:随机策略梯度

随机策略梯度定理

REINFORCE方法

带基线的REINFORCE方法

代码和案例实践七:

使用REINFORCE训练 MountainCar游戏

使用REINFORCE训练CartPole游戏

第八节:Actor-Critic 及变种

A2C方法

异步 Q-learning 方法

异步 Sarsa 方法

异步 n步 Q-learning方法

A3C方法

代码和案例实践八:

使用AC算法训练CartPole游戏

使用AC算法训练“钟摆”游戏

使用A3C算法训练“钟摆”游戏

使用A3C算法训练“超级玛丽”游戏

第九节:确定性策略梯度方法

确定性策略梯度定理

DPG 方法

在线策略确定性 AC方法

离线策略确定性AC方法

DDPG 方法

代码和案例实践九:

使用gym加载“钟摆”游戏

比较AC和DDPG方法在训练同一个游戏的不同

使用DDPG训练“钟摆”游戏

第十节:博弈强化学习

蒙特卡罗树搜索

AlphaGo基本原理

AlphaGo神经网络

AlphaGo蒙特卡罗树搜索

AlphaGo的整体思路

AlphaGo Zero下棋原理

AlphaGo Zero的网络结构

AlphaGo Zero的蒙特卡罗树搜索

AlphaGo Zero总结

AlphaZero

代码和案例实践十:

用pygame实现“五子棋”游戏环境

设置棋盘、游戏规则、禁手等

使用MCTS算法训练“五子棋”游戏

使用AlphagoZero算法训练“五子棋”游戏

编程实现人机对弈

返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
发布于: 河北省