强化学习与深度强化学习_3天提纲
强化学习与深度强化学习_3天提纲详细内容
强化学习与深度强化学习_3天提纲
强化学习与深度强化学习
【课程时长】
3天(6小时/天)
【课程简介】
强化学习是当前最热门的研究方向之一,广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习(深度强化学习)的基本理论和关键算法,包括:马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法,策略梯度法等;以及该领域的最新前沿发展,包括:DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等;同时也介绍大量的实际案例,包括深度强化学习中最著名的工程应用:Alpha Go。
【课程对象】
计算机相关专业本科;或理工科本科,具备初步的IT基础知识的人员
第一天 强化学习
第一课 强化学习综述
1.强化学习要解决的问题
2.强化学习方法的分类
3.强化学习方法的发展趋势
4.环境搭建实验(Gym,TensorFlow等)
5.Gym环境的基本使用方法
第二课 马尔科夫决策过程
1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程
2.MDP基本元素:策略、回报、值函数、状态行为值函数
3.贝尔曼方程
4.最优策略
案例:构建机器人找金币和迷宫的环境
第三课 基于模型的动态规划方法
1.动态规划概念介绍
2.策略评估过程介绍
3.策略改进方法介绍
4.策略迭代和值迭代
案例:实现基于模型的强化学习算法
第四课 蒙特卡罗方法
1.蒙特卡罗策略评估
2.蒙特卡罗策略改进
3.基于蒙特卡罗的强化学习
4.同策略和异策略
案例:利用蒙特卡罗方法实现机器人找金币和迷宫
第五课 时序差分方法
1.DP,MC和TD方法比较
2.MC和TD方法偏差与方差平衡
3.同策略TD方法:Sarsa 方法
4.异策略TD方法:Q-learning 方法
案例:Q-learning和Sarsa的实现
第二天 从强化学习到深度强化学习
第一课 基于值函数逼近方法(强化学习)
1.维数灾难与表格型强化学习
2.值函数的参数化表示
3.值函数的估计过程
4.常用的基函数
第二课 基于值函数逼近方法(深度学习与强化学习的结合)
1.简单提一下深度学习
2.深度学习与强化学习的结合
3.DQN 方法介绍
4.DQN变种:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戏——flappy bird
第三课 策略梯度方法(强化学习)
1.策略梯度方法介绍
2.常见的策略表示
3.常见的减小方差的方法:引入基函数法,修改估计值函数法
案例:利用gym和tensorflow实现小车倒立摆系统等
第四课 Alpha Go(深度学习与强化学习的结合)
1.MCTS
2.策略网络与价值网络
3.Alpha Go的完整架构
第五课 GAN(深度学习)
1.VAE与基本GAN
2.DCGAN
3.WGAN
案例:生成手写数字的GAN
第三天 深度强化学习进阶
第一课 AC类方法-1
1. PG的问题与AC的思路
2. AC类方法的发展历程
3. Actor-Critic基本原理
第二课 AC类方法-2
1. DPG方法
2. DDPG方法3. A3C方法
案例:AC类方法的案例
第三课 信赖域系方法-1
1.信赖域系方法背景
2.信赖域系方法发展路线图
3.TRPO方法
案例:TRPO方法的案例
第四课 信赖域系方法-2
1.PPO方法
2.DPPO方法简介
3.ACER方法
案例:PPO方法的案例
第五课 多Agent强化学习
1.矩阵博弈
2.纳什均衡
3.多人随机博弈学习
4.完全合作、完全竞争与混合任务
5.MADDPG
案例:MADDPG的案例等
叶梓老师的其它课程
DeepSeek 辅助日常工作培训提纲 03.03
DeepSeek辅助日常工作培训提纲一、引言介绍大模型领域的竞争态势强调DeepSeek的独特优势二、DeepSeek概述DeepSeek的发展背景与定位DeepSeek各版本的特点与区别三、DeepSeek部署本地单机部署DeepSeek蒸馏版的硬件要求本地单机部署DeepSeek(量化)满血版的配置与性能本地单机多卡部署DeepSeek(量化)满血版的策
讲师:叶梓详情
知识图谱的Python实现 03.03
知识图谱的Python实现【课程简介】本课程包含知识图谱的基本概念及常用算法,并实现了一个基于知识图谱的对话机器人。通过1天的系统学习、案例讲解和动手实践,让学员能初步了解知识图谱的的相关知识与技术。【课程对象】理工科本科以上,或至少了解一种编程语言。知识图谱基础知识图谱存储知识图谱基础概念知识推理本体推理方法本体推理工具语义搜索RDF与RDFSOWL与OW
讲师:叶梓详情
智能医疗技术与ChatGPT临床应用三日深度培训 03.03
智能医疗技术与ChatGPT临床应用三日深度培训第一天:人工智能基础与Python编程入门上午:人工智能在医疗领域的应用概述Python编程基础环境搭建、数据类型、流程控制Python环境搭建Python数据类型与流程控制Python函数的应用Python面向对象编程 文件读写和目录操作异常处理机器学习概述数据探索性分析:智能化数据分析特征工程:数据准备、数
讲师:叶梓详情
人工智能“最强模型”transformer详解【课程简介】Transformer是迄今为止人工智能领域的最新和最强大的模型类别之一。它几乎正在凭借一己之力来推动深度学习的又一波重大进步。Transformer模型充分运用了称为注意力和自注意力机制,以检测系列(或图像)中元素相互影响和相互依赖的微妙关系。本课程通过2天时间的详细介绍,可使学习者初步了解Tran
讲师:叶梓详情
人工智能+自然语言处理3天 03.03
||1.人工智能概述||第一节:人工智能与机器学习基础|2.机器学习概述|||3.机器学习算法应用分析|||1.一元线性回归|||2.代价函数|||3.梯度下降法||第二节:回归算法|4.sklearn一元线性回归应用|||5.多元线性回归|||6.sklearn多元线性回归应用|||案例:葡萄酒质量和时间的关系|||1.KNN分类算法介绍|||2.KNN分
讲师:叶梓详情
人工智能算法详解 03.03
人工智能技术详解【课程内容】本课程包含大数据、机器学习、深度学习、知识图谱、强化学习与深度强化学习的相关知识。【课程时长】7天(7小时/天)【课程对象】理工科本科及以上,且至少了解一门编程语言。【课程大纲】(培训内容可根据客户需求调整)时间内容案例实践与练习Day1上午准备工作准备工作1.概念与术语2.Python(Anaconda)的安装3.Pycharm
讲师:叶梓详情
人工智能与深度学习_3天 03.03
人工智能与深度学习第一天:人工智能概念与经典算法人工智能概念综述(第一天——1)从一些术语辨析人工智能人工智能之连接主义的兴衰史这次AI的热潮是怎么来的?图像处理领域的最新热点(第一天——2)分类、目标检测与实例分割风格迁移自动驾驶人体姿态识别超分辨率图像生成语言处理领域的最新热点(第一天——3)Attention机制自动构建知识图谱看图说话预训练机制三大经
讲师:叶梓详情
人工智能之自然语言处理技术与实战(4天) 03.03
人工智能之最新自然语言处理技术与实战课程介绍:自然语言处理(简称NLP)是计算机科学和人工智能研究的一个重要方向,研究计算机和理解和运用人类语言进行交互的问题,它是集语言学、机器学习、统计学、大数据于一体的综合学科。本课程主要介绍了NLP中的常用知识点:分词、词法分析、句法分析、向量化方法、经典的NLP机器学习算法,还重点介绍了NLP中最近两年来基于大规模语
讲师:叶梓详情
数据分析与数据挖掘导论_两天 03.03
第一天上午:统计分析原理从最简单的案例开始统计基础描述性统计用SPSS实现描述性统计的案例回归分析:线性回归回归分析:logistics回归用SPSS实现回归分析的案例可视化工具第一天下午:数据库与数据仓库介绍数据库概述SQL(基本的增、删、改、查)SQL(稍复杂的子句或嵌套)基于MySQL的上机操作SQL语言数据仓库:度量与维度数据仓库:星型模型、雪花模型
讲师:叶梓详情
计算机视觉(含姿态识别)-3天 03.03
计算机视觉【课程时长】3天(7小时/天)【课程对象】理工科本科及以上,且至少了解一门编程语言。【课程大纲】(培训内容可根据客户需求调整)时间内容案例实践与练习Day1上午准备工作准备工作决策树准备工作(1)概念与术语Python(Anaconda)的安装Pycharm的安装与使用JupyterNotebook的安装与使用Tensorflow与pytorch的
讲师:叶梓详情
- [潘文富]薪资考核的初步改善措施
- [潘文富]新开门店的白板期要做些什
- [潘文富]经销商终端建设的基本推进
- [潘文富]中小企业招聘广告的内容完
- [潘文富]优化考核方式,减少员工抵
- [王晓楠]辅警转正方式,定向招录成为
- [王晓楠]西安老师招聘要求,西安各区
- [王晓楠]西安中小学教师薪资福利待遇
- [王晓楠]什么是备案制教师?备案制教
- [王晓楠]2024年陕西省及西安市最
- 1社会保障基础知识(ppt) 21204
- 2安全生产事故案例分析(ppt) 20283
- 3行政专员岗位职责 19086
- 4品管部岗位职责与任职要求 16279
- 5员工守则 15490
- 6软件验收报告 15427
- 7问卷调查表(范例) 15153
- 8工资发放明细表 14588
- 9文件签收单 14250