当前位置：网站首页>图书 > 正文 >>

Joy RL:强化学习实践教程

图书信息

作者	江季、王琦、杨毅远著
出版社	人民邮电出版社有限公司
ISBN	9787115631541
出版时间	2025-04-01
字数	10.5万
分类	科技,计算机,网络,程序设计

读书简介

本书是继《Easy RL：强化学习教程》（俗称“蘑菇书”）之后，为强化学习的读者专门造的一本深实践的全新教程。全书大部分内容基于3位作者的实践经验，涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容，旨在帮助读者快速门强化学习的代码实践，并辅以一套源代码框架“JoyRL”，便于读者适应业界应用研究风格的代码。

目录

内容提要

前言

资源与支持

第1章绪论

1.1 为什么要学习强化学习？

1.2 强化学习的应用

1.3 强化学习方向概述

1.4 学习本书之前的一些准备

第2章马尔可夫决策过程

2.1 马尔可夫决策过程

2.2 马尔可夫性质

2.3 回报

2.4 状态转移矩阵

2.5 本章小结

2.6 练习题

第3章动态规划

3.1 动态规划的编程思想

3.2 状态价值函数和动作价值函数

3.3 贝尔曼方程

3.4 策略迭代算法

3.5 价值迭代算法

3.6 本章小结

3.7 练习题

第4章免模型预测

4.1 有模型与免模型

4.2 预测与控制

4.3 蒙特卡罗方法

4.4 时序差分方法

4.5 时序差分方法和蒙特卡罗方法的差异

4.6 n步时序差分方法

4.7 本章小结

4.8 练习题

第5章免模型控制

5.1 Q-learning 算法

5.2 Sarsa 算法

5.3 同策略算法与异策略算法

5.4 实战：Q-learning算法

5.5 实战：Sarsa算法

5.6 本章小结

5.7 练习题

第6章深度学习基础

6.1 强化学习与深度学习的关系

6.2 线性回归模型

6.3 梯度下降

6.4 逻辑回归模型

6.5 全连接网络

6.6 高级的神经网络模型

6.7 本章小结

6.8 练习题

第7章 DQN算法

7.1 深度神经网络

7.2 经验回放

7.3 目标网络

7.4 实战：DQN算法

7.5 本章小结

7.6 练习题

第8章 DQN算法进阶

8.1 Double DQN算法

8.2 Dueling DQN 算法

8.3 Noisy DQN 算法

8.4 PER DQN算法

8.5 实战：Double DQN 算法

8.6 实战：Dueling DQN算法

8.7 实战：Noisy DQN算法

8.8 实战：PER DQN 算法

8.9 本章小结

8.10 练习题

第9章策略梯度

9.1 基于价值的算法的缺点

9.2 策略梯度算法

9.3 REINFORCE算法

9.4 策略梯度推导进阶

9.5 策略函数的设计

9.6 本章小结

9.7 练习题

第10章 Actor-Critic算法

10.1 策略梯度算法的优缺点

10.2 Q Actor-Critic算法

10.3 A2C与A3C算法

10.4 广义优势估计

10.5 实战：A2C算法

10.6 本章小结

10.7 练习题

第11章 DDPG与TD3算法

11.1 DPG算法

11.2 DDPG算法

11.3 DDPG算法的优缺点

11.4 TD3算法

11.5 实战：DDPG算法

11.6 实战：TD3算法

11.7 本章小结

11.8 练习题

第12章 PPO算法

12.1 重要性采样

12.2 PPO算法

12.3 一个常见的误区

12.4 实战：PPO算法

12.5 本章小结

12.6 练习题

练习题答案

第2章

第3章

第4章

第5章

第6章

第7章

第8章

第9章

第10章

第11章

第12章

书籍类型：人民邮电出版社有限公司,科技,计算机,网络,程序设计,

推荐图书

做好男人（百读）
中国资本市场:重塑生态链（吴晓求等）
儿童英语启蒙——从绘本、游戏到分级读物（施乐遥）
纸上王国（邓安庆）
2020年江西省军转干部安置考试《法律基础知识》考点手册（圣才电子书）
数字时代的营销战略（曹虎等）
151 Provérbios de Shakespeare（Willian Castro）
ARM 9嵌入式开发基础与实例进阶（光盘内容另行下载，地址见书封底）（冯新宇）