深度强化学习实战
图书信息
| 作者 | 亚历山大 · 扎伊(Alexander Zai)布兰登·布朗(Brandon Brown) 著 |
| 出版社 | 人民邮电出版社有限公司 |
| ISBN | 9787115576361 |
| 出版时间 | 2023-04-01 |
| 字数 | 29.2万 |
| 分类 | 科技,计算机,网络,程序设计 |
读书简介
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直反馈对智能体加以调整和改,提升运用深度强化学习技术解决实际问题的能力。 本书涵盖深度Q网络、策略梯度法、演员-评论家算法、化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。
目录
内 容 提 要
致 谢
前 言
目标读者
本书内容
关于代码
作者简介
封面插画简介
资源与支持
提交勘误
扫码关注本书
与我们联系
关于异步社区和异步图书
第一部分 基础篇
第1章 什么是强化学习
1.1 深度强化学习中的“深度”
1.2 强化学习
1.3 动态规划与蒙特卡洛
1.4 强化学习框架
1.5 强化学习可以做什么
1.6 为什么是深度强化学习
1.7 教学工具:线图
1.8 后续内容概述
小结
第2章 强化学习问题建模:马尔可夫决策过程
2.1 线图与本书的教学方法
2.2 解决多臂老虎机问题
2.3 应用老虎机算法优化广告投放
2.4 利用PyTorch构建网络
2.5 解决上下文老虎机问题
2.6 马尔可夫性质
2.7 预测未来奖励:价值和策略函数
小结
第3章 预测最佳状态和动作:深度Q网络
3.1 Q函数
3.2 Q-learning导航
3.3 防止灾难性遗忘:经验回放
3.4 利用目标网络提高稳定性
3.5 回顾
小结
第4章 学习选择最佳策略:策略梯度法
4.1 使用神经网络的策略函数
4.2 强化良好动作:策略梯度算法
4.3 与OpenAI Gym配合
4.4 REINFORCE算法
小结
第5章 利用演员-评论家算法解决更复杂的问题
5.1 重构价值-策略函数
5.2 分布式训练
5.3 演员-评论家优势算法
5.4 N -step演员-评论家算法
小结
第二部分 进阶篇
第6章 可替代的优化方法:进化算法
6.1 另一种强化学习方法
6.2 具有进化策略的强化学习
6.3 CartPole的遗传算法
6.4 进化算法的优缺点
6.5 进化算法作为一种可扩展的替代方案
小结
第7章 Dist-DQN:获取完整故事
7.1 Q-learning存在的问题
7.2 再论概率统计
7.3 贝尔曼方程
7.4 分布式Q-learning
7.5 比较概率分布
7.6 模拟数据上的Dist-DQN
7.7 使用分布式Q-learning玩Freeway
小结
第8章 好奇心驱动的探索
8.1 利用预测编码处理稀疏奖励
8.2 反向动态预测
8.3 搭建《超级马里奥兄弟》环境
8.4 预处理和Q网络
8.5 创建Q网络和策略函数
8.6 内在好奇心模块
8.7 可替代的内在奖励机制
小结
第9章 多智能体强化学习
9.1 从单个到多个智能体
9.2 邻域Q-learning
9.3 一维伊辛模型
9.4 平均场Q-learning和二维伊辛模型
9.5 混合合作竞技游戏
小结
第10章 强化学习可解释性:注意力和关系模型
10.1 带注意力和关系偏差的机器学习可解释性
10.2 利用注意力进行关系推理
10.3 对MNIST实现自注意力
10.4 多头注意力和关系DQN
10.5 双Q-learning
10.6 训练和注意力可视化
小结
第11章 总结:回顾和路线图
11.1 我们学到了什么
11.2 深度强化学习中的未知课题
全书结语
附录A 数学、深度学习和PyTorch
A.1 线性代数
A.2 微积分
A.3 深度学习
A.4 PyTorch
参考资料
- PHP入门很轻松(微课超值版)(云尚科技)
- 犹忆武林人未远——民国武林忆旧及安慰武学遗录(安慰)
- 中国企业家成长30年:企业家精神引领企业迈向高质量发展(李兰)
- 足够遥远(张尺)
- 永无止尽的狂热:三岛由纪夫(杨照)
- 第7集 制度的起点是小人思维(俞凌雄)
- AutoCAD 2018中文版完全自学手册(龙马高新教育 策划 教传艳)
- 葛冰动物童话·飞熊“佐罗”(葛冰)
