《TensorFlow强化学习快速入门指南--使用Python动手搭建自学习的智能体/大数据丛书》(美)考希克·巴拉克里希南机械工业出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

强化学习是一类重要的机器学习方法，在很多领域得到了成功的应用，很近几年与深度学习结合起来，进一步推动了人工智能的发展。本书首先介绍了强化学习的基本原理，然后介绍典型的强化学习算法，包括时序差分、SARSA、Q-Learning、DeepQ-network、Double DQN、竞争网络结构、Rainbow、Actor-Critic、A2C、A3C、TRPO和PPO等，每种算法基本上利用了主流的开源机器学习框架TensorFlow，使用Python编程进行实现。此外，还介绍了一些上述算法的应用。本书可以使读者快速理解强化学习的基本知识，并通过简单的案例加深对算法的理解。本书适合对强化学习感兴趣的普通高校师生以及相关专业人员阅读。

译者序
前言
章强化学习的启动和运行
1.1 为何选择强化学习
阐述强化学习问题
1.2 agent及其环境之间的关系
1.2.1 定义agent的状态
1.2.2 定义agent的行为
1.2.3 了解策略、价值函数和优势函数
1.3 认识回合
1.4 认识奖励函数和折扣奖励奖励
1.5 学习马尔可夫决策过程
1.6 定义贝尔曼方程
1.7 同步策略与异步策略学习
1.7.1 同步策略方法
1.7.2 异步策略方法
1.8 无模型训练和基于模型训练
1.9 本书中涉及的算法
总结
思考题
扩展阅读
第2章时序差分、SARSA与Q-Learning
2.1 技术需求
2.2 理解TD学习
价值函数与状态之间的关系
2.3 理解SARSA与Q-Learning
2.3.1 学习SARSA
2.3.2 理解Q-Learning
2.4 悬崖徒步与网格世界问题
2.4.1 SARSA下的悬崖徒步
2.4.2 Q-Learning下的悬崖徒步
2.4.3 SARSA下的网格世界
总结
扩展阅读
第3章深度Q网络
3.1 技术需求
3.2 学习DQN原理
3.3 理解目标网络
3.4 了解重放缓冲区
3.5 Atari环境介绍
3.5.1 Atari游戏概述
3.5.2 用TensorFlow编写DQN
3.6 验证DQN在Atari Breakout上的性能
总结
思考题
扩展阅读
第4章 Double DQN、竞争网络结构和Rainbow
4.1 技术需求
4.2 了解Double DQN
4.2.1 编写DDQN并训练解决Atari Breakout问题
4.2.2 在Atari Breakout问题中评估DDQN的性能
4.3 理解竞争网络结构
4.3.1 编写竞争网络结构并训练其解决Atari Breakout问题
4.3.2 在Atari Breakout中评估竞争网络结构的性能
4.4 了解Rainbow网络DQN改进
4.5 在Dopamine上运行Rainbow网络
使用Dopamine运行Rainbow
总结
思考题
扩展阅读
第5章深度确定性策略梯度
5.1 技术需求
5.2 Actor-Critic算法和策略梯度策略梯度
5.3 深度确定性策略梯度
5.3.1 编写ddpg.py
5.3.2 编写AandC.py
5.3.3 编写TrainOrTest.py
5.3.4 编写replay_buffer.py
5.4 在Pendulum-v0中训练和测试DDPG
总结
思考题
扩展阅读
第6章异步的方法——A3C和A2C
6.1 技术需求
6.2 A3C算法
6.2.1 损失函数
6.2.2 CartPole and LunarLander
6.3 A3C算法在CartPole中的应用
6.3.1 编写cartpole.py
6.3.2 编写a3c.py
6.3.3 Worker类
6.3.4 编写utils.py
6.3.5 CartPole训练
6.4 A3C算法在LunarLander中的应用
6.4.1 编写lunar.py
6.4.2 在LunarLander上训练
6.5 A2C算法
总结
思考题
扩展阅读
第7章信任区域策略优化和近端策略优化
7.1 技术需求
7.2 学习TRPO
TRPO方程
7.3 学习PPO
PPO损失函数
7.4 使用PPO解决Mountain Car问题
7.4.1 编写class_ppo.py
7.4.2 编写train_test.py
7.5 评估性能
7.6 马力全开
7.7 随机发力
总结
思考题
扩展阅读
第8章深度强化学习在自动驾驶中的应用
8.1 技术需求
8.2 汽车驾驶模拟器
8.3 学习使用ORCS
8.3.1 状态空间
8.3.2 支持文件
8.4 训练 DDPG agent来学习驾驶
8.4.1 编写ddpg.py
8.4.2 编写AandC.py
8.4.3 编写TrainOrTest.py
8.5 训练 PPO agent
总结
思考题
扩展阅读
附录思考题答案

图书	TensorFlow强化学习快速入门指南--使用Python动手搭建自学习的智能体/大数据丛书
内容	内容推荐强化学习是一类重要的机器学习方法，在很多领域得到了成功的应用，很近几年与深度学习结合起来，进一步推动了人工智能的发展。本书首先介绍了强化学习的基本原理，然后介绍典型的强化学习算法，包括时序差分、SARSA、Q-Learning、DeepQ-network、Double DQN、竞争网络结构、Rainbow、Actor-Critic、A2C、A3C、TRPO和PPO等，每种算法基本上利用了主流的开源机器学习框架TensorFlow，使用Python编程进行实现。此外，还介绍了一些上述算法的应用。本书可以使读者快速理解强化学习的基本知识，并通过简单的案例加深对算法的理解。本书适合对强化学习感兴趣的普通高校师生以及相关专业人员阅读。目录译者序前言章强化学习的启动和运行 1.1 为何选择强化学习阐述强化学习问题 1.2 agent及其环境之间的关系 1.2.1 定义agent的状态 1.2.2 定义agent的行为 1.2.3 了解策略、价值函数和优势函数 1.3 认识回合 1.4 认识奖励函数和折扣奖励奖励 1.5 学习马尔可夫决策过程 1.6 定义贝尔曼方程 1.7 同步策略与异步策略学习 1.7.1 同步策略方法 1.7.2 异步策略方法 1.8 无模型训练和基于模型训练 1.9 本书中涉及的算法总结思考题扩展阅读第2章时序差分、SARSA与Q-Learning 2.1 技术需求 2.2 理解TD学习价值函数与状态之间的关系 2.3 理解SARSA与Q-Learning 2.3.1 学习SARSA 2.3.2 理解Q-Learning 2.4 悬崖徒步与网格世界问题 2.4.1 SARSA下的悬崖徒步 2.4.2 Q-Learning下的悬崖徒步 2.4.3 SARSA下的网格世界总结扩展阅读第3章深度Q网络 3.1 技术需求 3.2 学习DQN原理 3.3 理解目标网络 3.4 了解重放缓冲区 3.5 Atari环境介绍 3.5.1 Atari游戏概述 3.5.2 用TensorFlow编写DQN 3.6 验证DQN在Atari Breakout上的性能总结思考题扩展阅读第4章 Double DQN、竞争网络结构和Rainbow 4.1 技术需求 4.2 了解Double DQN 4.2.1 编写DDQN并训练解决Atari Breakout问题 4.2.2 在Atari Breakout问题中评估DDQN的性能 4.3 理解竞争网络结构 4.3.1 编写竞争网络结构并训练其解决Atari Breakout问题 4.3.2 在Atari Breakout中评估竞争网络结构的性能 4.4 了解Rainbow网络DQN改进 4.5 在Dopamine上运行Rainbow网络使用Dopamine运行Rainbow 总结思考题扩展阅读第5章深度确定性策略梯度 5.1 技术需求 5.2 Actor-Critic算法和策略梯度策略梯度 5.3 深度确定性策略梯度 5.3.1 编写ddpg.py 5.3.2 编写AandC.py 5.3.3 编写TrainOrTest.py 5.3.4 编写replay_buffer.py 5.4 在Pendulum-v0中训练和测试DDPG 总结思考题扩展阅读第6章异步的方法——A3C和A2C 6.1 技术需求 6.2 A3C算法 6.2.1 损失函数 6.2.2 CartPole and LunarLander 6.3 A3C算法在CartPole中的应用 6.3.1 编写cartpole.py 6.3.2 编写a3c.py 6.3.3 Worker类 6.3.4 编写utils.py 6.3.5 CartPole训练 6.4 A3C算法在LunarLander中的应用 6.4.1 编写lunar.py 6.4.2 在LunarLander上训练 6.5 A2C算法总结思考题扩展阅读第7章信任区域策略优化和近端策略优化 7.1 技术需求 7.2 学习TRPO TRPO方程 7.3 学习PPO PPO损失函数 7.4 使用PPO解决Mountain Car问题 7.4.1 编写class_ppo.py 7.4.2 编写train_test.py 7.5 评估性能 7.6 马力全开 7.7 随机发力总结思考题扩展阅读第8章深度强化学习在自动驾驶中的应用 8.1 技术需求 8.2 汽车驾驶模拟器 8.3 学习使用ORCS 8.3.1 状态空间 8.3.2 支持文件 8.4 训练 DDPG agent来学习驾驶 8.4.1 编写ddpg.py 8.4.2 编写AandC.py 8.4.3 编写TrainOrTest.py 8.5 训练 PPO agent 总结思考题扩展阅读附录思考题答案
标签
缩略图
书名	TensorFlow强化学习快速入门指南--使用Python动手搭建自学习的智能体/大数据丛书
副书名
原作名
作者	(美)考希克·巴拉克里希南
译者	译者:赵卫东
编者
绘者
出版社	机械工业出版社
商品编码（ISBN）	9787111648123
开本	16开
页数	108
版次	1
装订	平装
字数	153
出版时间	2020-05-01
首版时间	2020-05-01
印刷时间	2020-05-01
正文语种	汉
读者对象
适用范围
发行范围	公开发行
发行模式	实体书
首发网站
连载网址
图书大类
图书小类
重量	190
CIP核字	2020030285
中图分类号	TP18
丛书名
印张	7.5
印次	1
出版地	北京
长
宽
高
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	老板，我爱上你了重来无欲系统 [主家教]一千零一夜告白我愿以友情之名，深爱占有不放手鬼王日记渡桑乾花非花几度春秋十年时光一片秋天的落叶鸣媒正曲瓶邪中娱乐圈之青梅太难追醉世红尘悠悠洛阳路这个人很有问题吾非善类 [霍比特人/魔戒]囚笼不牵手的爱情死亡片段夜夜夜夜论反叛玩死主角的可能性非婚勿爱 [八爷重生]如斯君临画中仙 EasyBin简易回收站太阳光电脑工具爱四季智能移动硬盘客户端 DTL plus Launcher金士顿U盘加密工具 SimpleWMIView查询wmi服务工具慧荣SM3257ENBB/SM3269AA量产工具小米刷机降级磁盘模式工具时方定时播音大师 msvcr71d.dll 关闭SmartScreen筛选器工具特技战斗喵 v1.0 安卓版全民宝贝计划 v1.0.3 安卓版 TiMi-逆战(猎场僵尸秒杀) v5.2.6 免费绿色版魔法学院大冒险app for android v1.1 安卓版《小小枪战：反恐特警》无限金币内购解锁存档 v1.0 iPhone/ipad版口袋商业街2(Small Street 2)无限金币破解存档 v1.2.0 iPhone/iPad版 3D极速特技飙车 v1.2 安卓版海的所有 v0.1.4 安卓版披萨贪吃蛇 v2015.02.25f 安卓版邪恶发艺师 v2.0 安卓版亿万第三季唯美貌不可辜负那座城这家人倾世妖颜一夜新娘我站在桥上看风景虽然30但仍17 海上嫁女记黄土高天非常Y星人