《强化学习入门从原理到实践》叶强,闫维新,黎斌编机械工业出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

前言
致谢
常用数学符号
主要算法列表
章概述1
1.1强化学习的历史1
1.2强化学习的基本概念2
1.3章节组织6
1.4编程环境与代码资源6
第2章从一个示例到马尔可夫决策过程7
2.1马尔可夫过程7
2.2马尔可夫奖励过程9
2.3马尔可夫决策过程13
2.4编程实践：学生马尔可夫决策示例20
2.4.1收获和价值的计算20
2.4.2验证贝尔曼方程22
第3章动态规划寻找最优策略29
3.1策略评估29
3.2策略迭代32
3.3价值迭代33
3.4异步动态规划算法36
3.5编程实践：动态规划求解小型格子世界最优策略37
3.5.1小型格子世界MDP建模37
3.5.2策略评估40
3.5.3策略迭代41
3.5.4价值迭代41
第4章不基于模型的预测43
4.1蒙特卡罗强化学习43
4.2时序差分强化学习45
4.3n步时序差分学习50
4.4编程实践：蒙特卡罗学习评估21点游戏的玩家策略54
4.4.121点游戏规则54
4.4.2将21点游戏建模为强化学习问题55
4.4.3游戏场景的搭建55
4.4.4生成对局数据64
4.4.5策略评估64
第5章无模型的控制67
5.1行为价值函数的重要性67
5.2e贪婪策略68
5.3同策略蒙特卡罗控制69
5.4同策略时序差分控制70
5.4.1Sarsa算法70
5.4.2Sarsa(λ)算法73
5.4.3比较Sarsa和Sarsa(λ)74
5.5异策略Q学习算法76
5.6编程实践：蒙特卡罗学习求解21点游戏的最优策略78
5.7编程实践：构建基于gym的有风的格子世界及个体81
5.7.1gym库简介81
5.7.2状态序列的管理83
5.7.3个体基类的编写84
5.8编程实践：各类学习算法的实现及与有风的格子世界的交互88
5.8.1Sarsa算法89
5.8.2Sarsa(λ)算法90
5.8.3Q学习算法91
第6章价值函数的近似表示93
6.1价值近似的意义93
6.2目标函数与梯度下降95
6.2.1目标函数95
6.2.2梯度和梯度下降97
6.3常用的近似价值函数100
6.3.1线性近似101
6.3.2神经网络101
6.3.3卷积神经网络近似104
6.4DQN算法108
6.5编程实践：基于PyTorch实现DQN求解PuckWorld问题109
6.5.1基于神经网络的近似价值函数110
6.5.2实现DQN求解PuckWorld问题113
第7章基于策略梯度的深度强化学习117
7.1基于策略学习的意义117
7.2策略目标函数119
7.3Actor-Critic算法121
7.4深度确定性策略梯度算法124
7.5编程实践：DDPG算法实现125
7.5.1连续行为空间的PuckWorld环境125
7.5.2Actor-Critic网络的实现127
7.5.3确定性策略下探索的实现130
7.5.4DDPG算法的实现130
7.5.5DDPG算法在PuckWorld环境中的表现135
第8章基于模型的学习和规划137
8.1环境的模型137
8.2整合学习与规划——Dyna算法139
8.3基于模拟的搜索140
8.3.1简单蒙特卡罗搜索140
8.3.2蒙特卡罗树搜索141
第9章探索与利用143
9.1多臂游戏机143
9.2常用的探索方法145
9.2.1衰减的e贪婪探索145
9.2.2不确定行为优先探索146
9.2.3基于信息价值的探索149
0章AlphaZero算法实战151
10.1自博弈中的蒙特卡罗树搜索154
10.2模型评估中的蒙特卡罗搜索156
10.3策略价值网络结构及策略提升160
10.4编程实践：Alpha Zero算法在五子棋上的实现161
10.4.1从零开始搭建棋盘环境161
10.4.2搭建两种MCTS以实现Alpha Zero自博弈与模型评估168
10.4.3搭建策略价值网络并进行策略提升177
10.4.4训练自己的AlphaZero模型182
参考文献184

图书	强化学习入门从原理到实践
内容	作者简介叶强，医学博士、计算机科学硕士，先后毕业于上海交通大学和蒙特利尔大学。长期从事眼科临床工作，主要科研方向为视觉神经细胞的计算模型和医学信息学。获国家发明一项，实用新型多项，软件著作权多项。在靠前次规范、系统地实现了移动客户端自助视力检查软件系统。近年来，主要研究方向为人工智能技术及其在临床医学和医学信息学中的应用。目录前言致谢常用数学符号主要算法列表章概述1 1.1强化学习的历史1 1.2强化学习的基本概念2 1.3章节组织6 1.4编程环境与代码资源6 第2章从一个示例到马尔可夫决策过程7 2.1马尔可夫过程7 2.2马尔可夫奖励过程9 2.3马尔可夫决策过程13 2.4编程实践：学生马尔可夫决策示例20 2.4.1收获和价值的计算20 2.4.2验证贝尔曼方程22 第3章动态规划寻找最优策略29 3.1策略评估29 3.2策略迭代32 3.3价值迭代33 3.4异步动态规划算法36 3.5编程实践：动态规划求解小型格子世界最优策略37 3.5.1小型格子世界MDP建模37 3.5.2策略评估40 3.5.3策略迭代41 3.5.4价值迭代41 第4章不基于模型的预测43 4.1蒙特卡罗强化学习43 4.2时序差分强化学习45 4.3n步时序差分学习50 4.4编程实践：蒙特卡罗学习评估21点游戏的玩家策略54 4.4.121点游戏规则54 4.4.2将21点游戏建模为强化学习问题55 4.4.3游戏场景的搭建55 4.4.4生成对局数据64 4.4.5策略评估64 第5章无模型的控制67 5.1行为价值函数的重要性67 5.2e贪婪策略68 5.3同策略蒙特卡罗控制69 5.4同策略时序差分控制70 5.4.1Sarsa算法70 5.4.2Sarsa(λ)算法73 5.4.3比较Sarsa和Sarsa(λ)74 5.5异策略Q学习算法76 5.6编程实践：蒙特卡罗学习求解21点游戏的最优策略78 5.7编程实践：构建基于gym的有风的格子世界及个体81 5.7.1gym库简介81 5.7.2状态序列的管理83 5.7.3个体基类的编写84 5.8编程实践：各类学习算法的实现及与有风的格子世界的交互88 5.8.1Sarsa算法89 5.8.2Sarsa(λ)算法90 5.8.3Q学习算法91 第6章价值函数的近似表示93 6.1价值近似的意义93 6.2目标函数与梯度下降95 6.2.1目标函数95 6.2.2梯度和梯度下降97 6.3常用的近似价值函数100 6.3.1线性近似101 6.3.2神经网络101 6.3.3卷积神经网络近似104 6.4DQN算法108 6.5编程实践：基于PyTorch实现DQN求解PuckWorld问题109 6.5.1基于神经网络的近似价值函数110 6.5.2实现DQN求解PuckWorld问题113 第7章基于策略梯度的深度强化学习117 7.1基于策略学习的意义117 7.2策略目标函数119 7.3Actor-Critic算法121 7.4深度确定性策略梯度算法124 7.5编程实践：DDPG算法实现125 7.5.1连续行为空间的PuckWorld环境125 7.5.2Actor-Critic网络的实现127 7.5.3确定性策略下探索的实现130 7.5.4DDPG算法的实现130 7.5.5DDPG算法在PuckWorld环境中的表现135 第8章基于模型的学习和规划137 8.1环境的模型137 8.2整合学习与规划——Dyna算法139 8.3基于模拟的搜索140 8.3.1简单蒙特卡罗搜索140 8.3.2蒙特卡罗树搜索141 第9章探索与利用143 9.1多臂游戏机143 9.2常用的探索方法145 9.2.1衰减的e贪婪探索145 9.2.2不确定行为优先探索146 9.2.3基于信息价值的探索149 0章AlphaZero算法实战151 10.1自博弈中的蒙特卡罗树搜索154 10.2模型评估中的蒙特卡罗搜索156 10.3策略价值网络结构及策略提升160 10.4编程实践：Alpha Zero算法在五子棋上的实现161 10.4.1从零开始搭建棋盘环境161 10.4.2搭建两种MCTS以实现Alpha Zero自博弈与模型评估168 10.4.3搭建策略价值网络并进行策略提升177 10.4.4训练自己的AlphaZero模型182 参考文献184 内容推荐本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第壹部分（1~5章）介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法；第二部分（6~9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（很后一章）以五子棋为例详细讲解战胜了人类很好围棋选手的Alpha Zero算法的核心思想。
标签
缩略图
书名	强化学习入门从原理到实践
副书名
原作名
作者	叶强,闫维新,黎斌编
译者
编者
绘者
出版社	机械工业出版社
商品编码（ISBN）	9787111661269
开本	16开
页数	192
版次	1
装订	平装
字数
出版时间	2020-09-01
首版时间	2020-09-01
印刷时间	2020-09-01
正文语种
读者对象
适用范围
发行范围
发行模式	实体书
首发网站
连载网址
图书大类	科学技术-自然科学-自然科普
图书小类
重量
CIP核字
中图分类号	TP181
丛书名
印张
印次	1
出版地
长
宽
高	26cm
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	六祖坛经教程齐泽克“生命政治”思想研究基于大数据的地方金融风险治理临床手术操作与医疗服务价格项目对应匹配目录巴西华侨华人史：1808—2019（世界华侨华人研究文库）金融证券重大合规风险防控指南婴幼儿身心发展与保育精神药理学（第3版）微量元素硒：健康守护者（硒科学系列）中小学《道德与法治》课程教学设计选编.上下卷中国农村金融的演进历程与发展道路探索在法律法规新闻纪律允许的空间内取材取证：记者隐性采访实操唐希明工作法：沙漠造林器的技术与应用深度学习技术基础(微课版) 厨房实验室：怎么煮最美味，如何吃更健康瞰见特别——中国式现代化的汕头故事何以东莞——中国式现代化的东莞故事大夏书系·小学语文学习任务群的解读与实践本书填补了逻辑学中对“理解”概念的研究空白，揭示其与“知道”“相信”等认知模态的关系，为知识论、科学哲学和人工智能领域提供新的逻辑分析视角。经典译林·整本书阅读套装七年级下册（含《骆驼祥子》《钢铁是怎样炼成的》） 2025年高级会计职称经典案例分析-高级会计实务真题圈数学三年级下 11M 真题圈数学六年级下 11M 配北师大版教材使用 2025初级会计考点详解及真题点拨-经济法基础儿科医生教你带娃旅行小学数学算术运算练习软件口算超人数学小助手 ScalePort数字传感器专用函数库乐外卖接单软件 gif转视频(GIF To Flash Converter) 视频转exe工具VaySoft Video to EXE Converter swf转换工具乔安视频转换 m4a格式转换器（Bigasoft M4A Converter）水之TD_Xv1.1.37正式版附攻略及隐藏英雄密码魔兽塔防地图侠义天下v1.0.016正式版附隐藏英雄密码及攻略魔兽ORPG地图 300韭菜反割战4.3.3正式版附攻略及隐藏密码魔兽防守地图六界初章混乱的开始2.3.1正式版附攻略及隐藏密码魔兽RPG地图粉彩女孩最新版汉化版(换装手游) v2.7.1 安卓手机版宝宝爱连线 for Android V1.0.1 安卓手机版 AI少女紫歌精灵人物MOD(优雅古风的紫歌精灵) 免费版 AI少女御姐眼镜娘MOD(迷人女生人物) 免费版热血细胞(动作闯关游戏) v1.0.7 安卓手机版寒冷的雪 for Android v1.4.1 安卓手机版风华正茂我的燃情岁月山里红刁蛮俏御医少林寺传奇2 黑狐遍地狼烟敌后便衣队传奇岛城风云总有晴空