《强化学习》柯良军, 王小强编清华大学出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

章绪论
1.1 引言
1.2 解决复杂问题的朴素思想
1.2.1 数学建模与优化
1.2.2 采样和估计
1.2.3 逼近
1.2.4 迭代
1.3 强化学习简史
1.4 本书主要内容及结构
1.5 小结
1.6 习题
参考文献
第2章基础知识
2.1 运筹学简明基础
2.1.1 无约束非线性规划优化方法
2.1.2 KKT条件
2.1.3 凸规划的性质
2.2 概率与统计简明基础
2.2.1 概率论基本概念
2.2.2 概率论的收敛定理
2.2.3 统计学的基本概念
2.2.4 优选似然估计法
2.2.5 估计量的优良性评估
2.2.6 采样与随机模拟
2.2.7 Monte Carlo方法简介
2.2.8 重要采样法
2.3 小结
2.4 习题
参考文献
篇基于模型的强化学习
第3章多摇臂问题
3.1 动作值方法
3.2 非平稳多摇臂问题
3.3 UCB动作选择
3.4 梯度摇臂算法
3.5 习题
参考文献
第4章 Markov决策过程
4.1 定义和记号
4.2 有限Markov决策过程
4.3 Bellman方程
4.4 最优策略
4.5 小结
4.6 习题
参考文献
第5章动态规划
5.1 策略评估
5.2 策略改进
5.3 策略迭代
5.4 值迭代
5.5 异步动态规划
5.6 收敛性证明
5.7 小结
5.8 习题
参考文献
第二篇基于采样-估计的强化学习
第6章策略评估
6.1 基于Monte Carlo方法的策略评估
6.1.1 同策略Monte Carlo策略评估
6.1.2 异策略Monte Carlo策略评估
6.2 基于时序差分方法的策略评估
6.3 n步预测
6.4 小结
6.5 习题
参考文献
第7章策略控制
7.1 同策略Monte Carlo控制
7.2 同策略时序差分学习
7.3 异策略学习
7.4 基于TD（λ）的策略控制
7.5 实例
7.5.1 问题介绍
7.5.2 MDP模型的要素
7.5.3 策略评估
7.5.4 策略控制
7.6 小结
7.7 习题
参考文献
第8章学习与规划的整合
8.1 模型和规划
8.2 Dyna：整合规划、动作和学习
8.3 几个概念
8.4 在决策关头的规划
8.4.1 启发式算法
8.4.2 rollout算法
8.4.3 Monte Carlo树搜索
8.5 小结
8.6 习题
参考文献
第三篇基于逼近理论的强化学习
第9章值函数逼近
9.1 基于随机梯度下降法的值函数逼近
9.2 基于随机梯度下降法的Q-值函数逼近
9.3 批处理
9.3.1 线性最小二乘值函数逼近
9.3.2 线性最小二乘Q-值函数逼近
9.4 小结
9.5 习题
参考文献
0章策略逼近
10.1 策略梯度法
10.1.1 最优参数问题的目标函数
10.1.2 策略梯度
10.1.3 梯度计算
10.1.4 REINFORCE算法
10.2 方差减少方法
10.2.1 利用一个评论
10.2.2 利用基准线
10.3 小结
10.4 习题
参考文献
1章信赖域策略优化
11.1 预备知识
11.2 单调改进一般性随机策略的方法
11.3 参数化策略的优化
11.4 基于采样的目标和约束估计
11.5 实用算法
11.6 小结
11.7 习题
参考文献
第四篇深度强化学习
2章深度学习
12.1 神经网络基础
12.1.1 神经网络解决问题的基本流程
12.1.2 激活函数
12.1.3 损失函数
12.1.4 优化算法
12.2 典型深度神经网络结构
12.2.1 深度的作用
12.2.2 卷积神经网络
12.2.3 循环神经网络
参考文献
3章深度Q-网络
13.1 DQN原理
13.1.1 预处理
13.1.2 网络结构
13.1.3 算法
13.1.4 深度Q-网络的训练算法
13.1.5 算法详细说明
13.2 DQN实例
13.2.1 Atari 2600游戏介绍
13.2.2 DQN算法的实现
13.3 小结
13.4 习题
参考文献
4章深度确定性策略梯度
14.1 DDPG算法介绍
14.1.1 DDPG算法的发展介绍
14.1.2 DDPG算法的原理解析
14.2 DDPG算法的实现
14.2.1 Mujoco的安装及使用
14.2.2 DDPG算法的实现解析
14.2.3 DDPG算法的训练和测试
参考文献
5章多智能体强化学习
15.1 多智能体强化学习介绍
15.1.1 多智能体强化学习的发展简述
15.1.2 随机博弈
15.1.3 纳什Q-学习
15.2 平均场多智能体强化学习原理
15.2.1 平均场近似理论
15.2.2 平均场多智能体强化学习算法
15.3 平均场多智能体实验
15.3.1 MAgent平台
15.3.2 混合合作-竞争的战斗游戏介绍
15.3.3 MF-Q和MF-AC算法的实现解析
15.3.4 战斗游戏的训练与测试
参考文献

图书	强化学习
内容	目录章绪论 1.1 引言 1.2 解决复杂问题的朴素思想 1.2.1 数学建模与优化 1.2.2 采样和估计 1.2.3 逼近 1.2.4 迭代 1.3 强化学习简史 1.4 本书主要内容及结构 1.5 小结 1.6 习题参考文献第2章基础知识 2.1 运筹学简明基础 2.1.1 无约束非线性规划优化方法 2.1.2 KKT条件 2.1.3 凸规划的性质 2.2 概率与统计简明基础 2.2.1 概率论基本概念 2.2.2 概率论的收敛定理 2.2.3 统计学的基本概念 2.2.4 优选似然估计法 2.2.5 估计量的优良性评估 2.2.6 采样与随机模拟 2.2.7 Monte Carlo方法简介 2.2.8 重要采样法 2.3 小结 2.4 习题参考文献篇基于模型的强化学习第3章多摇臂问题 3.1 动作值方法 3.2 非平稳多摇臂问题 3.3 UCB动作选择 3.4 梯度摇臂算法 3.5 习题参考文献第4章 Markov决策过程 4.1 定义和记号 4.2 有限Markov决策过程 4.3 Bellman方程 4.4 最优策略 4.5 小结 4.6 习题参考文献第5章动态规划 5.1 策略评估 5.2 策略改进 5.3 策略迭代 5.4 值迭代 5.5 异步动态规划 5.6 收敛性证明 5.7 小结 5.8 习题参考文献第二篇基于采样-估计的强化学习第6章策略评估 6.1 基于Monte Carlo方法的策略评估 6.1.1 同策略Monte Carlo策略评估 6.1.2 异策略Monte Carlo策略评估 6.2 基于时序差分方法的策略评估 6.3 n步预测 6.4 小结 6.5 习题参考文献第7章策略控制 7.1 同策略Monte Carlo控制 7.2 同策略时序差分学习 7.3 异策略学习 7.4 基于TD（λ）的策略控制 7.5 实例 7.5.1 问题介绍 7.5.2 MDP模型的要素 7.5.3 策略评估 7.5.4 策略控制 7.6 小结 7.7 习题参考文献第8章学习与规划的整合 8.1 模型和规划 8.2 Dyna：整合规划、动作和学习 8.3 几个概念 8.4 在决策关头的规划 8.4.1 启发式算法 8.4.2 rollout算法 8.4.3 Monte Carlo树搜索 8.5 小结 8.6 习题参考文献第三篇基于逼近理论的强化学习第9章值函数逼近 9.1 基于随机梯度下降法的值函数逼近 9.2 基于随机梯度下降法的Q-值函数逼近 9.3 批处理 9.3.1 线性最小二乘值函数逼近 9.3.2 线性最小二乘Q-值函数逼近 9.4 小结 9.5 习题参考文献 0章策略逼近 10.1 策略梯度法 10.1.1 最优参数问题的目标函数 10.1.2 策略梯度 10.1.3 梯度计算 10.1.4 REINFORCE算法 10.2 方差减少方法 10.2.1 利用一个评论 10.2.2 利用基准线 10.3 小结 10.4 习题参考文献 1章信赖域策略优化 11.1 预备知识 11.2 单调改进一般性随机策略的方法 11.3 参数化策略的优化 11.4 基于采样的目标和约束估计 11.5 实用算法 11.6 小结 11.7 习题参考文献第四篇深度强化学习 2章深度学习 12.1 神经网络基础 12.1.1 神经网络解决问题的基本流程 12.1.2 激活函数 12.1.3 损失函数 12.1.4 优化算法 12.2 典型深度神经网络结构 12.2.1 深度的作用 12.2.2 卷积神经网络 12.2.3 循环神经网络参考文献 3章深度Q-网络 13.1 DQN原理 13.1.1 预处理 13.1.2 网络结构 13.1.3 算法 13.1.4 深度Q-网络的训练算法 13.1.5 算法详细说明 13.2 DQN实例 13.2.1 Atari 2600游戏介绍 13.2.2 DQN算法的实现 13.3 小结 13.4 习题参考文献 4章深度确定性策略梯度 14.1 DDPG算法介绍 14.1.1 DDPG算法的发展介绍 14.1.2 DDPG算法的原理解析 14.2 DDPG算法的实现 14.2.1 Mujoco的安装及使用 14.2.2 DDPG算法的实现解析 14.2.3 DDPG算法的训练和测试参考文献 5章多智能体强化学习 15.1 多智能体强化学习介绍 15.1.1 多智能体强化学习的发展简述 15.1.2 随机博弈 15.1.3 纳什Q-学习 15.2 平均场多智能体强化学习原理 15.2.1 平均场近似理论 15.2.2 平均场多智能体强化学习算法 15.3 平均场多智能体实验 15.3.1 MAgent平台 15.3.2 混合合作-竞争的战斗游戏介绍 15.3.3 MF-Q和MF-AC算法的实现解析 15.3.4 战斗游戏的训练与测试参考文献内容推荐本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼近理论的强化学习及深度强化学习等。本书以教学为目标进行选材，力求阐述严谨、重点突出、深入浅出，以便于教学与自学。本书面向所有对强化学习感兴趣的读者，可作为高等学校理工科高年级本科生、研究生强化学习课程教材或参考书。
标签
缩略图
书名	强化学习
副书名
原作名
作者	柯良军, 王小强编
译者
编者	柯良军//王小强
绘者
出版社	清华大学出版社
商品编码（ISBN）	9787302532408
开本	16开
页数	177
版次	1
装订	平装
字数	301000
出版时间	2019-12
首版时间	2019-12-01
印刷时间	2019-12-01
正文语种	汉
读者对象	本科及以上
适用范围
发行范围	公开发行
发行模式	实体书
首发网站
连载网址
图书大类	科学技术-自然科学-自然科普
图书小类
重量	364
CIP核字	2019129422
中图分类号	TP181
丛书名
印张	11.75
印次	1
出版地	北京
长	237
宽	185
高	24cm
整理
媒质
用纸
是否注音
影印版本
出版商国别	CN
是否套装
著作权合同登记号
版权提供者
定价	69.00
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	婚姻纠纷处理图解锦囊幼小衔接综合训练营：拼音.2 夹层资本理论与实务智力资本入股视角下的企业劳资分配研究证言疑云夜莺的尸衣赛珍珠纪念文集：第5辑幸福咖啡屋线性代数高等代数分析化学美高新鲜事苏州市林木种质资源树种图谱 (ZZ)斗罗大陆.13 家园绿野仙踪(插图本)/影响孩子们一生的经典杜立德医生在月球供水管网常用管材和阀门积极心理学罪恶时刻卡耐基写给女人的幸福忠告知识产权海关保护法律解读与实践精要滇池面山森林植被生态修复研究财务报告、规划、绩效与控制融资约束与企业出口行讯宝(工程建设资讯软件) v2.1.11 安卓版微商码头(微商工具软件) v3.8.4 安卓版一手货源(采购交易平台) v1.3.0 最新版车小蜂(直营购车软件) v2.16.1 安卓版作业帮编程(启蒙教育平台) v2.13.0 安卓版清粉大师(手机清粉软件) v1.7.3 安卓版 apk提取与分享(手机apk工具) v1.0.3 安卓手机版声场(音乐社区软件) v1.2.3 安卓版潮鞋库(潮鞋进货批发软件) v1.2.6 安卓版美妆批发(购物软件平台) v1.1.5 安卓版剑士招募野兽MOD 免费版剑士作弊初始角色MOD 免费版合金装备幻痛SnakeBite Mod管理工具免费版全面战争三国3回合典韦5回合许褚来投MOD 免费版全面战争三国徐晃立绘替换MOD 免费版全面战争三国战斗系统重制MOD 免费版全面战争三国周瑜诸葛亮郭嘉第二回合加入MOD 免费版剑士地图系列MOD 免费版剑士狗吃敌人升级MOD 免费版魔方云顶之弈盒子(国服云顶之弈免预约免排队工具) v12.13 免费绿色版种菜女神看见缘分的少女埃博拉前线对你的爱很美爱很美味山海蓝图跨过鸭绿江前辈，请不要涂那支口红传家武林秘案之美人图鉴