图书 | 强化学习入门 从原理到实践 |
内容 | 作者简介 叶强,医学博士、计算机科学硕士,先后毕业于上海交通大学和蒙特利尔大学。长期从事眼科临床工作,主要科研方向为视觉神经细胞的计算模型和医学信息学。获国家发明一项,实用新型多项,软件著作权多项。在靠前次规范、系统地实现了移动客户端自助视力检查软件系统。近年来,主要研究方向为人工智能技术及其在临床医学和医学信息学中的应用。 目录 前言 致谢 常用数学符号 主要算法列表 章概述1 1.1强化学习的历史1 1.2强化学习的基本概念2 1.3章节组织6 1.4编程环境与代码资源6 第2章从一个示例到马尔可夫决策过程7 2.1马尔可夫过程7 2.2马尔可夫奖励过程9 2.3马尔可夫决策过程13 2.4编程实践:学生马尔可夫决策示例20 2.4.1收获和价值的计算20 2.4.2验证贝尔曼方程22 第3章动态规划寻找最优策略29 3.1策略评估29 3.2策略迭代32 3.3价值迭代33 3.4异步动态规划算法36 3.5编程实践:动态规划求解小型格子世界最优策略37 3.5.1小型格子世界MDP建模37 3.5.2策略评估40 3.5.3策略迭代41 3.5.4价值迭代41 第4章不基于模型的预测43 4.1蒙特卡罗强化学习43 4.2时序差分强化学习45 4.3n步时序差分学习50 4.4编程实践:蒙特卡罗学习评估21点游戏的玩家策略54 4.4.121点游戏规则54 4.4.2将21点游戏建模为强化学习问题55 4.4.3游戏场景的搭建55 4.4.4生成对局数据64 4.4.5策略评估64 第5章无模型的控制67 5.1行为价值函数的重要性67 5.2e贪婪策略68 5.3同策略蒙特卡罗控制69 5.4同策略时序差分控制70 5.4.1Sarsa算法70 5.4.2Sarsa(λ)算法73 5.4.3比较Sarsa和Sarsa(λ)74 5.5异策略Q学习算法76 5.6编程实践:蒙特卡罗学习求解21点游戏的最优策略78 5.7编程实践:构建基于gym的有风的格子世界及个体81 5.7.1gym库简介81 5.7.2状态序列的管理83 5.7.3个体基类的编写84 5.8编程实践:各类学习算法的实现及与有风的格子世界的交互88 5.8.1Sarsa算法89 5.8.2Sarsa(λ)算法90 5.8.3Q学习算法91 第6章价值函数的近似表示93 6.1价值近似的意义93 6.2目标函数与梯度下降95 6.2.1目标函数95 6.2.2梯度和梯度下降97 6.3常用的近似价值函数100 6.3.1线性近似101 6.3.2神经网络101 6.3.3卷积神经网络近似104 6.4DQN算法108 6.5编程实践:基于PyTorch实现DQN求解PuckWorld问题109 6.5.1基于神经网络的近似价值函数110 6.5.2实现DQN求解PuckWorld问题113 第7章基于策略梯度的深度强化学习117 7.1基于策略学习的意义117 7.2策略目标函数119 7.3Actor-Critic算法121 7.4深度确定性策略梯度算法124 7.5编程实践:DDPG算法实现125 7.5.1连续行为空间的PuckWorld环境125 7.5.2Actor-Critic网络的实现127 7.5.3确定性策略下探索的实现130 7.5.4DDPG算法的实现130 7.5.5DDPG算法在PuckWorld环境中的表现135 第8章基于模型的学习和规划137 8.1环境的模型137 8.2整合学习与规划——Dyna算法139 8.3基于模拟的搜索140 8.3.1简单蒙特卡罗搜索140 8.3.2蒙特卡罗树搜索141 第9章探索与利用143 9.1多臂游戏机143 9.2常用的探索方法145 9.2.1衰减的e贪婪探索145 9.2.2不确定行为优先探索146 9.2.3基于信息价值的探索149 0章AlphaZero算法实战151 10.1自博弈中的蒙特卡罗树搜索154 10.2模型评估中的蒙特卡罗搜索156 10.3策略价值网络结构及策略提升160 10.4编程实践:Alpha Zero算法在五子棋上的实现161 10.4.1从零开始搭建棋盘环境161 10.4.2搭建两种MCTS以实现Alpha Zero自博弈与模型评估168 10.4.3搭建策略价值网络并进行策略提升177 10.4.4训练自己的AlphaZero模型182 参考文献184 内容推荐 本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术,共分为三大部分:第壹部分(1~5章)介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法;第二部分(6~9章)在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法;第三部分(很后一章)以五子棋为例详细讲解战胜了人类很好围棋选手的Alpha Zero算法的核心思想。 |
标签 | |
缩略图 | ![]() |
书名 | 强化学习入门 从原理到实践 |
副书名 | |
原作名 | |
作者 | 叶强,闫维新,黎斌 编 |
译者 | |
编者 | |
绘者 | |
出版社 | 机械工业出版社 |
商品编码(ISBN) | 9787111661269 |
开本 | 16开 |
页数 | 192 |
版次 | 1 |
装订 | 平装 |
字数 | |
出版时间 | 2020-09-01 |
首版时间 | 2020-09-01 |
印刷时间 | 2020-09-01 |
正文语种 | |
读者对象 | |
适用范围 | |
发行范围 | |
发行模式 | 实体书 |
首发网站 | |
连载网址 | |
图书大类 | 科学技术-自然科学-自然科普 |
图书小类 | |
重量 | |
CIP核字 | |
中图分类号 | TP181 |
丛书名 | |
印张 | |
印次 | 1 |
出版地 | |
长 | |
宽 | |
高 | 26cm |
整理 | |
媒质 | |
用纸 | |
是否注音 | |
影印版本 | |
出版商国别 | |
是否套装 | |
著作权合同登记号 | |
版权提供者 | |
定价 | |
印数 | |
出品方 | |
作品荣誉 | |
主角 | |
配角 | |
其他角色 | |
一句话简介 | |
立意 | |
作品视角 | |
所属系列 | |
文章进度 | |
内容简介 | |
作者简介 | |
目录 | |
文摘 | |
安全警示 | 适度休息有益身心健康,请勿长期沉迷于阅读小说。 |
随便看 |
|
兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。