《强化学习与最优控制(国际知名大学原版教材)(英文版)/信息技术学科与电气工程学科系列》(美)德梅萃·P.博塞卡斯清华大学出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

1. Exact Dynamic Programming
1.1. Deterministic Dynamic Programming
1.1.1. Deterministic Problems
1.1.2. The Dynamic Programming Algorithm
1.1.3. Approximation in Value Space
1.2. Stochastic Dynamic Programming
1.3. Examples, Variations, and Simplifications
1.3.1. Deterministic Shortest Path Problems
1.3.2. Discrete Deterministic Optimization
1.3.3. Problems with a Termination State
1.3.4. Forecasts
1.3.5. Problems with Uncontrollable State Components
1.3.6. Partial State Information and Belief States
1.3.7. Linear Quadratic Optimal Control
1.3.8. Systems with Unknown Parameters - Adaptive Control
1.4. Reinforcement Learning and Optimal Control - Some Terminology
1.5. Notes and Sources
2. Approximation in Value Space
2.1. Approximation Approaches in Reinforcement Learning
2.1.1. General Issues of Approximation in Value Space
2.1.2. Off-Line and On-Line Methods
2.1.3. Model-Based Simplification of the Lookahead Minimization
2.1.4. Model-Free off-Line Q-Factor Approximation
2.1.5. Approximation in Policy Space on Top of Approximation in Value Space
2.1.6. When is Approximation in Value Space Effective？
2.2. Multistep Lookahead
2.2.1. Multistep Lookahead and Rolling Horizon
2.2.2. Multistep Lookahead and Deterministic Problems
2.3. Problem Approximation
2.3.1. Enforced Decomposition
2.3.2. Probabilistic Approximation - Certainty Equivalent Control
2.4. Rollout and the Policy Improvement Principle
2.4.1. On-Line Rollout for Deterministic Discrete Optimization
2.4.2. Stochastic Rollout and Monte Carlo Tree Search
2.4.3. Rollout with an Expert
2.5. On-Line Rollout for Deterministic Infinite-Spaces Problems Optimization Heuristics
2.5.1. Model Predictive Control
2.5.2. Target Tubes and the Constrained Controllability Condition
2.5.3. Variants of Model Predictive Control
2.6. Notes and Sources
3. Parametric Approximation
3.1. Approximation Architectures
3.1.1. Linear and Nonlinear Feature-Based Architectures
3.1.2. Training of Linear and Nonlinear Architectures
3.1.3. Incremental Gradient and Newton Methods
3.2. Neural Networks
3.2.1. Training of Neural Networks
3.2.2. Multilayer and Deep Neural Networks
3.3. Sequential Dynamic Programming Approximation
3.4. Q-Factor Parametric Approximation
3.5. Parametric Approximation in Policy Space by Classification
3.6. Notes and Sources
4. Infinite Horizon Dynamic Programming
4.1. An Overview of Infinite Horizon Problems
4.2. Stochastic Shortest Path Problems
4.3. Discounted Problems
4.4. Semi-Markov Discounted Problems
4.5. Asynchronous Distributed Value Iteration
4.6. Policy Iteration
4.6.1. Exact Policy Iteration
4.6.2. Optimistic and Multistep Lookahead Policy Iteration
4.6.3. Policy Iteration for Q-factors
4.7. Notes and Sources
4.8. Appendix: Mathematical Analysis
4.8.1. Proofs for Stochastic Shortest Path Problems
4.8.2. Proofs for Discounted Problems
4.8.3. Convergence of Exact and Optimistic Policy Iteration
5. Infinite Horizon Reinforcement Learning
5.1. Approximation in Value Space - Performance Bounds
5.1.1. Limited Lookahead
5.1.2. Rollout and Approximate Policy Improvement
5.1.3. Approximate Policy Iteration
5.2. Fitted Value Iteration
5.3. Simulation-Based Policy Iteration with Parametric Approximation
5.3.1. Self-Learning and Actor-Critic Methods
5.3.2. Model-Based Variant of a Critic-Only Method
5.3.3. Model-Free Variant of a Critic-Only Method
5.3.4. Implementation Issues of Parametric Policy Iteration
5.3.5. Convergence Issues of Parametric Policy Iteration Oscillations
5.4. Q-Learning
5.4.1. Optimistic Policy Iteration with Parametric Q-Factor Approximation - SARSA and DQN
5.5. Additional Methods - Temporal Differences
……

图书	强化学习与最优控制(国际知名大学原版教材)(英文版)/信息技术学科与电气工程学科系列
内容	内容推荐本书的主要内容包括：章动态规划的准确求解；第2章值空间的逼近；第3章参数逼近；第4章无限时间动态规划；第5章无限时间强化学习；第6章集结技术。通过本书读者可以较为全面地了解动态规划、近似动态规划和强化学习的理论框架、主流算法的工作原理和近期新发展。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生的教材，也适合开展相关研究工作的专业技术人员作为参考用书。作者简介 Dimitri P. Bertseka,美国MIT终身教授，美国国家工程院院士，清华大学复杂与网络化系统研究中心客座教授。电气工程与计算机科学领域靠前知名作者，著有《非线性规划》《网络优化》《凸优化》等十几本畅销教材和专著。目录 1. Exact Dynamic Programming 1.1. Deterministic Dynamic Programming 1.1.1. Deterministic Problems 1.1.2. The Dynamic Programming Algorithm 1.1.3. Approximation in Value Space 1.2. Stochastic Dynamic Programming 1.3. Examples, Variations, and Simplifications 1.3.1. Deterministic Shortest Path Problems 1.3.2. Discrete Deterministic Optimization 1.3.3. Problems with a Termination State 1.3.4. Forecasts 1.3.5. Problems with Uncontrollable State Components 1.3.6. Partial State Information and Belief States 1.3.7. Linear Quadratic Optimal Control 1.3.8. Systems with Unknown Parameters - Adaptive Control 1.4. Reinforcement Learning and Optimal Control - Some Terminology 1.5. Notes and Sources 2. Approximation in Value Space 2.1. Approximation Approaches in Reinforcement Learning 2.1.1. General Issues of Approximation in Value Space 2.1.2. Off-Line and On-Line Methods 2.1.3. Model-Based Simplification of the Lookahead Minimization 2.1.4. Model-Free off-Line Q-Factor Approximation 2.1.5. Approximation in Policy Space on Top of Approximation in Value Space 2.1.6. When is Approximation in Value Space Effective？ 2.2. Multistep Lookahead 2.2.1. Multistep Lookahead and Rolling Horizon 2.2.2. Multistep Lookahead and Deterministic Problems 2.3. Problem Approximation 2.3.1. Enforced Decomposition 2.3.2. Probabilistic Approximation - Certainty Equivalent Control 2.4. Rollout and the Policy Improvement Principle 2.4.1. On-Line Rollout for Deterministic Discrete Optimization 2.4.2. Stochastic Rollout and Monte Carlo Tree Search 2.4.3. Rollout with an Expert 2.5. On-Line Rollout for Deterministic Infinite-Spaces Problems Optimization Heuristics 2.5.1. Model Predictive Control 2.5.2. Target Tubes and the Constrained Controllability Condition 2.5.3. Variants of Model Predictive Control 2.6. Notes and Sources 3. Parametric Approximation 3.1. Approximation Architectures 3.1.1. Linear and Nonlinear Feature-Based Architectures 3.1.2. Training of Linear and Nonlinear Architectures 3.1.3. Incremental Gradient and Newton Methods 3.2. Neural Networks 3.2.1. Training of Neural Networks 3.2.2. Multilayer and Deep Neural Networks 3.3. Sequential Dynamic Programming Approximation 3.4. Q-Factor Parametric Approximation 3.5. Parametric Approximation in Policy Space by Classification 3.6. Notes and Sources 4. Infinite Horizon Dynamic Programming 4.1. An Overview of Infinite Horizon Problems 4.2. Stochastic Shortest Path Problems 4.3. Discounted Problems 4.4. Semi-Markov Discounted Problems 4.5. Asynchronous Distributed Value Iteration 4.6. Policy Iteration 4.6.1. Exact Policy Iteration 4.6.2. Optimistic and Multistep Lookahead Policy Iteration 4.6.3. Policy Iteration for Q-factors 4.7. Notes and Sources 4.8. Appendix: Mathematical Analysis 4.8.1. Proofs for Stochastic Shortest Path Problems 4.8.2. Proofs for Discounted Problems 4.8.3. Convergence of Exact and Optimistic Policy Iteration 5. Infinite Horizon Reinforcement Learning 5.1. Approximation in Value Space - Performance Bounds 5.1.1. Limited Lookahead 5.1.2. Rollout and Approximate Policy Improvement 5.1.3. Approximate Policy Iteration 5.2. Fitted Value Iteration 5.3. Simulation-Based Policy Iteration with Parametric Approximation 5.3.1. Self-Learning and Actor-Critic Methods 5.3.2. Model-Based Variant of a Critic-Only Method 5.3.3. Model-Free Variant of a Critic-Only Method 5.3.4. Implementation Issues of Parametric Policy Iteration 5.3.5. Convergence Issues of Parametric Policy Iteration Oscillations 5.4. Q-Learning 5.4.1. Optimistic Policy Iteration with Parametric Q-Factor Approximation - SARSA and DQN 5.5. Additional Methods - Temporal Differences ……
标签
缩略图
书名	强化学习与最优控制(国际知名大学原版教材)(英文版)/信息技术学科与电气工程学科系列
副书名
原作名
作者	(美)德梅萃·P.博塞卡斯
译者
编者
绘者
出版社	清华大学出版社
商品编码（ISBN）	9787302540328
开本	16开
页数	373
版次	1
装订	平装
字数	411
出版时间	2020-06-01
首版时间	2020-06-01
印刷时间	2020-06-01
正文语种	英
读者对象
适用范围
发行范围	公开发行
发行模式	实体书
首发网站
连载网址
图书大类	科学技术-自然科学-数学
图书小类
重量	518
CIP核字	2019249735
中图分类号	O232
丛书名
印张	24.5
印次	1
出版地	北京
长
宽
高
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	来个长评吧~ 评《网游之家有乖宠》世间万般化尘泥中国历代穿越指南评《痞女色天下》评《死神同人·无解的游戏》爱莲说评《笑傲江湖之天枢问》笑笑这只受 [网王]绝对完美！码到风中凌乱的长评~~ 书阁评《晋江六周年活动》我本无根向幸福前进吧出来混的，还是要还的跟错狼全体人员精分演唱会 [网王同人]金屋藏娇财神宝宝熊雪舞云涛憨人卿卿索命麟珠守候 (海賊王)弦之花月评《女儿烩江湖》滴答待办清单(日程规划清单软件) v1.1.7 安卓版马上养车手机版 for android v1.1.0 安卓版酒便利(正品酒水购物商城) v3.10.45 安卓手机版火蜘蛛Email搜索 v1.5 免费绿色版 920优化大师 V2.0.1 官方免费安装版然后安卓版 for android v1.1.1 官方版美丽清单app for android v1.5 安卓版爱牙宝贝手机版 for android v2.1.3 官方版一点到商户版手机版 for android v0.0.1 安卓版快捷输入手机版 for android v1.0.16 官方版星钻物语移动入侵者 (Free) 恶魔的信条 [RPG] De 萌Puzzle 魔幻封神2之刺客情仇圣诞版まる四の四川省 FishFarts Kids 三国奇谋录@草船借箭朵拉大冒险三角洲特战队烽火铁骑铁血兄弟警中警之警中兄弟女人帮真爱惹麻烦因为爱情有多美带泪梨花之美丽重生爱情悠悠药草香桐柏英雄破产姐妹第三季