《视觉问答：理论与实践》QiWu（吴琦），PengWang（王鹏），XinWang（王鑫），XiaodongHe（何晓冬），WenwuZhu（朱文武）电子工业出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

目录
第1 章简介..................................................................1
1.1 视觉问答的动机........................................................1
1.2 人工智能任务中的视觉问答...........................................4
1.3 视觉问答类别..........................................................5
1.3.1 数据分类驱动......................................................6
1.3.2 任务分类驱动......................................................7
1.3.3 其他..............................................................7
参考文献.....................................................................8

第1 部分基础理论
第2 章深度学习基础......................................................15
2.1 神经网络...............................................................15
2.2 卷积神经网络..........................................................17
2.3 循环神经网络及变体...................................................18
2.4 编码器-解码器结构....................................................20
2.5 注意力机制.............................................................20
2.6 记忆网络...............................................................21
2.7 Transformer 网络和BERT............................................22
2.8 图神经网络.............................................................24
参考文献.....................................................................25

第3 章问答基础知识......................................................27
3.1 基于规则的方法........................................................27
3.2 基于信息检索的方法...................................................28
3.3 问答的神经语义解析...................................................29
3.4 问答知识库.............................................................29
参考文献.....................................................................30

第2 部分图像视觉问答
第4 章经典视觉问答......................................................35
4.1 简介....................................................................35
4.2 数据集..................................................................36
4.3 生成与分类：两种回答策略...........................................40
4.4 联合嵌入...............................................................40
4.4.1 序列到序列编码器-解码器模型......................................40
4.4.2 双线性编码模型....................................................43
4.5 注意力机制.............................................................45
4.5.1 堆叠注意力网络....................................................45
4.5.2 分层问题-图像协同注意力..........................................47
4.5.3 自底向上和自顶向下的注意力.......................................49
4.6 记忆网络...............................................................51
4.6.1 改进的动态记忆网络...............................................51
4.6.2 记忆增强网络......................................................52
4.7 组合推理...............................................................54
4.7.1 神经模块网络......................................................55
4.7.2 动态神经模块网络..................................................56
4.8 图神经网络.............................................................58
4.8.1 图卷积网络........................................................58
4.8.2 图注意力网络......................................................60
4.8.3 视觉问答图卷积网络...............................................62
4.8.4 视觉问答图注意力网络.............................................63
参考文献.....................................................................66

第5 章基于知识的视觉问答..............................................71
5.1 简介....................................................................71
5.2 数据集..................................................................72
5.3 知识库..................................................................74
5.3.1 数据库百科........................................................74
5.3.2 ConceptNet........................................................74
5.4 知识嵌入...............................................................75
5.4.1 文字对矢量表示法..................................................75
5.4.2 基于BERT 的表征.................................................78
5.5 问题-查询转换.........................................................79
5.5.1 基于查询映射的方法...............................................79
5.5.2 基于学习的方法....................................................81
5.6 查询知识库的方法.....................................................82
5.6.1 RDF ..............................................................82
5.6.2 记忆网查询........................................................83
参考文献.....................................................................84

第6 章视觉问答的视觉和语言预训练..................................88
6.1 简介....................................................................88
6.2 常规预训练模型........................................................89
6.2.1 ELMo .............................................................89
6.2.2 GPT ..............................................................89
6.2.3 MLM .............................................................90
6.3 视觉和语言预训练的常用方法.........................................93
6.3.1 单流方法..........................................................94
6.3.2 双流方法..........................................................96
6.4 视觉问答及其下游任务微调...........................................98
参考文献.....................................................................101

第3 部分视频视觉问答
第7 章视频表征学习.....................................................·105
7.1 人工标注的局部视频描述符...........................................105
7.2 数据驱动的深度学习的视频特征表示.................................107
7.3 视频表征的自监督学习................................................109
参考文献.....................................................................110

第8 章视频问答...........................................................·112
8.1 简介....................................................................112
8.2 数据集..................................................................112
8.2.1 多步推理数据集....................................................113
8.2.2 单步推理数据集....................................................116
8.3 使用编码器-解码器结构的传统视频时空推理.........................118
参考文献.....................................................................123

第9 章视频问答的高级模型.............................................·126
9.1 时空特征注意力........................................................126
9.2 记忆网络...............................................................129
9.3 时空图神经网络........................................................130
参考文献.....................................................................132

第4 部分视觉问答高级任务
第10 章具身视觉问答...................................................·137
10.1 简介...................................................................137
10.2 模拟器、数据集和评估标准..........................................138
10.2.1 模拟器...........................................................138
10.2.2 数据集...........................................................140
10.2.3 评估指标.........................................................141
10.3 语言引导的视觉导航.................................................142
10.3.1 视觉和语言导航...................................................142
10.3.2 远程对象定位.....................................................147
10.4 具身问答..............................................................148
10.5 交互式问答............................................................150
参考文献.....................................................................151

第11 章医学视觉问答...................................................·153
11.1 简介...................................................................153
11.2 数据集.................................................................154
11.3 医学视觉问答的经典方法............................................156
11.4 医学视觉问答的元学习方法..........................................159
11.5 基于BERT 的医学视觉问答方法....................................160
参考文献.....................................................................162

第12 章基于文本的视觉问答...........................................·165
12.1 简介...................................................................165
12.2 数据集.................................................................166
12.2.1 TextVQA.........................................................166
12.2.2 ST-VQA .........................................................167
12.2.3 OCR-VQA .......................................................168
12.3 OCR 标记表示........................................................168
12.4 简单融合模型.........................................................169
12.5 基于Transformer 的模型............................................170
12.6 图模型.................................................................172
参考文献.....................................................................173

第13 章视觉问题生成...................................................·176
13.1 简介...................................................................176
13.2 数据融合中的视觉问题生成..........................................176
13.2.1 从答案生成问题...................................................177
13.2.2 从图像生成问题...................................................178
13.2.3 对抗学习.........................................................179
13.3 作为视觉理解问题的视觉问题生成..................................180
参考文献.....................................................................182

第14 章视觉对话.........................................................·185
14.1 简介...................................................................185
14.2 数据集.................................................................186
14.3 注意力机制............................................................187
14.3.1 具有注意力的分层循环编码器和记忆网络...........................187
14.3.2 历史条件图像注意力编码器........................................188
14.3.3 序列协同注意力生成模型..........................................190
14.3.4 协同网络.........................................................192
14.4 视觉指代表达理解....................................................194
14.5 基于图的方法.........................................................195
14.5.1 视觉表示的场景图................................................196
14.5.2 用于视觉和对话表示的图卷积网络.................................197
14.6 预训练模型............................................................199
14.6.1 VD-BERT ........................................................200
14.6.2 Visual-Dialog BERT ..............................................201
参考文献.....................................................................202

第15 章指代表达理解...................................................·204
15.1 简介...................................................................204
15.2 数据集.................................................................205
15.3 二阶段模型............................................................206
15.3.1 联合嵌入.........................................................206
15.3.2 协同注意力模型...................................................208
15.3.3 图模型...........................................................209
15.4 一阶段模型............................................................211
15.5 推理过程理解.........................................................212
参考文献.....................................................................213

第5 部分总结与展望
第16 章总结与展望......................................................·219
16.1 总结...................................................................219
16.2 展望...................................................................219
16.2.1 视觉问答的可解释性..............................................219
16.2.2 消除偏见.........................................................220
16.2.3 附加设置及应用...................................................221
参考文献.....................................................................221

图书	视觉问答：理论与实践
内容	内容推荐视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题，涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分，第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术，包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类，即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外，概述基于图像的其他视觉问答任务，例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务，包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解，它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望，讨论视觉问答领域的未来研究方向。目录目录第1 章简介..................................................................1 1.1 视觉问答的动机........................................................1 1.2 人工智能任务中的视觉问答...........................................4 1.3 视觉问答类别..........................................................5 1.3.1 数据分类驱动......................................................6 1.3.2 任务分类驱动......................................................7 1.3.3 其他..............................................................7 参考文献.....................................................................8 第1 部分基础理论第2 章深度学习基础......................................................15 2.1 神经网络...............................................................15 2.2 卷积神经网络..........................................................17 2.3 循环神经网络及变体...................................................18 2.4 编码器-解码器结构....................................................20 2.5 注意力机制.............................................................20 2.6 记忆网络...............................................................21 2.7 Transformer 网络和BERT............................................22 2.8 图神经网络.............................................................24 参考文献.....................................................................25 第3 章问答基础知识......................................................27 3.1 基于规则的方法........................................................27 3.2 基于信息检索的方法...................................................28 3.3 问答的神经语义解析...................................................29 3.4 问答知识库.............................................................29 参考文献.....................................................................30 第2 部分图像视觉问答第4 章经典视觉问答......................................................35 4.1 简介....................................................................35 4.2 数据集..................................................................36 4.3 生成与分类：两种回答策略...........................................40 4.4 联合嵌入...............................................................40 4.4.1 序列到序列编码器-解码器模型......................................40 4.4.2 双线性编码模型....................................................43 4.5 注意力机制.............................................................45 4.5.1 堆叠注意力网络....................................................45 4.5.2 分层问题-图像协同注意力..........................................47 4.5.3 自底向上和自顶向下的注意力.......................................49 4.6 记忆网络...............................................................51 4.6.1 改进的动态记忆网络...............................................51 4.6.2 记忆增强网络......................................................52 4.7 组合推理...............................................................54 4.7.1 神经模块网络......................................................55 4.7.2 动态神经模块网络..................................................56 4.8 图神经网络.............................................................58 4.8.1 图卷积网络........................................................58 4.8.2 图注意力网络......................................................60 4.8.3 视觉问答图卷积网络...............................................62 4.8.4 视觉问答图注意力网络.............................................63 参考文献.....................................................................66 第5 章基于知识的视觉问答..............................................71 5.1 简介....................................................................71 5.2 数据集..................................................................72 5.3 知识库..................................................................74 5.3.1 数据库百科........................................................74 5.3.2 ConceptNet........................................................74 5.4 知识嵌入...............................................................75 5.4.1 文字对矢量表示法..................................................75 5.4.2 基于BERT 的表征.................................................78 5.5 问题-查询转换.........................................................79 5.5.1 基于查询映射的方法...............................................79 5.5.2 基于学习的方法....................................................81 5.6 查询知识库的方法.....................................................82 5.6.1 RDF ..............................................................82 5.6.2 记忆网查询........................................................83 参考文献.....................................................................84 第6 章视觉问答的视觉和语言预训练..................................88 6.1 简介....................................................................88 6.2 常规预训练模型........................................................89 6.2.1 ELMo .............................................................89 6.2.2 GPT ..............................................................89 6.2.3 MLM .............................................................90 6.3 视觉和语言预训练的常用方法.........................................93 6.3.1 单流方法..........................................................94 6.3.2 双流方法..........................................................96 6.4 视觉问答及其下游任务微调...........................................98 参考文献.....................................................................101 第3 部分视频视觉问答第7 章视频表征学习.....................................................·105 7.1 人工标注的局部视频描述符...........................................105 7.2 数据驱动的深度学习的视频特征表示.................................107 7.3 视频表征的自监督学习................................................109 参考文献.....................................................................110 第8 章视频问答...........................................................·112 8.1 简介....................................................................112 8.2 数据集..................................................................112 8.2.1 多步推理数据集....................................................113 8.2.2 单步推理数据集....................................................116 8.3 使用编码器-解码器结构的传统视频时空推理.........................118 参考文献.....................................................................123 第9 章视频问答的高级模型.............................................·126 9.1 时空特征注意力........................................................126 9.2 记忆网络...............................................................129 9.3 时空图神经网络........................................................130 参考文献.....................................................................132 第4 部分视觉问答高级任务第10 章具身视觉问答...................................................·137 10.1 简介...................................................................137 10.2 模拟器、数据集和评估标准..........................................138 10.2.1 模拟器...........................................................138 10.2.2 数据集...........................................................140 10.2.3 评估指标.........................................................141 10.3 语言引导的视觉导航.................................................142 10.3.1 视觉和语言导航...................................................142 10.3.2 远程对象定位.....................................................147 10.4 具身问答..............................................................148 10.5 交互式问答............................................................150 参考文献.....................................................................151 第11 章医学视觉问答...................................................·153 11.1 简介...................................................................153 11.2 数据集.................................................................154 11.3 医学视觉问答的经典方法............................................156 11.4 医学视觉问答的元学习方法..........................................159 11.5 基于BERT 的医学视觉问答方法....................................160 参考文献.....................................................................162 第12 章基于文本的视觉问答...........................................·165 12.1 简介...................................................................165 12.2 数据集.................................................................166 12.2.1 TextVQA.........................................................166 12.2.2 ST-VQA .........................................................167 12.2.3 OCR-VQA .......................................................168 12.3 OCR 标记表示........................................................168 12.4 简单融合模型.........................................................169 12.5 基于Transformer 的模型............................................170 12.6 图模型.................................................................172 参考文献.....................................................................173 第13 章视觉问题生成...................................................·176 13.1 简介...................................................................176 13.2 数据融合中的视觉问题生成..........................................176 13.2.1 从答案生成问题...................................................177 13.2.2 从图像生成问题...................................................178 13.2.3 对抗学习.........................................................179 13.3 作为视觉理解问题的视觉问题生成..................................180 参考文献.....................................................................182 第14 章视觉对话.........................................................·185 14.1 简介...................................................................185 14.2 数据集.................................................................186 14.3 注意力机制............................................................187 14.3.1 具有注意力的分层循环编码器和记忆网络...........................187 14.3.2 历史条件图像注意力编码器........................................188 14.3.3 序列协同注意力生成模型..........................................190 14.3.4 协同网络.........................................................192 14.4 视觉指代表达理解....................................................194 14.5 基于图的方法.........................................................195 14.5.1 视觉表示的场景图................................................196 14.5.2 用于视觉和对话表示的图卷积网络.................................197 14.6 预训练模型............................................................199 14.6.1 VD-BERT ........................................................200 14.6.2 Visual-Dialog BERT ..............................................201 参考文献.....................................................................202 第15 章指代表达理解...................................................·204 15.1 简介...................................................................204 15.2 数据集.................................................................205 15.3 二阶段模型............................................................206 15.3.1 联合嵌入.........................................................206 15.3.2 协同注意力模型...................................................208 15.3.3 图模型...........................................................209 15.4 一阶段模型............................................................211 15.5 推理过程理解.........................................................212 参考文献.....................................................................213 第5 部分总结与展望第16 章总结与展望......................................................·219 16.1 总结...................................................................219 16.2 展望...................................................................219 16.2.1 视觉问答的可解释性..............................................219 16.2.2 消除偏见.........................................................220 16.2.3 附加设置及应用...................................................221 参考文献.....................................................................221
标签
缩略图
书名	视觉问答：理论与实践
副书名
原作名
作者	QiWu（吴琦），PengWang（王鹏），XinWang（王鑫），XiaodongHe（何晓冬），WenwuZhu（朱文武）
译者
编者
绘者
出版社	电子工业出版社
商品编码（ISBN）	9787121475313
开本	其他
页数	244
版次	1
装订
字数
出版时间	2024-07-01
首版时间
印刷时间	2024-08-01
正文语种
读者对象
适用范围
发行范围
发行模式	实体书
首发网站
连载网址
图书大类	教育考试-考试-计算机类
图书小类
重量
CIP核字
中图分类号	TP391.413-44
丛书名
印张
印次	1
出版地
长
宽
高
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	外科学(临床肿瘤学专业系列教材中国科学院教材建设专家委员会规划教材) 呼啸山庄(精) 格列佛游记(精) 梦回千古少奇永在(漫忆父亲刘少奇与新中国上) 爬天都峰(4年级)/小学语文同步阅读书系东北匪事影子(1年级全彩注音)/小学语文同步阅读大中型水电工程建设全过程绿色管理永不下线(后数字时代的生存法则) 洛丽塔(电影剧本)(精) 法理的基因(精) 采购与供应链管理实务(高职高专经管类专业实践创新教材) 公路工程灌浆技术与实践(国家示范性高等职业院校课程改革教材) 家的防护(保护家人避免化学物质的伤害) 随园食单(小仓山房藏版) Java代码审计(入门篇) 弟子规中的113件事/中华文库青少年导读本插图的故事/海上文库经院哲学的集大成者(阿奎那)/千年十大思想家丛书偏离轨道100天我是猫(漫画版) 柴扉集苦恼人的微笑(一部电影笔记小说)(精)/蜜蜂文库微历史(春秋战国简讯) 品尝你错过的味道(舌尖上的秘密) 孙子兵法孙膑兵法 RT背单词易读新闻声音迷你部件环太平洋军演猛图道德经活学活用 EX拨号应用进程杀手奶茶刘若英海市蜃楼动态壁纸单机飞机大战江湖医馆家园防线骑士对决海岛争霸球球的迷宫头发栽培日记梦境趣弹只要蓝手游我扔球贼六家有儿女福贵坚强的野花铁道游击队格斗天王真命天女阳光雨季浪淘沙嘉庆传奇不在犯罪现场