本书由数据标注行业的专家团队编写,采用通俗易懂的方式,系统地介绍了数据标注的基本概念、分类、流程、质量管理、安全、项目管理、平台和应用等内容。本书通过理论与实战相结合的方式,帮助读者由浅入深进行学习,让读者真正掌握数据标注的核心技术、数据标注工程实施和管理方法。
本书可作为人工智能训练师专业教材,也可作为大数据和人工智能应用人才的专业教材以及广大数据标注行业从业者的学习资料。
图书 | 数据标注工程(第2版大数据应用人才培养系列教材) |
内容 | 内容推荐 本书由数据标注行业的专家团队编写,采用通俗易懂的方式,系统地介绍了数据标注的基本概念、分类、流程、质量管理、安全、项目管理、平台和应用等内容。本书通过理论与实战相结合的方式,帮助读者由浅入深进行学习,让读者真正掌握数据标注的核心技术、数据标注工程实施和管理方法。 本书可作为人工智能训练师专业教材,也可作为大数据和人工智能应用人才的专业教材以及广大数据标注行业从业者的学习资料。 作者简介 李彤,北京大学新闻传播专业硕士毕业。曾在新浪网就职10余年,先后担任互动中心总监、总编室主任等多个岗位,主要负责新浪网交互栏目内容的审查,保证了整个新浪交互频道的安全、公司信息安全。2014年至今,在北京字节跳动担任中国内容质量与用户体验平台负责人及各产品内容总编辑,负责字节跳动旗下近50个产品内容的质量安全工作。 目录 第1章 数据标注概述 1.1 数据标注的起源与发展 1.1.1 什么是数据标注 1.1.2 数据标注分类概述 1.1.3 数据标注流程概述 1.2 数据标注的应用案例 1.2.1 出行行业 1.2.2 金融行业 1.2.3 医疗行业 1.2.4 家居行业 1.2.5 安防行业 1.2.6 公共服务 1.2.7 电子商务 1.3 新职业-人工智能训练师 1.3.1 有多少智能,就有多少人工 1.3.2 让AI更懂人类的新职业 1.3.3 最后一批人工智能的“老师” 1.4 数据越多,智能越好 1.5 作业与练习 参考文献 第2章 数据采集与清洗 2.1 数据采集 2.1.1 数据采集方法 2.1.2 数据采集流程 2.1.3 标注数据采集案例 2.2 数据清洗 2.2.1 数据清洗方法 2.2.2 数据清洗流程 2.2.3 数据清洗的评判 2.2.4 数据清洗实例 2.3 作业与练习 参考文献 第3章 数据标注分类及应用 3.1 图像标注 3.1.1 什么是图像标注 3.1.2 图像标注任务类型 3.1.3 图像标注方式 3.1.4 图像标注案例 3.2 语音标注 3.2.1 什么是语音标注 3.2.2 语音标注任务类型 3.2.3 案例分享:方言片段截取标注 3.3 文本标注 3.3.1 什么是文本标注 3.3.2 文本标注类型 3.3.3 文本标注应用领域 3.4 视频数据标注 3.4.1 什么是视频数据标注 3.4.2 视频与图像数据标注的差异 3.4.3 视频数据标注的分类 3.5 作业与练习 参考文献 第4章 数据标注流程及管理 4.1 数据标注项目流程 4.1.1 项目启动 4.1.2 项目规划 4.1.3 项目执行 4.1.4 项目监控 4.1.5 项目收尾 4.2 数据标注团队架构 4.2.1 标注团队组建 4.2.2 标注团队架构 4.3 数据标注角色分工 4.4 数据标注团队沟通 4.4.1 项目相关方管理 4.4.2 团队沟通建设 4.5 数据标注安全管理 4.5.1 数据安全的重要性 4.5.2 数据信息泄露案例 4.5.3 数据安全管理 4.6 数据标注标准化管理 4.6.1 项目管理 4.6.2 人员管理 4.6.3 订单管理 4.6.4 客户关系管理 4.7 作业与练习 参考文献 第5章 数据标注质量管理 5.1 数据质量影响算法效果 5.2 数据标注质量标准 5.2.1 图像标注质量标准 5.2.2 语音标注质量标准 5.2.3 文本标注质量标准 5.3 数据标注质量检验方法 5.3.1 实时检验 5.3.2 全样检验 5.3.3 抽样检验 5.4 数据标注质量风险控制 5.5 作业与练习 参考文献 第6章 数据标注进度管理 6.1 数据标注人效制定 6.1.1 定时人效测量 6.1.2 定量人效测量 6.1.3 步骤拆解人效测量 6.2 数据标注进度规划 6.3 数据标注进度风险控制 6.4 作业与练习 第7章 数据标注平台 7.1 线上平台 7.1.1 竹节实战平台介绍 7.1.2 竹节平台使用方法 7.1.3 AIDP数据标注工具能力说明 7.2 线下平台 7.2.1 标注工具安装环境搭建 7.2.2 LabelImg标框标注工具的使用方法 7.2.3 Labelme多边形区域标注工具安装与使用方法 7.3 作业与练习 参考文献 第8章 数据标注实战 8.1 语音类-方言ASR项目数据标注案例 8.1.1 项目需求 8.1.2 标注界面及功能说明 8.1.3 音频分类说明 8.1.4 音频裁剪说明 8.1.5 文字标准执行细则 8.2 语音类-客服录音项目数据标注案例 8.2.1 确定是否包含有效语音 8.2.2 确定语音的噪音情况 8.2.3 确定说话人数量 8.2.4 确定说话人性别 8.2.5 确定是否包含口音 8.2.6 语音内容方面 8.3 图片类-OCR数据标注案例 8.3.1 框选规则 8.3.2 文字转写规则 8.4 图片类-人脸数据标注案例 8.4.1 标框标注 8.4.2 描点标注 8.5 无人驾驶2D图像标注案例 8.5.1 项目目的 8.5.2 标注内容 8.5.3 标注界面及操作方法 8.5.4 标注规则 8.6 NLP数据泛化文本标注案例 8.6.1 标注目的 8.6.2 标注页面 8.6.3 标注说明 8.6.4 NLP名词解析 8.6.5 标注细则 8.7 作业与练习 附录 |
标签 | |
缩略图 | ![]() |
书名 | 数据标注工程(第2版大数据应用人才培养系列教材) |
副书名 | |
原作名 | |
作者 | |
译者 | |
编者 | 李彤//刘鹏 |
绘者 | |
出版社 | 清华大学出版社 |
商品编码(ISBN) | 9787302625179 |
开本 | 16开 |
页数 | 175 |
版次 | 2 |
装订 | 平装 |
字数 | 279 |
出版时间 | 2023-01-01 |
首版时间 | 2019-06-01 |
印刷时间 | 2023-01-01 |
正文语种 | 汉 |
读者对象 | 本科及以上 |
适用范围 | |
发行范围 | 公开发行 |
发行模式 | 实体书 |
首发网站 | |
连载网址 | |
图书大类 | |
图书小类 | |
重量 | 372 |
CIP核字 | 2023005162 |
中图分类号 | TP274 |
丛书名 | |
印张 | 12.25 |
印次 | 1 |
出版地 | 北京 |
长 | 259 |
宽 | 185 |
高 | 10 |
整理 | |
媒质 | |
用纸 | |
是否注音 | |
影印版本 | |
出版商国别 | |
是否套装 | |
著作权合同登记号 | |
版权提供者 | |
定价 | |
印数 | |
出品方 | |
作品荣誉 | |
主角 | |
配角 | |
其他角色 | |
一句话简介 | |
立意 | |
作品视角 | |
所属系列 | |
文章进度 | |
内容简介 | |
作者简介 | |
目录 | |
文摘 | |
安全警示 | 适度休息有益身心健康,请勿长期沉迷于阅读小说。 |
随便看 |
|
兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。