作品简介

这是一部融合了企业界先进工程实践经验和学术界前沿技术和思想的ORC著作。本书由阿里巴巴本地生活研究院算法团队技术专家领衔,从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地。书中一步步剖析了算法背后的数学原理,提供大量简洁的代码实现,帮助读者从零基础开始构建OCR算法。

全书共9章:第1章从宏观角度介绍了ORC技术的发展历程、概念和产业应用;第2章讲解了OCR的图像预处理方法;第3~4章介绍了传统机器学习方法和深度学习的相关基础;第5章讲解了基于传统方法和深度学习方法的OCR的数据生成;第6章讲解了与OCR相关的一些高级深度学习方法,方便读者理解后续的检测和识别部分;第7章讲解了文字的检测技术,从通用的目标检测到文字的检测,一步步加深读者对文字检测问题的认识;第8章讨论了文字识别的相关技术,定位到文字的位置之后,需要对文字的内容进行进一步的解析;第9章介绍了一些OCR后处理的方法。

刘树春,阿里巴巴本地生活研究院算法专家,前复旦七牛云联合实验室OCR算法负责人,在OCR相关技术的落地和实现方面有深入的研究和丰富的实践经验,在菜单识别、车牌检测识别、卡证识别、商业广告文字检测和识别、票据类识别等应用场景中积累了丰富的经验。曾经组队参加COCO竞赛、ICDAR刷榜等活动,并发表多篇顶级论文。

贺盼,佛罗里达大学在读博士,担任CVPR、ICCV、ECCV等10多家国际顶会审稿人或程序委员,在场景文本领域发表过多篇国际顶尖会议论文(DTRN、CTPN、SSTD等)。曾经在中科院先进技术研究院、港中文、旷世美国研究院等做过相关研究工作,对场景文本有深刻的认识,并且对场景文本学术前沿有很强的感知力。

马建奇,著名的RRPN算法的作者,发表过多篇国际顶尖会议论文,曾经在旷世研究院做过检测相关的工作,在上海高等研究院做过文字检测相关的工作,曾经组队参加过ICDAR 17 MLT比赛,获得前三名。曾获Facebook研究实习机会。目前即将开始修读博士学位,正在做文字识别相关的工作,对于OCR的问题有独到的见解。

王佳军,阿里巴巴本地生活研究院高级算法专家,负责本地生活研究院图像算法团队的管理、研发等工作,曾经在滴滴研究院做相关算法的研究。业余时间担任深度学习框架MXNet的技术专家,对实际算法的落地优化等有非常深入的耕耘,具有很强的OCR相关项目的落地能力。

谢雨飞,趣头条算法工程师,曾在七牛云做OCR、NLP相关算法的研究工作,发表过多篇国际顶尖论文。

陈明曦,纽约大学硕士研究生,曾在七牛云从事OCR相关工作,发表相关论文数篇。

作品目录

  • 推荐序
  • 前言
  • 第1章 绪论
  • 1.1 人工智能大潮中的OCR发展史
  • 1.2 文字检测
  • 1.3 文字识别
  • 1.4 产业应用现状
  • 1.5 本章小结
  • 第2章 图像预处理
  • 2.1 二值化
  • 2.2 平滑去噪
  • 2.3 倾斜角检测和校正
  • 2.4 实战
  • 第3章 传统机器学习方法绪论
  • 3.1 特征提取方法
  • 3.2 分类方法模型
  • 3.3 实战:身份证号码的识别
  • 3.4 本章小结
  • 第4章 深度学习基础知识
  • 4.1 单层神经网络
  • 4.2 双层神经网络
  • 4.3 深度学习
  • 4.4 训练网络技巧
  • 4.5 实战
  • 第5章 数据生成
  • 5.1 背景介绍
  • 5.2 传统单字OCR数据生成
  • 5.3 基于深度学习的OCR数据生成
  • 5.4 通过GAN的技术生成数据
  • 5.5 图像增广
  • 5.6 常用的开源数据集
  • 5.7 ICDAR的任务和数据集
  • 5.8 本章小结
  • 第6章 深度学习高级方法
  • 6.1 图像分类模型
  • 6.2 循环神经网络
  • 6.3 Seq2Seq
  • 6.4 CTC Loss
  • 6.5 Attention
  • 6.6 本章小结
  • 第7章 文字检测
  • 7.1 研究意义
  • 7.2 目标检测方法
  • 7.3 文本检测方法
  • 7.4 本章小结
  • 第8章 字符识别
  • 8.1 任务概览
  • 8.2 数据集说明
  • 8.3 评测指标
  • 8.4 主流算法介绍
  • 8.5 CRNN模型实战
  • 8.6 本章小结
  • 第9章 OCR后处理方法
  • 9.1 文本纠错
  • 9.2 文本结构化
  • 9.3 本章小结
  • 第10章 版面分析
  • 10.1 版面分析详解
  • 10.2 复杂版面识别
  • 10.3 文档恢复
  • 10.4 本章小结
展开全部