❝
👨‍💻「作者简介：」 CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨「公众号：GoAI的学习小屋」 ，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️「链接」 加群。 🎉「专栏推荐：」 ➡️「点击访问」 「《计算机视觉》」 总结目标检测、图像分类、分割OCR、等方向资料。 ➡️「点击访问」 「《深入浅出OCR》:」 对标全网最全OCR教程，含理论与实战总结。以上价格便宜长期更新，感兴趣小伙伴可关注。 🎉「学习者福利：」 强烈推荐优秀AI学习网站，包括机器学习、深度学习等理论与实战教程，非常适合AI学习者。➡️「网站链接」。 🎉「技术控福利：」 程序员兼职社区招募！技术范围广，CV、NLP均可，要求有一定基础，最好是研究生及以上或有工作经验，也欢迎有能力本科大佬加入！群内Python、c++、Matlab等各类编程单应有尽有, 资源靠谱、费用自谈，有意向者直接访问➡️「链接」。
❞

❝
🍀「系列导读」：「《计算机视觉面试题总结系列》」 主要面向计算机视觉目标检测、图像分割及OCR等领域，将对该领域面试相关问题等进行总结，主要进行资源整合！学习对象主要面向深度学习CV方向同学，本篇主要对OCR方向进行全面总结，希望大家能够多多交流如有错误请大家在评论区指正，如有侵权联系删除。
❞

「OCR系列文章：」

计算机视觉竞赛技巧总结（三）：OCR篇计算机视觉论文总结系列（三）：OCR篇

「OCR专栏地址：」深入浅出OCR

❝
🍀导读：恭喜你发现宝藏！本专栏系列主要介绍计算机视觉OCR文字识别领域，每章将分别从OCR技术发展、方向、概念、算法、论文、数据集、对现有平台及未来发展方向等各种角度展开详细介绍，综合基础与实战知识。以下是本系列目录，分为前置篇、基础篇与进阶篇，「进阶篇在基础篇基础上进行全面总结，会针对最经典论文及最新算法展开讲解」，内容目前包括不限于文字检测、识别、表格分析等方向。未来看情况更新NLP方向知识，本专栏目前主要面向深度学习及CV的同学学习，希望大家能够多多交流，欢迎订阅本专栏，如有错误请大家在评论区指正，如有侵权联系删除。
❞

一、计算机视觉方向面试题总结（三）：OCR篇

【精选】OCR精选问题

基于深度学习的文字检测方法有哪几种？各有什么特点？

❝
常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类，当然还有一些将两种结合起来的方法。
❞

❝
基于回归的方法分为box回归和像素值回归。 a.采用box回归的方法主要有CTPN、Textbox系列和EAST，这类算法对规则形状文本检测效果较好，但无法准确检测不规则形状文本。

b. 像素值回归的方法主要有CRAFT和SA-Text，这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。基于分割的算法，如PSENet，这类算法不受文本形状的限制，对各种形状的文本都能取得较好的效果，但是往往后处理比较复杂，导致耗时严重。目前也有一些算法专门针对这个问题进行改进，如DB，将二值化进行近似，使其可导，融入训练，从而获取更准确的边界，大大降低了后处理的耗时。
❞

对于中文行文本识别，CTC和Attention哪种更优？

❝
从效果上看，通用的OCR场景CTC的识别效果要优于Attention，因为带识别的字典中的字符比较多，常用的中文汉字三千字以上，如果训练样本不足的情况下，对于这些字符的序列关系挖掘比较困难。中文场景下Attention模型的优势无法体现，而且Attention适合短语句识别，对长句子识别比较差。从训练和预测速度上，Attention的串行解码结构限制了预测速度，而CTC网络结构更高效，预测速度上更有优势。
❞

弯曲形变的文字识别需要怎么处理？TPS应用场景是什么，是否好用？在大多数情况下，如果遇到的场景弯曲形变不是太严重，检测4个顶点，然后直接通过仿射变换转正识别就足够了。

❝
如果不能满足需求，可以尝试使用TPS（Thin PlateSpline），即薄板样条插值。TPS是一种插值算法，经常用于图像变形等，通过少量的控制点就可以驱动图像进行变化。一般用在有弯曲形变的文本识别中，当检测到不规则的/弯曲的（如，使用基于分割的方法检测算法）文本区域，往往先使用TPS算法对文本区域矫正成矩形再进行识别，如，STAR-Net、RARE等识别算法中引入了TPS模块。

Warning：TPS看起来美好，在实际应用时经常发现并不够鲁棒，并且会增加耗时，需要谨慎使用。
❞

简单的对于精度要求不高的OCR任务，数据集需要准备多少张呢？

❝
训练数据的数量和需要解决问题的复杂度有关系。难度越大，精度要求越高，则数据集需求越大，而且一般情况实际中的训练数据越多效果越好。对于精度要求不高的场景，检测任务和识别任务需要的数据量是不一样的。对于检测任务，500张图像可以保证基本的检测效果。对于识别任务，需要保证识别字典中每个字符出现在不同场景的行文本图像数目需要大于200张（举例，如果有字典中有5个字，每个字都需要出现在200张图片以上，那么最少要求的图像数量应该在200-1000张之间），这样可以保证基本的识别效果。
❞

背景干扰的文字（如印章盖到落款上，需要识别落款或者印章中的文字），如何识别？

❝
在人眼确认可识别的条件下，对于背景有干扰的文字，首先要保证检测框足够准确，如果检测框不准确，需要考虑是否可以通过过滤颜色等方式对图像预处理并且增加更多相关的训练数据；在识别的部分，注意在训练数据中加入背景干扰类的扩增图像。如果MobileNet模型不能满足需求，可以尝试ResNet系列大模型来获得更好的效果。
❞

OCR领域常用的评估指标是什么？对于两阶段的可以分开来看，分别是检测和识别阶段

❝
检测阶段：先按照检测框和标注框的IOU评估，IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框，是采用多边形进行表示。检测准确率：正确的检测框个数在全部检测框的占比，主要是判断检测指标。检测召回率：正确的检测框个数在全部标注框的占比，主要是判断漏检的指标。

识别阶段：字符识别准确率，即正确识别的文本行占标注的文本行数量的比例，只有整行文本识别对才算正确识别。端到端统计：端对端召回率：准确检测并正确识别文本行在全部标注文本行的占比；端到端准确率：准确检测并正确识别文本行在检测到的文本行数量的占比；准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的的检测框中的文本与标注的文本相同。
❞

单张图上多语种并存识别（如单张图印刷体和手写文字并存），应该如何处理？

❝
单张图像中存在多种类型文本的情况很常见，典型的以学生的试卷为代表，一张图像同时存在手写体和印刷体两种文本，这类情况下，可以尝试”1个检测模型+1个N分类模型+N个识别模型”的解决方案。

其中不同类型文本共用同一个检测模型，N分类模型指额外训练一个分类器，将检测到的文本进行分类，如手写+印刷的情况就是二分类，N种语言就是N分类，在识别的部分，针对每个类型的文本单独训练一个识别模型，如手写+印刷的场景，就需要训练一个手写体识别模型，一个印刷体识别模型，如果一个文本框的分类结果是手写体，那么就传给手写体识别模型进行识别，其他情况同理。
❞

【理论篇】OCR通用问题

CRNN能否识别两行的文字?还是说必须一行？

❝
CRNN是一种基于1D-CTC的算法，其原理决定无法识别2行或多行的文字，只能单行识别。
❞

怎么判断行文本图像是否是颠倒的？

❝
原始图像和颠倒图像都进行识别预测，取得分较高的为识别结果。训练一个正常图像和颠倒图像的方向分类器进行判断。
❞

目前OCR普遍是二阶段，端到端的方案在业界落地情况如何？

❝
端到端在文字分布密集的业务场景，效率会比较有保证，精度的话看自己业务数据积累情况，如果行级别的识别数据积累比较多的话two-stage会比较好。
❞

OCR数据集

支持空格的模型，标注数据的时候是不是要标注空格？中间几个空格都要标注出来么？

❝
如果需要检测和识别模型，就需要在标注的时候把空格标注出来，而且在字典中增加空格对应的字符。标注过程中，如果中间几个空格标注一个就行。
❞

如果考虑支持竖排文字识别，相关的数据集如何合成？

❝
竖排文字与横排文字合成方式相同，只是选择了垂直字体。合成工具推荐：text_renderer
❞

训练文字识别模型，真实数据有30w，合成数据有500w，需要做样本均衡吗？

❝
需要，一般需要保证一个batch中真实数据样本和合成数据样本的比例是1：1~1：3左右效果比较理想。如果合成数据过大，会过拟合到合成数据，预测效果往往不佳。

还有一种启发性的尝试是可以先用大量合成数据训练一个base模型，然后再用真实数据微调，在一些简单场景效果也是会有提升的。
❞

竖排文字识别时候，字的特征已经变了，这种情况在数据集和字典标注是新增一个类别还是多个角度的字共享一个类别？

❝
可以根据实际场景做不同的尝试，共享一个类别是可以收敛，效果也还不错。但是如果分开训练，同类样本之间一致性更好，更容易收敛，识别效果会更优。
❞

Q2.2.5：文本行较紧密的情况下如何准确检测？

❝
使用基于分割的方法，如DB，检测密集文本行时，最好收集一批数据进行训练，并且在训练时，并将生成二值图像的shrink_ratio参数调小一些。
❞

Q2.2.6: 当训练数据量少时，如何获取更多的数据？

❝
当训练数据量少时，可以尝试以下三种方式获取更多的数据：（1）人工采集更多的训练数据，最直接也是最有效的方式。（2）基于PIL和opencv基本图像处理或者变换。例如PIL中ImageFont, Image,ImageDraw三个模块将文字写到背景中，opencv的旋转仿射变换，高斯滤波等。（3）利用数据生成算法合成数据，例如pix2pix等算法。
❞

模型训练调优

如何更换文本检测/识别的backbone？

❝
无论是文字检测，还是文字识别，骨干网络的选择是预测效果和预测效率的权衡。一般，选择更大规模的骨干网络，例如ResNet101，则检测或识别更准确，但预测耗时相应也会增加。而选择更小规模的骨干网络，例如MobileNetV3_small，则预测更快，但检测或识别的准确率会大打折扣。幸运的是不同骨干网络的检测或识别效果与在ImageNet数据集图像1000分类任务效果正相关。
❞

❝
文字检测骨干网络的替换，主要是确定类似与ResNet的4个stages，以方便集成后续的类似FPN的检测头。此外，对于文字检测问题，使用ImageNet训练的分类预训练模型，可以加速收敛和效果提升。文字识别的骨干网络的替换，需要注意网络宽高stride的下降位置。由于文本识别一般宽高比例很大，因此高度下降频率少一些，宽度下降频率多一些。
❞

文本识别训练不加LSTM是否可以收敛？

❝
理论上是可以收敛的，加上LSTM模块主要是为了挖掘文字之间的序列关系，提升识别效果。对于有明显上下文语义的场景效果会比较明显。
❞

文本识别中LSTM和GRU如何选择？

❝
从项目实践经验来看，序列模块采用LSTM的识别效果优于GRU，但是LSTM的计算量比GRU大一些，可以根据自己实际情况选择。
❞

对于CRNN模型，backbone采用DenseNet和ResNet，哪种网络结构更好？

❝
Backbone的识别效果在CRNN模型上的效果，与Imagenet 1000 图像分类任务上识别效果和效率一致。在图像分类任务上ResNet（76%+）的识别精度劣于DenseNet（77%+），在两者精度差不多的情况下，理论上DenseNet的效果要好一些，但是此外对于GPU，Nvidia针对ResNet系列模型做了优化，预测效率更高，所以相对而言，resnet是较好选择。如果是移动端，可以优先考虑MobileNetV3系列。
❞

训练识别时，如何选择合适的网络输入shape？

❝
一般高度采用32，最长宽度的选择，有两种方法：

统计训练样本图像的宽高比分布。最大宽高比的选取考虑满足80%的训练样本。统计训练样本文字数目。最长字符数目的选取考虑满足80%的训练样本。然后中文字符长宽比近似认为是1，英文认为3：1，预估一个最长宽度。
❞

如何识别文字比较长的文本？

❝
在中文识别模型训练时，并不是采用直接将训练样本缩放到[3,32,320]进行训练，而是先等比例缩放图像，保证图像高度为32，宽度不足320的部分补0，宽高比大于10的样本直接丢弃。预测时，如果是单张图像预测，则按上述操作直接对图像缩放，不做宽度320的限制。如果是多张图预测，则采用batch方式预测，每个batch的宽度动态变换，采用这个batch中最长宽度。
❞

识别训练时，训练集精度已经到达90了，但验证集精度一直在70，涨不上去怎么办？ A：训练集精度90，测试集70多的话，应该是过拟合了，有两个可尝试的方法：

（1）加入更多的增广方式或者调大增广prob的概率，默认为0.4。

（2）调大系统的l2 dcay值

预测部署

对于图片中的密集文字，有什么好的处理办法吗？

❝
可以先试用预训练模型测试一下，例如DB+CRNN，判断下密集文字图片中是检测还是识别的问题，然后针对性的改善。还有一种是如果图象中密集文字较小，可以尝试增大图像分辨率，对图像进行一定范围内的拉伸，将文字稀疏化，提高识别效果。
❞

对于一些在识别时稍微模糊的文本，有没有一些图像增强的方式？

❝
在人类肉眼可以识别的前提下，可以考虑图像处理中的均值滤波、中值滤波或者高斯滤波等模糊算子尝试。也可以尝试从数据扩增扰动来强化模型鲁棒性，另外新的思路有对抗性训练和超分SR思路，可以尝试借鉴。但目前业界尚无普遍认可的最优方案，建议优先在数据采集阶段增加一些限制提升图片质量。
❞

对于特定文字检测，例如身份证只检测姓名，检测指定区域文字更好，还是检测全部区域再筛选更好？

❝
两个角度来说明一般检测全部区域再筛选更好。

由于特定文字和非特定文字之间的视觉特征并没有很强的区分行，只检测指定区域，容易造成特定文字漏检。产品的需求可能是变化的，不排除后续对于模型需求变化的可能性（比如又需要增加一个字段），相比于训练模型，后处理的逻辑会更容易调整。
❞

其他问题

如何识别带空格的英文行文本图像？

❝
「空格识别可以考虑以下两种方案：」

优化文本检测算法。检测结果在空格处将文本断开。这种方案在检测数据标注时，需要将含有空格的文本行分成好多段。优化文本识别算法。在识别字典里面引入空格字符，然后在识别的训练数据中，如果用空行，进行标注。此外，合成数据时，通过拼接训练数据，生成含有空格的文本。
❞

中英文一起识别时也可以加空格字符来训练吗？

❝
中文识别可以加空格当做分隔符训练，具体的效果如何没法给出直接评判，根据实际业务数据训练来判断。
❞

低像素文字或者字号比较小的文字有什么超分辨率方法吗？

❝
超分辨率方法分为传统方法和基于深度学习的方法。基于深度学习的方法中，比较经典的有SRCNN，另外CVPR2020也有一篇超分辨率的工作可以参考文章：Unpaired Image Super-Resolution using Pseudo-Supervision，但是没有充分的实践验证过，需要看实际场景下的效果。
❞

如何做到横排和竖排同时支持的？

❝
合成了一批竖排文字，逆时针旋转90度后加入训练集与横排一起训练。预测时根据图片长宽比判断是否为竖排，若为竖排则将crop出的文本逆时针旋转90度后送入识别网络。
❞

表格识别有什么好的模型或者论文推荐么

❝
表格目前学术界比较成熟的解决方案不多，可以尝试下分割的论文方案。
❞

弯曲文本有试过opencv的TPS进行弯曲校正吗？

❝
opencv的tps需要标出上下边界对应的点，这个点很难通过传统方法或者深度学习方法获取。PaddleOCR里StarNet网络中的tps模块实现了自动学点，自动校正，可以直接尝试这个。
❞

印章如何识别

❝

使用带tps的识别网络或abcnet 2.使用极坐标变换将图片拉平之后使用crnn

❞

31.多语言的字典里是混合了不同的语种，这个是有什么讲究吗？统一到一个字典里会对精度造成多大的损失？

❝
统一到一个字典里，会造成最后一层FC过大，增加模型大小。如果有特殊需求的话，可以把需要的几种语言合并字典训练模型，合并字典之后如果引入过多的形近字，可能会造成精度损失，字符平衡的问题可能也需要考虑一下。在PaddleOCR里暂时将语言字典分开。
❞

预处理部分，图片的长和宽为什么要处理成32的倍数？

❝
以检测中的resnet骨干网络为例，图像输入网络之后，需要经过5次2倍降采样，共32倍，因此建议输入的图像尺寸为32的倍数。
❞

类似泰语这样的小语种，部分字会占用两个字符甚至三个字符，请问如何制作字典。

❝
处理字符的时候，把多字符的当作一个字就行，字典中每行是一个字。
❞

本文参考：https://github.com/PaddlePaddle/PaddleOCR/blob/static/doc/doc_ch/FAQ.md，如有侵权联系删除！

「OCR专栏地址：」 深入浅出OCR

一、计算机视觉方向面试题总结（三）：OCR篇

【精选】OCR精选问题

【理论篇】OCR通用问题

OCR数据集

模型训练调优

预测部署

其他问题

「OCR专栏地址：」深入浅出OCR