（2021）优秀作品分享 | 《光学字符识别系统》

生活百科1年前 (2023)发布 aixure

75 0 0

广东省大学生

计算机设计大赛

本期作品：

《光学字符识别系统》

大学生计算机设计大赛

人工智能应用——人工智能实践赛（普通赛道）

广东省二等奖

北京师范大学-香港浸会大学联合国际学院

路宇、许浪骋、胡子维

指导老师陈东龙

作品介绍

光学字符识别（OCR）是一种广泛使用的技术，用于将图像中的文本转换为计算机可读文本。

识别图像中的文本可以促进许多实际应用，例如地理位置，自动驾驶和基于图像的机器翻译。在自然场景中光学字符识别，文本图像具有复杂的背景，例如阴影或不规则形状，这使得传统的OCR处理难以正确识别文本自然场景文本识别（不同于扫描普通文档）仍然具有挑战性。因此，本项目专注于场景文本识别任务。

在该项目中，参赛团队提出了一个端到端框架来执行场景文本识别任务，其中包括矫正网络和识别网络。该模型以弱监督学习的方式进行训练，从而减少了对其他数据集的需求，并在一定程度上减少了不必要的数据处理。

本次所提出的框架已在著名的公共数据集中进行了测试，并获得了很高的准确率。实验结果表明，与最新技术相比，团队的网络对于具有低像素和弯曲文本图像的不规则文本图像仍然表现良好。

技术运用

场景文本图像包含各种噪声。尽管当前的大多数模型都使用注意力机制，但是它们仍然不能很好地解决此问题。在实际应用中，由于背景和文本边界不清晰，解码器很容易聚焦在错误的区域上。一旦解码器聚焦于错误区域，就会提取错误的特征并发生偏差光学字符识别，这可能会导致预测失败。

本项目三个主要方面解决了这些难题：

首先，提出了识别不规则场景文本图像的框架，其可分为矫正网络和识别网络（包括特征提取，序列建模和预测）。之后，在本项目中以Mixup为思路，采用新方法进行训练以解决注意力漂移的问题。最后，使用相同的标准训练集训练了现有模型，并使用团队的模型测试了它们的准确性，证明了团队的模型具有良好的性能。

技术方案

概述：首先，矫正网络用于处理复杂的没有几何约束的变形。它的基本原理是预测场景文本图像各部分的偏移值，然后将它们与原始位置网格组合以获得校正后的图像。然后是基于CNN和RNN框架的基于注意力机制的序列识别网络。此外，在训练阶段，团队以Mixup为思路，解决过拟合、注意力漂移的问题。

1.矫正网络

自然场景中的文本识别是文本图像识别中的重要困难。原因是在自然场景中收集的图像中的字符可能具有不同的样式，例如水平，垂直，扭曲，弯曲等。因此，为了使识别网络能够快速、准确地识别出这些图像，并表现出更好的性能，团队将在识别网络的前面添加一个文本图像校正网络。校正后的文本图片将比未处理的图像更加标准化，并且将更易于被文本识别网络识别，并且所获得的准确性和其他结果将更好。

鉴于上述文本矫正方法不能有效地矫正自然情况下的一些严重失真的文本图像，团队还采用了一种新的矫正方法。

矫正网络的基本流程

这是矫正网络的整体结构图。一般流程是：首先，输入最初需要矫正的图像，我们根据原始图像生成原始位置网格，记录原始图像位置信息，然后将图像输入到团队的网络中以预测位移图，然后将原始位置网格和位移图结合起来以得到矫正过后的像素坐标图，最后使用双线插值法将其使其的尺寸与原始图片一致，并与原始图像相加合并，并在采样后获得最终的矫正图像。

2.识别网络

识别网络的整体结构是一个CNN-RNN框架，如图所示，团队分别在CNN和RNN模块中使用了Resnet和BiLSTM。此外，在RNN的后续中使用了一维的基于注意力机制的解码器。

识别网络流程示意图

在CRNN [7]模型中，从下到上分为三层，分别称为卷积层、循环层和转录层。在神经网络的底层构建卷积层，从输入图像中提取特征序列。在卷积层之后建立循环神经网络，对卷积层输出的特征序列的每一帧进行预测。转录层位于CRNN的顶部，其主要功能是将每一帧的预测转换为一个标签序列。

方案实现总结

利用数据集、网络训练，团队在Pytorch框架下使用Python训练和测试了模型。

本次所提出的框架已在著名的公共数据集中进行了测试，并获得了很高的准确率。其中，包括IIIT5K，SVT，ICDAR2003，ICDAR2013，ICDAR2015，SVT-Perspective和CUTE80的常规和非常规数据集的结果分别达到90.6％，85.1％，93.4％，91.6％，69.3％，76.4％，74.3％。这些实验结果表明，与最新技术相比，我们的网络对于具有低像素和弯曲文本图像的不规则文本图像仍然表现良好。

部署推广

作为计算机视觉领域的重要分支，OCR典型应用是通过图像文字识别实现信息录入。同时，由于文字和符号包含丰富的语义信息，基于OCR提取文字信息继而进行分析，能够帮助机器更好地理解图像。构建一体化的端到端网络，同时对文字检测和识别进行训练，将成为OCR技术发展的重要趋势之一。端到端的网络设计不仅能够减少重复计算，又能够提高特征的质量，促进任务性能的改善。

本模型使用的设计语言适用于所有x86以及移动端设备的部署；整个模型已被打包成程序，设计了简洁易用的用户交互界面，便于使用和推广；模型变形能力强，便于与其他功能的模型相结合，以达到更好的使用效果。未来，将本模型与自然场景文本探测系统相结合，可以实现在无人驾驶、机器人等场景利用OCR对视场中出现的文字进行识别等。

视频展示

与我互动

图文编辑

学校 | 广东外语外贸大学

学校2 |北京师范大学-香港浸会大学联合国际学院

图文 | 魏广慧新闻学院创新2001

编辑 | 刘凯欣新闻学院新闻2001

初审 |魏广慧新闻学院创新2001

复审 | 任函老师李键红老师

联系 |李致远老师（学校2）

终审 | 陈东龙老师（学校2）李宇耀老师

限时特惠：本站每日持续更新海量各大内部网赚创业教程，会员可以下载全站资源点击查看详情
站长微信：