"大赛官网：http://meizu.baiducloud.top/ps/web/index.html 初赛内容：从图片中识别四则运算式，算式可能包含数字0~9、运算符+-*、括号()。并且，算式的长度固定为5或7，包含三个数字，两个运算符，0或1对括号。下面是几个样例： [图片] (4*8)+8 [ ...."

Fork me on GitHub

admin
一个有情怀，重格局的小码媛～
机器学习深度学习人工智能算法 • 0 回帖 • 2.8K 浏览 • 5 年前

AIQ - 百度深度学习图像识别决赛代码分享 (OCR)

大赛官网：http://meizu.baiducloud.top/ps/web/index.html
初赛内容：从图片中识别四则运算式，算式可能包含数字0~9、运算符+-*、括号()。并且，算式的长度固定为5或7，包含三个数字，两个运算符，0或1对括号。下面是几个样例：

(4*8)+8

(0-2)+5

2*8-7

要求参赛者给出每张图片中的算式和运算结果。

训练集共100,000张图片，并附带标签。测试集共200,000张图片，无标签，预测结果上传后计算正确率，作为初赛的排名。

本文初赛、决赛代码 github 地址、初赛数据集获取方式：

关注微信公众号 datayx 然后回复图像识别即可获取。

问题描述

本次竞赛目的是为了解决一个 OCR 问题，通俗地讲就是实现图像到文字的转换过程。

数据集

初赛数据集一共包含10万张180*60的图片和一个labels.txt的文本文件。每张图片包含一个数学运算式，运算式包含：

3个运算数：3个0到9的整型数字； 2个运算符：可以是+、-、*，分别代表加法、减法、乘法 0或1对括号：括号可能是0对或者1对

图片的名称从0.png到99999.png，下面是一些样例图片（这里只取了一张）：

文本文件 labels.txt 包含10w行文本，每行文本包含每张图片对应的公式以及公式的计算结果，公式和计算结果之间空格分开，例如图片中的示例图片对应的文本如下所示：

评价指标

官方的评价指标是准确率，初赛只有整数的加减乘运算，所得的结果一定是整数，所以要求序列与运算结果都正确才会判定为正确。

我们本地除了会使用官方的准确率作为评估标准以外，还会使用 CTC loss 来评估模型。

使用 captcha 进行数据增强

官方提供了10万张图片，我们可以直接使用官方数据进行训练，也可以通过Captcha，参照官方训练集，随机生成更多数据，进而提高准确性。根据题目要求，label 必定是三个数字，两个运算符，一对或没有括号，根据括号规则，只有可能是没括号，左括号和右括号，因此很容易就可以写出数据生成器的代码。

生成器

生成器的生成规则很简单：

相信大家都能看懂。当然，我写文章的时候又想到一种更好的写法：

除了生成算式以外，还有一个值得注意的地方就是初赛所有的减号（也就是“-”）都是细的，但是我们直接用 captcha 库生成图像会得到粗的减号，所以我们修改了 image.py 中的代码，在 _draw_character 函数中我们增加了一句判断，如果是减号，我们就不进行 resize 操作，这样就能防止减号变粗：

if c != '-':
    im = im.resize((w2, h2))
    im = im.transform((w, h), Image.QUAD, data)

我们继而使用生成器生成四则运算验证码：

上图就是原版生成器生成的图，我们可以看到减号是很粗的。

上图是修改过的生成器，可以看到减号已经不粗了。

模型结构

本文来自微信公众号 datayx

本文地址：https://www.6aiq.com/article/1532615108896
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

AIQ - 百度深度学习图像识别决赛代码分享 (OCR)

相关帖子

随便看看

AIQ - 百度深度学习图像识别决赛代码分享 (OCR)