云脉表单识别解决方案

作者: 厦门云脉技术有限公司 来源: http://www.yunmai.com/ 时间: 2016-08-11

云脉表单识别解决方案是基于云脉核心的光学字符识别(OCR)技术,通过定义识别模板的方式,将表单拆分成不同的元素,分别对各个元素进行识别,从而提取表单中的数据。

创建识别模板

给单据中不同位置的各样内容定义属性,将单据拆分成多个识别对象,以便分别提取其中的数据。调用相应的模板进行识别将准确提取表单数据。

智能分类识别

根据所拍摄的单据图片的特征,云脉识别引擎智能查找相应的模板,并根据模板将单据图片分类。按照模板对各元素进行识别,提取其中的表单数据。

表格识别

模板中定义表格各列值的属性和位置,执行识别后,图像中的表格将被转化成数值型的表格。

创建识别词库

为识别对象创建词库,执行识别时,根据词库对OCR引擎提取的识别结果进行智能分析,并自动从词库中查找相同或最接近的数据进行确认或替换,以保证识别准确无误。

方案描述

云脉表单识别解决方案是基于云脉公司的光学字符识别技术(OCR),将发票、化验单、行政表单等各类纸质单据中的数据、图像、二维码等进行识别,并将里面的字符信息提取出来保存成可编辑的文字。该方案通过人工版面分析将表单分成不同的区块,并配置识别模板,针对不同的表单调用相应的识别模板,OCR引擎根据配置的属性参数分别对各个区块进行针对性识别,从而准确地将纸质表单中的信息提取出来,实现大量纸质表单的快速智能电子化。

行业应用

云脉表单识别可应用到各类有大量表单数据录入的企业或政府机构。用户用这套系统结合文档拍摄设备,将纸质文档通过拍摄的方式快速提取表单数据,并将数据导入到常规的管理系统,实现了智能快速纸质表单数据电子化。

云脉表单识别将为企业机构带来:

智能判断表单的类别,节省大量表单分类的工作量;

节省大量的数据录入工作量;

大大加快数据录入的效率;

提高数据录入的准确性;

大量纸质表单原图的安全保存。

技术说明

去除红章

智能查找图像中红章的位置,并将红章去除。

类型判断

对要识别的图片和模板图片进行匹配,传出最相似的模板类型,或传出匹配不成功。

模板匹配

模板匹配主要是对模板进行特征提取,然后对特征点对应的特征描述进行匹配。

二值化

通过边缘信息查找每个文字区域的信息,并对每个文字区域信息进行局部二值化处理。

版面分析

将图片中的文字块、线条块、图形块进行分割和属性的判断。

边框切割

通过LSD直线检测找到前景的边框线,从而确定前景的位置,并去掉背景。

透视变换

对畸变或者倾斜的前景部分进行校正。

识别元素

表单图片可被拆分成以下识别元素:

文本——输出文本信息

栏位——输出文本格式的栏位值

图像——框选区域输出成图像

表格——输出表格及其中文本格式的内容

勾选框——输出Yes或者No

扫码——读取条形码或二维码的内容