云脉文档管理的OCR-AI自定义模版实现精准识别

作者: Yoyo 来源: 网络 时间: 2022-08-17

大部分企业文档管理从扫描到存档,只是停留在简单的图片人工归类和查询,尤其是数据密集型的企业急需通过优化所有文档驱动的业务流程来降低成本。

厦门云脉公司根据多年OCR研发经验,结合市场需求研发的一款云脉文档管理系统,云脉文档管理基于超高识别率的OCR识别技术,对企业扫描入库文档进行标签自定义,根据扫描文档的识别结果区分类型,并将其自动分类到对应标签下,提高入库的工作效率。为了进一步提升结构化数据入库的需求,云脉在文档管理系统里特意添加了各类表单自定义工具,方便用户自行提取特定字段做结构化数据提取。

云脉文档管理系统可以根据用户需求自行定制模板,实现各种表单、票据、卡证字段名和字段值对应提取的OCR产品,将数据结构化输出。主要包括了模板定义、图像自动分类、字符识别、图文对照等技术模块。

云脉文档管理系统的自定义表单识别包含以下优点:

1、根据图像特征及关键字自动匹配模板,定义完模板即可实现自动分类,友商需要在分类管理器里上传30张以上图片做训练才能实现分类;

2、根据栏目关键字和相对位置实现结构化数据提取,定义一个版面可适应多个版面(例如竖版和横版的营业执照,版面完全不一样);友商只能一个版面一个模版,版面必须固定;

3、一个栏目可设置多个关键字,例如:经营场所、住所等描述地址的关键字;

4、针对栏位关系有左右、上下、左右为主、上下为主、等多种位置关系,友商只能左右固定位置定义;

5、可对不固定位置的字段进行提取,以“填空”的位置关系去找对应字段;友商只能针对固定位置和版面的字段进行提取;

6、可根据字段值特征设置校验规则,提升识别率,比如特殊的日期格式、计数格式。