首页 客户案例 政务 文通科技文档识别应用于档案管理局

文通科技文档识别应用于档案管理局

2022-09-30 13:42:49


 OCR文字识别技术在数据采集和数字化建档工作中举足轻重,自2013年以来,在国家档案局大力实施“存量数字化、增量电子化”的战略背景下,纸质档案数字化副本大量产生,档案OCR工作已全面启动,为规范相关工作的开展,国家档案局因势利导,于2019年12月发布《纸质档案数字复制件光学字符识别(OCR)工作规范》,规定了纸质档案数字复制件OCR工作的组织、实施和管理要求。



但档案类型多种多样,文字内容包罗万象,存在不同语言、字体、大小、排列和对齐方式,甚至识别难度更大的手写体、繁简体等情况,这些问题给数据采集和数字化建档工作带来了各种挑战。

文通科技文档识别

文通科技基于全新的深度学习技术框架,推出通用文字识别,支持识别中文简繁体、藏文、维吾尔文、蒙文、阿拉伯文、哈萨克文、柯尔克孜文、日文、韩文、中英文字混排等十余门语种,可快速定制、开发字符集,在档案管理、文字提取、文献档案电子化管理等工作中发挥重大作用。

国家知识产权局、地质勘察局、青海大学、中国邮政、东软集团等,均有应用文通科技文字识别技术,服务客户或集成到企业系统,应用于档案数字化管理、合同管理、数据的录入加工、纸质电子化等多种场景。

文通科技通用文字识支持识别纯英文、简繁体中文、日文、藏文、中英混排等十几门语种

通用文字识别集传统模式及深度学习算法相结合,支持少数民族文字生僻字识别、手写文字识别。可识别字符集大于16000,适配龙芯、兆芯、飞腾等国产硬件平台。

可实现自动倾斜矫正、自动旋转、自动去下划线、自动去污、自动裁切等功能;

自动过滤倾斜、形变、光照变化、压线、网格、盖章、模糊、低分辨率等干扰。

 

支持版面分析、可自动分辨横版竖版文字;在线可识别字在原文中的位置和大小,可同时识别多页PDF文件。

文通科技将继续融入更广泛、更深层次的档案工作中,利用OCR识别技术开展档案数字化工作,提高工作效率和准确性,推动档案信息资源建设数字化转型。