文通科技文件識別應用於檔案管理局
2022-09-30 13:42:49OCR文字識別技術在數據採集和數字化建檔工作中舉足輕重,自2013年以來,在國家檔案局大力實施“存量數字化、增量電子化”的戰略背景下,紙質檔案數字化副本大量產生,檔案OCR工作已全面啟動。為規範相關工作的開展,國家檔案局因勢利導,於2019年12月發布《紙質檔案數字複製件光學字符識別(OCR)工作規範》,規定了紙質檔案數字複製件OCR工作的組織、實施和管理要求。
但檔案類型多種多樣,文字內容包羅萬象,存在不同語言、字體、大小、排列和對齊方式,甚至識別難度更大的手寫體、繁簡體等情況,這些問題給數據採集和數位化建檔工作帶來了各種挑戰。
文通科技文件識別
文通科技基於全新的深度學習技術框架,推出通用文字識別,支援識別中文簡繁體、藏文、維吾爾文、蒙文、阿拉伯文、哈薩克文、柯爾克孜文、日文、韓文、中英文字混排等十餘門語種,可快速定制、開發字符集,在檔案管理、文字提取、文獻檔案電子化管理等工作中發揮重大作用。
國家智慧財產局、地質勘察局、青海大學、中國郵政、東軟集團等,皆有應用文通科技文字辨識技術,服務客戶或整合至企業系統,應用於檔案數位化管理、合約管理、資料的輸入加工、紙本電子化等多種場景。
文通科技通用文字識支持辨識純英文、簡繁體中文、日文、藏文、中英混排等十幾門語種
通用文字辨識集傳統模式及深度學習演算法結合,支援少數民族文字、生僻字辨識、手寫文字辨識。可辨識字元集大於16000,適配龍芯、兆芯、飛騰等國產硬體平台。
可實現自動傾斜矯正、自動旋轉、自動去底線、自動去污、自動裁切等功能;
自動過濾傾斜、形變、光線變化、壓線、網格、蓋章、模糊、低解析度等乾擾。
支援版面分析、可自動分辨橫向直式文字;線上可辨識字在原文中的位置和大小,可同時辨識多頁PDF檔案。
文通科技將持續融入更廣泛、更深層的檔案工作中,利用OCR辨識技術進行檔案數位化工作,提升工作效率與準確性,推動檔案資訊資源建置數位轉型。