การระบุเอกสาร Wintone สำหรับสำนักงานจัดการเอกสาร
2022-10-08 16:45:19การใช้เทคโนโลยีการรู้จำอักขระ OCR ของ Wintone Science & Technology ในการจัดการเอกสารสำหรับสำนักงานบริหารสถาบันเอกสาร
เทคโนโลยีการรู้จำอักขระ OCR มีบทบาทสำคัญในการเก็บรวบรวมข้อมูลและการจัดเก็บเอกสารดิจิทัล ตั้งแต่ปี 2013 ในบริบทของการดำเนินกลยุทธ์ "การแปลงเอกสารเก่าให้เป็นดิจิทัลและการแปลงเอกสารที่เพิ่มขึ้นให้เป็นไฟล์อิเล็กทรอนิกส์" โดยสำนักงานบริหารสถาบันเอกสารแห่งชาติได้มีการผลิตสำเนาดิจิทัลของเอกสารกระดาษจำนวนมาก และเริ่มดำเนินการงาน OCR สำหรับเอกสารอย่างเต็มรูปแบบ
เพื่อให้การพัฒนางานในด้านนี้เป็นไปอย่างมีระเบียบ สำนักงานบริหารสถาบันเอกสารแห่งชาติได้ใช้ประโยชน์จากสถานการณ์ดังกล่าว โดยในเดือนธันวาคม 2019 ได้ออกข้อกำหนดการทำงานเกี่ยวกับการรู้จำอักขระด้วยแสง (OCR) สำหรับสำเนาดิจิทัลของเอกสารกระดาษ ซึ่งได้ระบุถึงข้อกำหนดในการจัดองค์กร การดำเนินงาน และการจัดการงาน OCR สำหรับสำเนาดิจิทัลของเอกสารกระดาษ
อย่างไรก็ตาม ประเภทของไฟล์มีความหลากหลาย และเนื้อหาข้อความมีความหลากหลายมาก มีภาษาต่างๆ แบบอักษร ขนาด รูปแบบการจัดเรียง และการจัดตำแหน่งที่แตกต่างกัน รวมถึงตัวอักษรลายมือและตัวอักษรทั้งแบบดั้งเดิมและแบบย่อซึ่งทำให้การรู้จำยากขึ้น ปัญหาดังกล่าวได้สร้างความท้าทายให้กับงานการเก็บข้อมูลและการจัดเก็บเอกสารดิจิทัล
การรู้จำเอกสารจาก Wintone Science & Technology
โดยอาศัยกรอบเทคโนโลยีการเรียนรู้ลึก (Deep Learning) ใหม่ Wintone Science & Technology ได้เปิดตัวการรู้จำอักขระทั่วไปที่รองรับการรู้จำภาษาจีนแบบย่อและแบบดั้งเดิม ภาษาทิเบต ภาษายูฆูร์ ภาษาโมงโกเลีย ภาษาอาหรับ ภาษาคาซัค ภาษาคีร์กิซ ภาษาญี่ปุ่น ภาษาเกาหลี และตัวอักษรจีนและอังกฤษ ซึ่งสามารถปรับแต่งและพัฒนาชุดอักขระได้อย่างรวดเร็ว และมีบทบาทสำคัญในการจัดการเอกสาร การสกัดข้อความ และการจัดการเอกสารดิจิทัล
สำนักงานทรัพย์สินทางปัญญาแห่งชาติ สำนักงานสำรวจธรณีวิทยา มหาวิทยาลัยชิงไห่ ไปรษณีย์จีน กลุ่มนิวซอฟท์ และอื่นๆ ได้ใช้เทคโนโลยีการรู้จำอักขระจาก Wintone Science & Technology ในการให้บริการลูกค้าหรือการผสานเข้ากับระบบขององค์กร ซึ่งนำไปใช้ในหลายสถานการณ์ เช่น การจัดการเอกสารดิจิทัล การจัดการสัญญา การป้อนข้อมูลและการประมวลผล และการแปลงเอกสารกระดาษเป็นอิเล็กทรอนิกส์
การรู้จำอักขระทั่วไปจาก Wintone Science & Technology รองรับการรู้จำมากกว่า 10 ภาษา** เช่น ภาษาอังกฤษบริสุทธิ์ ภาษาจีนแบบย่อและแบบดั้งเดิม ภาษาญี่ปุ่น ภาษาทิเบต ภาษาจีนและอังกฤษ
ชุดการรู้จำอักขระทั่วไปผสมผสานระหว่างอัลกอริธึมแบบดั้งเดิมและการเรียนรู้ลึก (Deep Learning) รองรับการรู้จำอักขระชนกลุ่มน้อย อักขระหายาก และอักขระลายมือ ซึ่งชุดอักขระที่สามารถรู้จำได้มีมากกว่า 16,000 ตัว ซึ่งเหมาะสมกับแพลตฟอร์มฮาร์ดแวร์ในประเทศ เช่น Godson, Megacore และ Feiteng
สามารถทำการแก้ไขการเอียงอัตโนมัติ การหมุนอัตโนมัติ การลบเส้นใต้ การทำความสะอาดอัตโนมัติ การตัดอัตโนมัติ และฟังก์ชันอื่นๆ ได้
สามารถกรองอัตโนมัติจากการเอียง, การบิดเบือน, การเปลี่ยนแสง, การกดเส้น, ตาข่าย, แสตมป์, ภาพเบลอ, ความละเอียดต่ำ และการรบกวนอื่น ๆ ได้