Распознавание документов Wentong Technology применяется в Бюро управления архивами.
2022-09-30 13:42:49Технология оптического распознавания символов (OCR) играет ключевую роль в процессе сбора данных и цифровой архивации. С 2013 года, в условиях активного внедрения стратегии "цифровизация существующих архивов, электронная документация нового поколения", предпринимаются масштабные усилия по цифровому преобразованию бумажных архивов. Вследствие этого была инициирована повсеместная реализация работы по OCR для архивов, а также появились многочисленные цифровые копии архивных документов.Для нормализации этой работы в декабре 2019 года Национальное архивное управление Китая выпустило "Стандарты работы по оптическому распознаванию символов для цифровых копий бумажных архивных документов", которые определяют требования к организации, выполнению и управлению процессом OCR для бумажных архивных документов. Эти стандарты были введены для того, чтобы унифицировать процессы, повысить эффективность работы и обеспечить точность и полноту цифровых копий.С момента введения стандартов работы OCR наблюдается ускорение цифровизации архивов, а также повышение качества и скорости работы. Внедрение технологии OCR способствует стандартизации и автоматизации процесса архивации, обеспечивая долгосрочное сохранение и эффективное управление архивной информацией, а также предоставляя мощную поддержку для информационных технологий в смежных областях.
Типы архивных документов разнообразны, и их содержание охватывает огромное количество информации. В архивных документах могут встречаться различные языки, шрифты, размеры, способы расположения и выравнивания текста. Это включает в себя ещё более сложные для распознавания рукописные тексты, а также тексты в традиционном и упрощённом китайских шрифтах. Эти сложности представляют собой значительные вызовы для сбора данных и цифровой архивации.
Технология распознавания документов от Wintone
Компания Wintone, основанная на новой технологии глубинного обучения, разработала универсальное решение для распознавания текста, которое поддерживает более десяти языков, включая упрощённый и традиционный китайский, тибетский, уйгурский, монгольский, арабский, казахский, киргизский, японский, корейский, а также смешанное использование китайского и английского языков. Система может быстро настраиваться и разрабатывать новые наборы символов. Это играет важную роль в управлении архивами, извлечении текста, электронной архивной документации и других рабочих процессах.
Множество организаций, таких как Государственное управление интеллектуальной собственности Китая, Геологическая служба, Университет Цинхай, Китайская почта и группа Neusoft, уже применяют технологии распознавания текста Wintone для обслуживания клиентов или интеграции в корпоративные системы. Эти технологии используются в цифровом управлении архивами, управлении контрактами, обработке данных, бумажной и электронной документации и других сферах.
Универсальное распознавание текста от Wintone поддерживает распознавание чисто английского текста, упрощённого и традиционного китайского, японского, тибетского, смешанного китайско-английского текста и других языков.
Универсальная система распознавания текста сочетает в себе традиционные модели и алгоритмы глубокого обучения, поддерживает распознавание текста на языках меньшинств, редких символов, а также рукописного текста. Количество распознаваемых символов превышает 16000, и система совместима с отечественными аппаратными платформами, такими как Loongson, Zhaoxin, Phytium и другие.
Система может автоматически исправлять наклон, поворачивать текст, удалять подчёркивания, устранять загрязнения, автоматически обрезать и выполнять другие функции.
Кроме того, система автоматически фильтрует такие помехи, как наклон, деформации, изменения освещенности, штрихи, сетки, штампы, размытие и низкое разрешение.
Система поддерживает анализ макета и может автоматически различать горизонтальное и вертикальное расположение текста. В онлайн-режиме система может распознавать положение и размер текста в оригинальном документе, а также одновременно распознавать многостраничные PDF-файлы.
Компания Wintone продолжит интегрировать свои технологии в более широкий и глубокий процесс архивной работы, используя OCR-технологии для цифровой обработки архивных документов. Это повысит эффективность и точность работы, а также будет способствовать цифровой трансформации в строительстве архивных информационных ресурсов.