Accueil cas Affaires gouvernementales Identification des documents Wintone pour le Bureau de gestion des archives

Identification des documents Wintone pour le Bureau de gestion des archives

2022-10-08 16:45:19

L’identification des documents Wintone Science & Technology appliquée au Bureau de la gestion des archives

La technologie de reconnaissance optique de caractères (OCR) joue un rôle essentiel dans la collecte des données et l’archivage numérique.

Depuis 2013, dans le cadre de la stratégie nationale de "numérisation des stocks et dématérialisation des nouveaux documents", mise en œuvre par l’Administration nationale des archives, un grand nombre de copies numériques d’archives papier ont été produites, et le travail d’OCR appliqué aux archives a été pleinement lancé.

Afin de standardiser le développement de ces travaux, l’Administration nationale des archives a saisi cette opportunité et a publié en décembre 2019 les spécifications des travaux de reconnaissance optique de caractères (OCR) pour les copies numériques des archives papier. Ce document définit les exigences d'organisation, de mise en œuvre et de gestion du processus OCR appliqué aux archives numérisées.

Les défis de la reconnaissance des documents d’archives

Les types de documents sont très variés, et leur contenu textuel est extrêmement diversifié.

Multiplicité des langues et des écritures
 A Présence de différentes langues et polices de caractères.
 B Variations de tailles, agencements et alignements du texte.

Complexité des caractères manuscrits et anciens
 A Texte pouvant être en chinois simplifié ou traditionnel.
 B Documents incluant de l’écriture manuscrite difficile à reconnaître.

Défis posés à la numérisation et à l’archivage numérique
 A Ces éléments compliquent la collecte de données et la gestion électronique des archives.


Reconnaissance de documents par Wintone Science & Technology

Wintone Science & Technology a développé une technologie avancée de reconnaissance universelle de caractères, basée sur un nouveau cadre d’apprentissage profond.

Prise en charge de multiples langues
 A Reconnaissance du chinois simplifié et traditionnel, tibétain, ouïghour, mongol, arabe, kazakh, kirghiz, japonais et coréen.
 B Capacité de personnalisation rapide et de développement de nouveaux ensembles de caractères.

Applications pratiques
 A Gestion des archives et des fichiers numériques.
 B Extraction de texte et dématérialisation de documents.
 C Optimisation de la gestion électronique des fichiers et documents.

Utilisation par de grandes institutions
 A Déployé par des organisations telles que l’Office national de la propriété intellectuelle, le Bureau d’étude géologique, l’Université du Qinghai, China Post et le groupe Neusoft.
 B Intégration dans des systèmes d’entreprise et de gestion numérique des documents.
 C Application dans des scénarios variés, incluant gestion des archives, contrats, saisie et traitement de données.


Reconnaissance universelle de caractères Wintone

Prise en charge de plus de dix langues
 A Capacité à reconnaître l’anglais pur, le chinois simplifié et traditionnel, le japonais, le tibétain et les documents bilingues chinois-anglais.

Technologie hybride de reconnaissance
 A Combinaison d’algorithmes traditionnels de reconnaissance de formes et d’apprentissage profond.
 B Prise en charge de caractères minoritaires, rares et manuscrits.

Large compatibilité avec les plateformes matérielles
 A Reconnaissance de plus de 16 000 caractères.
 B Fonctionne sur les plates-formes matérielles nationales telles que Godson, Megacore et Feiteng.

Wintone Science & Technology offre ainsi une solution puissante et polyvalente pour répondre aux besoins complexes de reconnaissance et de gestion numérique des documents.

Elle permet de réaliser la correction automatique de l’inclinaison, la rotation automatique, la suppression automatique des soulignements, la décontamination automatique, la découpe automatique, ainsi que d’autres fonctions:


Filtrage automatique des inclinaisons, déformations, variations de luminosité, superpositions de lignes, grilles, tampons, flous, faibles résolutions et autres interférences.