Extraction des Comptes Annuels RNCS Méthodes et Technologies Numen
Paris – 14/06/2017
François CHAHUNEAU
NUMEN +33 6 85 21 79
La nature du flux
• Compte annuels (« Liasses ») déposés aux
Greffes sous forme de documents numérisés ou papier.
• 1,2 à 1,3 millions/an, forte variabilité saisonnière
• Traitement de 3500 à 7000 liasses/jour
• « Liasses » de 4 à 1200 pages
• Qualité de numérisation variable
• Images fréquemment détériorées par scans ou photocopies multiples
CERFA: 56%
NON-CERFA: 44%
Extraction des méta-données de niveau liasse
• Usage de sources d’informations multiples
• Technologies de matching flou
Donnée Méta-
données fournies
Base SIRENE
Base BODACC Contenu PDF (text-mining)
Règles métier
Confidentialité X X
SIREN X X X X
Dénomination sociale X X X X
Adresse X X X X
Code activité X
Date de dépôt X
Numéro de dépôt X
Code greffe X
Date de clôture X X X X
Date de clôture N-1 X X
Durée exercice X X
Workflow SmartExtract® pour l’extraction des Données Comptables
TYPAGE PAGES OU COMPLÉMENT MANUEL
L
REPÉRAGE LIGNES AUTO
E
REPÉRAGE LIGNES OU COMPLÉMENT MANUEL
E
EXTRACTION MONTANTS
AUTO E
COMPLÉMENT OU CONTRÔLE
MANUEL E
CONTRÔLE GLOBAL AUTO
L L
RÉASSEMBLAGE ETATS
L
TYPAGE PAGES AUTO
L
CONTRÔLE GLOBAL MANUEL
L
Echec du repérage zonal
Pour les formulaires CERFA, le repérage
zonal ne me permet pas d’atteindre les taux d’automatisation visés
• Images reçues
• Après recalage affine, source homogène
• Flux réel multi-sources
Reconnaissance et localisation de motifs textuels
• Motifs de référence: formulaires CERFA et plan comptable
• OCR intégral obligatoire
• Utilisé également pour la classification (type d’état = profil ordonné de libellés)
• Obstacles:
• Variabilité rédactionnelle modélisable: formulations équivalentes, abréviations
• Variabilité aléatoire: altérations OCR
• Technologie Numen ERTEP:
Expressions Régulières à Tolérance d’Erreur Paramétrable
Installations techniques matériel et outillage industriels Installations techniques, matériel, outillage industriels Installations techniques, mat. et out. industriels
Un zonage spécifique à chaque page
Utilisation des règles métier
•
835 postes comptables extractibles
• 506 règles impliquant 773 postes distincts
• Ventilation:
704 postes (84%) sont soumis à au moins une contrainte « forte » de type checksum Pas de contrôle humain
69 postes (8%) sont soumis à une contrainte « faible » de type seuil ou inégalité Contrôle humain sur certains postes
62 postes (8%), pour l’essentiel peu fréquents, ne sont soumis à aucune règle Contrôle humain systématique.
• Stockage centralisé en base de règles évolutive
Interface opérateur (extraction)
Optimiser la collaboration homme/machine
• Jouer sur la complémentarité des points forts
• Taylorisation
• Spécialisation des opérateurs par niveau de compétence métier (métadonnées/repérage lignes comptables/correction montants)
• Sérialisation des tâches par types d’objets similaires (par type d’état financier)
Qualité Automate Opérateur
Systématicité ++
Régularité ++
Taille de la base de connaissances +
Absence d’égo (notion d'automate fiable) ++
Capacité d’improvisation et de mobilisation de connaissances connexes ++
Capacité de déchiffrage +++
Gestion des incohérences résiduelles
• Rôle direct de l’INPI dans:
• La validation des rejets justifiés
• L’arbitrage des cas contradictoires
• La recherche d’informations complémentaires (greffes, etc.)
• Portail de gestion des rejets
Une synthèse des savoir-faire Numen en matière d’extraction de données
• Données piégées dans des documents non-structurés
• Repérage sur base de patterns textuels (text-mining)
• OCR pleine page généralisé
• Gestion du bruit OCR
• Croisement de sources d’information multiples
• Usage de la redondance d’information
• Usage des règles métier
• Collaboration automates / opérateurs
• Taylorisation du process
• Workflow 100% automatisé
Merci de votre attention
numen.group numen.solutions numen.marketing numen.expert
numeneurope.com