• Aucun résultat trouvé

Extraction des Comptes Annuels RNCS

N/A
N/A
Protected

Academic year: 2022

Partager "Extraction des Comptes Annuels RNCS"

Copied!
13
0
0

Texte intégral

(1)

Extraction des Comptes Annuels RNCS Méthodes et Technologies Numen

Paris – 14/06/2017

François CHAHUNEAU

NUMEN +33 6 85 21 79

[email protected]

(2)

La nature du flux

• Compte annuels (« Liasses ») déposés aux

Greffes sous forme de documents numérisés ou papier.

• 1,2 à 1,3 millions/an, forte variabilité saisonnière

• Traitement de 3500 à 7000 liasses/jour

• « Liasses » de 4 à 1200 pages

• Qualité de numérisation variable

• Images fréquemment détériorées par scans ou photocopies multiples

CERFA: 56%

NON-CERFA: 44%

(3)

Extraction des méta-données de niveau liasse

• Usage de sources d’informations multiples

• Technologies de matching flou

Donnée Méta-

données fournies

Base SIRENE

Base BODACC Contenu PDF (text-mining)

Règles métier

Confidentialité X X

SIREN X X X X

Dénomination sociale X X X X

Adresse X X X X

Code activité X

Date de dépôt X

Numéro de dépôt X

Code greffe X

Date de clôture X X X X

Date de clôture N-1 X X

Durée exercice X X

(4)

Workflow SmartExtract® pour l’extraction des Données Comptables

TYPAGE PAGES OU COMPLÉMENT MANUEL

L

REPÉRAGE LIGNES AUTO

E

REPÉRAGE LIGNES OU COMPLÉMENT MANUEL

E

EXTRACTION MONTANTS

AUTO E

COMPLÉMENT OU CONTRÔLE

MANUEL E

CONTRÔLE GLOBAL AUTO

L L

RÉASSEMBLAGE ETATS

L

TYPAGE PAGES AUTO

L

CONTRÔLE GLOBAL MANUEL

L

(5)

Echec du repérage zonal

Pour les formulaires CERFA, le repérage

zonal ne me permet pas d’atteindre les taux d’automatisation visés

• Images reçues

• Après recalage affine, source homogène

• Flux réel multi-sources

(6)

Reconnaissance et localisation de motifs textuels

Motifs de référence: formulaires CERFA et plan comptable

OCR intégral obligatoire

Utilisé également pour la classification (type d’état = profil ordonné de libellés)

Obstacles:

Variabilité rédactionnelle modélisable: formulations équivalentes, abréviations

Variabilité aléatoire: altérations OCR

Technologie Numen ERTEP:

Expressions Régulières à Tolérance d’Erreur Paramétrable

Installations techniques matériel et outillage industriels Installations techniques, matériel, outillage industriels Installations techniques, mat. et out. industriels

(7)

Un zonage spécifique à chaque page

(8)

Utilisation des règles métier

835 postes comptables extractibles

• 506 règles impliquant 773 postes distincts

• Ventilation:

 704 postes (84%) sont soumis à au moins une contrainte « forte » de type checksum  Pas de contrôle humain

 69 postes (8%) sont soumis à une contrainte « faible » de type seuil ou inégalité  Contrôle humain sur certains postes

 62 postes (8%), pour l’essentiel peu fréquents, ne sont soumis à aucune règle  Contrôle humain systématique.

• Stockage centralisé en base de règles évolutive

(9)

Interface opérateur (extraction)

(10)

Optimiser la collaboration homme/machine

• Jouer sur la complémentarité des points forts

• Taylorisation

Spécialisation des opérateurs par niveau de compétence métier (métadonnées/repérage lignes comptables/correction montants)

Sérialisation des tâches par types d’objets similaires (par type d’état financier)

Qualité Automate Opérateur

Systématicité ++

Régularité ++

Taille de la base de connaissances +

Absence d’égo (notion d'automate fiable) ++

Capacité d’improvisation et de mobilisation de connaissances connexes ++

Capacité de déchiffrage +++

(11)

Gestion des incohérences résiduelles

• Rôle direct de l’INPI dans:

La validation des rejets justifiés

L’arbitrage des cas contradictoires

La recherche d’informations complémentaires (greffes, etc.)

• Portail de gestion des rejets

(12)

Une synthèse des savoir-faire Numen en matière d’extraction de données

• Données piégées dans des documents non-structurés

• Repérage sur base de patterns textuels (text-mining)

OCR pleine page généralisé

Gestion du bruit OCR

• Croisement de sources d’information multiples

Usage de la redondance d’information

Usage des règles métier

• Collaboration automates / opérateurs

Taylorisation du process

Workflow 100% automatisé

(13)

Merci de votre attention

numen.group numen.solutions numen.marketing numen.expert

numeneurope.com

Références

Documents relatifs

La promotion des  Web Services  vise à ré-encapsuler tout un ensemble de protocoles sur HTTP au lieu de le faire sur IP, pour contourner le firewall Les logiciels d'EDI, de

Ils sont identifiés dans la liste des postes et peuvent être demandés école par école, par communes ou par regroupement de communes en fonction du nombre de classes.. ATTENTION:

1 création de poste dans 4 académies : Lyon (un collège dans l'Ain), Montpellier (dans un lycée de Lunel), Nancy-Metz (création d'un poste de certifié dans un LP à Tonblaine),

Je demande au SNES*/SNUEP*/SNEP* de me communiquer les informations académiques et nationales de gestion de ma carrière auxquelles il a accès à l’occasion des commissions paritaires

Je demande au SNES*/SNUEP*/SNEP* de me communiquer les informations académiques et nationales de gestion de ma carrière auxquelles il a accès à l’occasion des commissions paritaires

Je demande à ce syndicat  de me communiquer les informations académiques et nationales de gestion de ma carrière auxquelles il a accès via les informations fournies aux élus de

Tous les symboles de parcours sont de telle taille qu’ ’on ne on ne puisse pas confondre un point avec un autre. puisse pas confondre un point avec

entreprise coûteuse, exigeant des investissements dans l’infrastructure, la technologie de l’information, la conformité réglementaire, la sécurité et la formation, sans parler des