Apprentissage automatique pour l’unification et le nommage de données issues de webtables
Contexte
LIZEO IT est une entreprise innovante qui fédère des experts métiers, d’internet et du traitement des données. Depuis 2009, le métier de LIZEO IT est de développer des outils issus des nouvelles technologies de l’information et de la communication qui permettent de comprendre et d’anticiper le fonctionnement du marché du pneumatique. Ainsi, nous relevons chaque jour dans le monde:
•
Les données disponibles sur près de 900 sites marchands et
enseignes physiques visibles sur Internet•
Les données des tests de performances sur les pneumatiques publiés par la presse européenne et les laboratoires spécialisés
•
Les données d’avis des consommateurs
•
Les données des médias sociaux numériques
LIZEO IT s’appuie sur un pôle R&D totalement orienté IA et Big Data.
Aujourd’hui, l’entrprise s’oriente vers d’autres marchés. Pour cela, elle vise à repenser son
approche pour le parcours (Crawling) et l’extraction des informations brutes (Scraping) lui
permettant d’obtenir des webtables brutes qui seront l’exact reflet de la structure de chaque site
web.
Objectifs
Matching des colonnes fortement similaires
Le résultat de l’extraction brute est directement lié à la structure du site. Ainsi, celui-ci peut agréger des informations très diverses dans une même colonne. De même, pour des différentes raisons, il est possible d’avoir des décalages de colonnes car des données optionnelles n’ont pas été détectées ou bien, dans une même page « résultat », il peut exister différents types de ligne. Ainsi, dans le domaine du pneumatique, la principale difficulté rencontrée est
l’agrégation d’information comme par exemple « Dunlop Sportmaxx RT 205/55/16 91V » qui concatènne la marque (Dunlop), le pattern (Sportmaxx RT) et la dimension (205/55/16 91V) elle-même constituée d’une boite géométrique (205/55/16) et d’un indice de charge (91) et d’un indice de vitesse (V).
Des travaux seront réalisés en parallèle pour effectuer un découpage maximal des colonnes.Une fois les colonnes découpées au maximum pour chaque webtables, il s’agit d’appareiller les colonnes les plus similaires entre les différentes webtables redécoupées. Cette opération est associée au concept de
« data unification ». L'unification des données consiste à fusionner des données provenant de sources multiples et à les rendre utilisables par des applications métier. Cela nécessite un processus de collecte, de nettoyage, de déduplication et d'exportation de millions de points de données provenant de sources multiples. C'est une tâche qui nécessite à la fois une intervention humaine et un apprentissage machine.
Il existe de nombreuse plateforme comme TAMR, sur le marché proposant ce genre d’approche, mais les tests que nous avons réalisés sur TAMR ne sont pas probants. En effet, la diversité des données récupérées par les opérations de crawling sur des sites web est assez mal pris en compte.
Une étape indispensable est de pouvoir catégoriser les colonnes en fonction de la sémantique des données qui s’y trouvent. L’idée serait d’identifier le type de l’attribut en fonction du taux de diversité des données dans la série, de leur type, de leurs termes, de leur valeur, etc. en s’aidant de méthodes de partitionnement (clusterisation) et/ou de prolongement syntaxique (Char2Vec). Ensuite, il s’agira de lier les colonnes qui apparaissent comme semblables.
Il est à remarquer qu’une opération manuelle pourrra nommer la colonne ainsi unifiée. Ce nommage pourra être réutilisé lors des prochaines opérations de matching.
Déroulement
Notre objectif est de proposer des algorithmes efficaces
• Non supervisés ou semi-supervisés pour le matching automatique des colonnes et la data unification Ce stage se déroulera dans les locaux du LIRIS et de LIZEO IT (partenaire industriel). Il consiste à dresser un état de l’art complet en vue de proposer une approche par apprentissage automatique qui répond à la problématique posée par le partenaire industriel dans le domaine du pneumatique et applicable à d’autres domaines.
Du point de vue applicatif, les données métier seront à la disposition du stagiaire.
Lieu : LIRIS CNRS UMR 5205 / Lizeo IT
Durée du stage : 6 mois à partir de Février/Mars 2020
Contacts :
- Khalid Benabdeslem (LIRIS) : kbenabde@univ-lyon1.fr - Bruno Canitia (LIZEO IT) : bruno.canitia@lizeo-group.com
Reférences
HE, Bin. A Machine Learning Approach for Data Unification and Its Application in Asset Performance Management. 2016. Thèse de doctorat. Virginia Tech.
Kris Cao and Marek Rei. A Joint Model for Word Embedding and Word Morphology - Computer LabUniversity of CambridgeUnited Kingdom - 2016