Séminaire DIXIT GFII - 28/09/2017 - Olivier MESNARD
EXTRACTION D’INFORMATION ET GRAPHE DE
CONNAISSANCES
• Plan
• Nouveau paradigme de la recherche d’information
• Traitement automatique de la langue et Extraction d’information
• Enrichissement de graphes de connaissances
•
Extraction de relation avec apprentissage distant•
Désambiguïsation avec algorithme orienté graphe• Graphes de connaissances comme outils de médiation pour accéder à une collection de documents
EXTRACTION D’INFORMATION ET GRAPHES DE
CONNAISSANCES
• Exemple simple de recherche d’information
• « Dans quelle ville est né XXX? »
• Ce qu’on obtient quelquefois…
•
Question « Dans quelle ville est né Antoine Stip » (RI)• Ce qu’on attend:
•
Question « Dans quelle ville est né Albert Dupontel » (Q/R)• Reformulation de la question: «ville naissance Antoine Stip »
NOUVEAU PARADIGME DE LA RECHERCHE
D’INFORMATION
• Comment cela fonctionne?
• Avant
1.
Calcul de similarité entre la question et les documents2.
Présentation de la liste de documents de meilleurs scores• Maintenant
1.
Interprétation de la question2.
Interrogation de la base de connaissances• Hypothèse sur la nature de la base de connaissances
•
Ensemble de triplets <prédicat, arg1, arg2>• Que faire quand la base ne contient pas la réponse?
NOUVEAU PARADIGME DE LA RECHERCHE
D’INFORMATION
• Exemple moins simple de recherche d’information
• « Qui est né à Nantes et a joué avec Albert Dupontel? »
•
Réponse 1•
Réponse 2• Et si la réponse est dans une synthèse de plusieurs documents ?
NOUVEAU PARADIGME DE LA RECHERCHE
D’INFORMATION
• Graphe d’entités sous-jacent:
Ex: Knowledge Graph de Google, Wikidata…
Et si je veux construire mon propre graphe de connaissances?
NOUVEAU PARADIGME DE LA RECHERCHE D’INFORMATION
P1
F1 P2
L1 Albert
Dupontel
Enfermés dehors
Claude Perron
Nantes
C1
C3 C2
Film
Personne
Lieu casting
casting
Lieu de naissance
• Extraire la sémantique de données non structurées de type texte
•
d’un flux d’information pour réaliser un tableau de bord (enrichissement)•
d’une collection de documents pour réaliser un système de question réponse• Démarche
•
Définir un modèle•
Identifier les concepts du domaine•
Film, Personne, Lieu,•
Extraire des entités nommées•
Analyser le texte et reconnaître des entités typées (mentions)•
Désambiguïser les mentions•
Faire le lien avec des entités (d’un graphe de connaissances)•
Extraire des relations et les consolider dans un graphe•
Interpréter les phrases qui expriment une relation entre instances•
Consolider ces relations entre instance dans le graphe d’entitésTRAITEMENT LINGUISTIQUE ET EXTRACTION
D’INFORMATION
• Entité: nœud (typé) dans le graphe de connaissances
• Mention: référence à une entité dans un texte
•
Extraction des mentions d’entités nommées•
-> Variabilité de la forme d’une mention pour une même entité•
Liaison avec un élément d’une base de données•
-> Ambiguïté de la référenceTRAITEMENT LINGUISTIQUE ET EXTRACTION
D’INFORMATION
• Relation: lien dans le graphe de connaissances entre deux entités
•
<founded_by,Microsoft,Bill Gates>• Dans le texte: interprétation d’une phrase qui mentionne ces deux entités
•
« William Henry Gates III is a co-founder of the Microsoft Corporation »• Extraction de relation
•
On cherche à découvrir des relation (faits nouveaux)•
Très grande variabilité dans l’expression d’une relation en langage naturel -> Extraction par un système de règles trop difficile• Extraction avec apprentissage par classification
•
Extraction des mentions d’entités•
Production d’hypothèses de relations: deux entités dans une phrase•
Construction d’un corpus d’apprentissage pour un classifieur:• Choix d’apprentissage distant
•
Hypothèses:•
On dispose d’une base de faits (relations avérées dans une base de connaissances)•
On dispose de textes contenant des phrases qui expriment ces faits•
On suppose que la manière d’exprimer une relation varie peu dans le tempsENRICHISSEMENT D’UNE BASE DE CONNAISSANCE
•
Constitution de faits• base relationnelle de l’entreprise
• graphe de connaissances type Wikidata
•
Construction automatisée du corpus d’apprentissage par alignement• (projection) de faits dans un ensemble de textes.
• 1Go de texte analysés.
• 80.000 phrases
•
Construction d’un modèle de l’expression des relations en langage naturel à partir de ces phrases•
Utilisation du modèle pour typer des hypothèses deENRICHISSEMENT D’UNE BASE DE CONNAISSANCE
•
Gestion du bruit dans le corpus annoté•
Choix d’un classifieur multi-label•
Règles de filtrage à mettre en œuvre: texte non grammatical, nombre de phrases par paires d’entités…•
Élimination de faux négatifs par pseudo retour de pertinence: blind relevance feedback•
Autres règles ad hoc de filtrage…Résultat: On a affecté un score de confiance pour les relations possible entre les mentions d’entités dans une phrase
•
Etapes suivantes:•
Regroupement des relations candidates par paires d’entités•
Système de vote, prise en compte de la fréquence et des scores•
Utilisation d’algorithmes orientés graphes (centralité) pour désambiguïser la réponse•
Résultats•
Qualité très variable selon le type de relation• (20-90%) de F-mesure pour 8 types de relation
• Bonne précision, silences important
ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE
• Production d’une réponse sans le besoin de lire le texte
•
Adapté aux questions factuelles•
Présentation du (ou des) fragment(s) qui porte(nt) la justification de la réponse (traçabilité)• Interactivité
•
Enrichissement: affichage d’une fiche qui résume une entité (Wikipedia)•
Navigation et parcours de proche en proche en navigant à partir de la fiche•
Suggestion pour la reformulation d’une question• Application intégrées analyse de réseaux sociaux, recherche d’information
• Interrogation directe du graphe de connaissance
• Inférence dans le graphe de connaissances
• …
GRAPHES DE CONNAISSANCES COMME OUTILS DE
MEDIATION EN RECHERCHE D’INFORMATION
Commissariat à l’énergie atomique et aux énergies alternatives Institut List | CEA SACLAY NANO-INNOV | BAT. 861 – PC142