EXTRACTION D’INFORMATION ET GRAPHE DE CONNAISSANCES

(1)

Séminaire DIXIT GFII - 28/09/2017 - Olivier MESNARD

EXTRACTION D’INFORMATION ET GRAPHE DE

CONNAISSANCES

(2)

• ^Plan

• Nouveau paradigme de la recherche d’information

• Traitement automatique de la langue et Extraction d’information

• Enrichissement de graphes de connaissances

•

Extraction de relation avec apprentissage distant

•

Désambiguïsation avec algorithme orienté graphe

• Graphes de connaissances comme outils de médiation pour accéder à une collection de documents

EXTRACTION D’INFORMATION ET GRAPHES DE

CONNAISSANCES

(3)

• Exemple simple de recherche d’information

• « Dans quelle ville est né XXX? »

• Ce qu’on obtient quelquefois…

•

Question « Dans quelle ville est né Antoine Stip » (RI)

• Ce qu’on attend:

•

Question « Dans quelle ville est né Albert Dupontel » (Q/R)

• Reformulation de la question: «ville naissance Antoine Stip »

NOUVEAU PARADIGME DE LA RECHERCHE

D’INFORMATION

(4)

• Comment cela fonctionne?

• ^Avant

1.

Calcul de similarité entre la question et les documents

2.

Présentation de la liste de documents de meilleurs scores

• ^Maintenant

1.

Interprétation de la question

2.

Interrogation de la base de connaissances

• Hypothèse sur la nature de la base de connaissances

•

Ensemble de triplets <prédicat, arg1, arg2>

• Que faire quand la base ne contient pas la réponse?

NOUVEAU PARADIGME DE LA RECHERCHE

D’INFORMATION

(5)

• Exemple moins simple de recherche d’information

• « Qui est né à Nantes et a joué avec Albert Dupontel? »

•

^{Réponse 1}

•

^{Réponse 2}

• Et si la réponse est dans une synthèse de plusieurs documents ?

NOUVEAU PARADIGME DE LA RECHERCHE

D’INFORMATION

(6)

• Graphe d’entités sous-jacent:

Ex: Knowledge Graph de Google, Wikidata…

Et si je veux construire mon propre graphe de connaissances?

NOUVEAU PARADIGME DE LA RECHERCHE D’INFORMATION

P1

F1 P2

L1 Albert

Dupontel

Enfermés dehors

Claude Perron

Nantes

C1

C3 C2

Film

Personne

Lieu casting

casting

Lieu de naissance

(7)

• Extraire la sémantique de données non structurées de type texte

•

d’un flux d’information pour réaliser un tableau de bord (enrichissement)

•

d’une collection de documents pour réaliser un système de question réponse

• ^Démarche

•

Définir un modèle

•

Identifier les concepts du domaine

•

Film, Personne, Lieu,

•

Extraire des entités nommées

•

Analyser le texte et reconnaître des entités typées (mentions)

•

Désambiguïser les mentions

•

Faire le lien avec des entités (d’un graphe de connaissances)

•

Extraire des relations et les consolider dans un graphe

•

Interpréter les phrases qui expriment une relation entre instances

•

Consolider ces relations entre instance dans le graphe d’entités

TRAITEMENT LINGUISTIQUE ET EXTRACTION

D’INFORMATION

(8)

• Entité: nœud (typé) dans le graphe de connaissances

• Mention: référence à une entité dans un texte

•

Extraction des mentions d’entités nommées

•

-> Variabilité de la forme d’une mention pour une même entité

•

Liaison avec un élément d’une base de données

•

-> Ambiguïté de la référence

TRAITEMENT LINGUISTIQUE ET EXTRACTION

D’INFORMATION

(9)

• Relation: lien dans le graphe de connaissances entre deux entités

•

<founded_by,Microsoft,Bill Gates>

• Dans le texte: interprétation d’une phrase qui mentionne ces deux entités

•

« William Henry Gates III is a co-founder of the Microsoft Corporation »

• Extraction de relation

•

On cherche à découvrir des relation (faits nouveaux)

•

Très grande variabilité dans l’expression d’une relation en langage naturel -> Extraction par un système de règles trop difficile

• Extraction avec apprentissage par classification

•

Extraction des mentions d’entités

•

Production d’hypothèses de relations: deux entités dans une phrase

•

Construction d’un corpus d’apprentissage pour un classifieur:

• Choix d’apprentissage distant

•

Hypothèses:

•

On dispose d’une base de faits (relations avérées dans une base de connaissances)

•

On dispose de textes contenant des phrases qui expriment ces faits

•

On suppose que la manière d’exprimer une relation varie peu dans le temps

ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE

(10)

•

Constitution de faits

• base relationnelle de l’entreprise

• graphe de connaissances type Wikidata

•

Construction automatisée du corpus d’apprentissage par alignement

• (projection) de faits dans un ensemble de textes.

• 1Go de texte analysés.

• 80.000 phrases

•

Construction d’un modèle de l’expression des relations en langage naturel à partir de ces phrases

•

Utilisation du modèle pour typer des hypothèses de

ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE

(11)

•

Gestion du bruit dans le corpus annoté

•

Choix d’un classifieur multi-label

•

Règles de filtrage à mettre en œuvre: texte non grammatical, nombre de phrases par paires d’entités…

•

Élimination de faux négatifs par pseudo retour de pertinence: blind relevance feedback

•

Autres règles ad hoc de filtrage…

Résultat: On a affecté un score de confiance pour les relations possible entre les mentions d’entités dans une phrase

•

Etapes suivantes:

•

Regroupement des relations candidates par paires d’entités

•

Système de vote, prise en compte de la fréquence et des scores

•

Utilisation d’algorithmes orientés graphes (centralité) pour désambiguïser la réponse

•

^Résultats

•

Qualité très variable selon le type de relation

• (20-90%) de F-mesure pour 8 types de relation

• Bonne précision, silences important

ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE

(12)

• Production d’une réponse sans le besoin de lire le texte

•

Adapté aux questions factuelles

•

Présentation du (ou des) fragment(s) qui porte(nt) la justification de la réponse (traçabilité)

• Interactivité

•

Enrichissement: affichage d’une fiche qui résume une entité (Wikipedia)

•

Navigation et parcours de proche en proche en navigant à partir de la fiche

•

Suggestion pour la reformulation d’une question

• Application intégrées analyse de réseaux sociaux, recherche d’information

• Interrogation directe du graphe de connaissance

• Inférence dans le graphe de connaissances

• ^…

GRAPHES DE CONNAISSANCES COMME OUTILS DE

MEDIATION EN RECHERCHE D’INFORMATION

(13)

Commissariat à l’énergie atomique et aux énergies alternatives Institut List | CEA SACLAY NANO-INNOV | BAT. 861 – PC142

MERCI

[email protected]

EXTRACTION D’INFORMATION ET GRAPHE DE CONNAISSANCES