• Aucun résultat trouvé

EXTRACTION D’INFORMATION ET GRAPHE DE CONNAISSANCES

N/A
N/A
Protected

Academic year: 2022

Partager "EXTRACTION D’INFORMATION ET GRAPHE DE CONNAISSANCES"

Copied!
13
0
0

Texte intégral

(1)

Séminaire DIXIT GFII - 28/09/2017 - Olivier MESNARD

EXTRACTION D’INFORMATION ET GRAPHE DE

CONNAISSANCES

(2)

Plan

• Nouveau paradigme de la recherche d’information

• Traitement automatique de la langue et Extraction d’information

• Enrichissement de graphes de connaissances

Extraction de relation avec apprentissage distant

Désambiguïsation avec algorithme orienté graphe

• Graphes de connaissances comme outils de médiation pour accéder à une collection de documents

EXTRACTION D’INFORMATION ET GRAPHES DE

CONNAISSANCES

(3)

Exemple simple de recherche d’information

• « Dans quelle ville est né XXX? »

• Ce qu’on obtient quelquefois…

Question « Dans quelle ville est né Antoine Stip » (RI)

• Ce qu’on attend:

Question « Dans quelle ville est né Albert Dupontel » (Q/R)

• Reformulation de la question: «ville naissance Antoine Stip »

NOUVEAU PARADIGME DE LA RECHERCHE

D’INFORMATION

(4)

Comment cela fonctionne?

Avant

1.

Calcul de similarité entre la question et les documents

2.

Présentation de la liste de documents de meilleurs scores

Maintenant

1.

Interprétation de la question

2.

Interrogation de la base de connaissances

• Hypothèse sur la nature de la base de connaissances

Ensemble de triplets <prédicat, arg1, arg2>

Que faire quand la base ne contient pas la réponse?

NOUVEAU PARADIGME DE LA RECHERCHE

D’INFORMATION

(5)

Exemple moins simple de recherche d’information

• « Qui est né à Nantes et a joué avec Albert Dupontel? »

Réponse 1

Réponse 2

Et si la réponse est dans une synthèse de plusieurs documents ?

NOUVEAU PARADIGME DE LA RECHERCHE

D’INFORMATION

(6)

• Graphe d’entités sous-jacent:

Ex: Knowledge Graph de Google, Wikidata…

Et si je veux construire mon propre graphe de connaissances?

NOUVEAU PARADIGME DE LA RECHERCHE D’INFORMATION

P1

F1 P2

L1 Albert

Dupontel

Enfermés dehors

Claude Perron

Nantes

C1

C3 C2

Film

Personne

Lieu casting

casting

Lieu de naissance

(7)

• Extraire la sémantique de données non structurées de type texte

d’un flux d’information pour réaliser un tableau de bord (enrichissement)

d’une collection de documents pour réaliser un système de question réponse

Démarche

Définir un modèle

Identifier les concepts du domaine

Film, Personne, Lieu,

Extraire des entités nommées

Analyser le texte et reconnaître des entités typées (mentions)

Désambiguïser les mentions

Faire le lien avec des entités (d’un graphe de connaissances)

Extraire des relations et les consolider dans un graphe

Interpréter les phrases qui expriment une relation entre instances

Consolider ces relations entre instance dans le graphe d’entités

TRAITEMENT LINGUISTIQUE ET EXTRACTION

D’INFORMATION

(8)

• Entité: nœud (typé) dans le graphe de connaissances

• Mention: référence à une entité dans un texte

Extraction des mentions d’entités nommées

-> Variabilité de la forme d’une mention pour une même entité

Liaison avec un élément d’une base de données

-> Ambiguïté de la référence

TRAITEMENT LINGUISTIQUE ET EXTRACTION

D’INFORMATION

(9)

• Relation: lien dans le graphe de connaissances entre deux entités

<founded_by,Microsoft,Bill Gates>

• Dans le texte: interprétation d’une phrase qui mentionne ces deux entités

« William Henry Gates III is a co-founder of the Microsoft Corporation »

• Extraction de relation

On cherche à découvrir des relation (faits nouveaux)

Très grande variabilité dans l’expression d’une relation en langage naturel -> Extraction par un système de règles trop difficile

• Extraction avec apprentissage par classification

Extraction des mentions d’entités

Production d’hypothèses de relations: deux entités dans une phrase

Construction d’un corpus d’apprentissage pour un classifieur:

• Choix d’apprentissage distant

Hypothèses:

On dispose d’une base de faits (relations avérées dans une base de connaissances)

On dispose de textes contenant des phrases qui expriment ces faits

On suppose que la manière d’exprimer une relation varie peu dans le temps

ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE

(10)

Constitution de faits

base relationnelle de l’entreprise

graphe de connaissances type Wikidata

Construction automatisée du corpus d’apprentissage par alignement

(projection) de faits dans un ensemble de textes.

1Go de texte analysés.

80.000 phrases

Construction d’un modèle de l’expression des relations en langage naturel à partir de ces phrases

Utilisation du modèle pour typer des hypothèses de

ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE

(11)

Gestion du bruit dans le corpus annoté

Choix d’un classifieur multi-label

Règles de filtrage à mettre en œuvre: texte non grammatical, nombre de phrases par paires d’entités…

Élimination de faux négatifs par pseudo retour de pertinence: blind relevance feedback

Autres règles ad hoc de filtrage…

Résultat: On a affecté un score de confiance pour les relations possible entre les mentions d’entités dans une phrase

Etapes suivantes:

Regroupement des relations candidates par paires d’entités

Système de vote, prise en compte de la fréquence et des scores

Utilisation d’algorithmes orientés graphes (centralité) pour désambiguïser la réponse

Résultats

Qualité très variable selon le type de relation

(20-90%) de F-mesure pour 8 types de relation

Bonne précision, silences important

ENRICHISSEMENT D’UNE BASE DE CONNAISSANCE

(12)

• Production d’une réponse sans le besoin de lire le texte

Adapté aux questions factuelles

Présentation du (ou des) fragment(s) qui porte(nt) la justification de la réponse (traçabilité)

• Interactivité

Enrichissement: affichage d’une fiche qui résume une entité (Wikipedia)

Navigation et parcours de proche en proche en navigant à partir de la fiche

Suggestion pour la reformulation d’une question

• Application intégrées analyse de réseaux sociaux, recherche d’information

• Interrogation directe du graphe de connaissance

• Inférence dans le graphe de connaissances

GRAPHES DE CONNAISSANCES COMME OUTILS DE

MEDIATION EN RECHERCHE D’INFORMATION

(13)

Commissariat à l’énergie atomique et aux énergies alternatives Institut List | CEA SACLAY NANO-INNOV | BAT. 861 – PC142

MERCI

[email protected]

Références

Documents relatifs

Nous avons développé AgroLD (Venkatesan et al., 2018) (Agronomic Linked Data - www.agrold.org), une base de connaissances reposant sur les technologies du Web sémantique et

[r]

Ici le coefficient de proportionnalité r &gt; 0 ne doit pas dépendre la page i considérée.... On suppose que A

Elle est continue donc l'image de son domaine de dénition R est un intervalle (théorème des valeurs intermédiaires).. Les limites en + ∞ et −∞ sont + ∞ et −∞ donc

Elle est continue donc l'image de son domaine de dénition R est un intervalle (théorème des valeurs intermédiaires).. Les limites en + ∞ et −∞ sont + ∞ et −∞ donc

Nous avons présenté une méthode de fouille de données complexes pour identifier et mo- déliser des règles de décisions d’agriculteurs à l’échelle de l’exploitation

Nous avons développé AgroLD (Venkatesan et al., 2018) (Agronomic Linked Data - www.agrold.org), une base de connaissances reposant sur les technologies du Web sémantique et

By evaluating the angular dependence of the X-ray fluorescence intensity on the grazing incidence or emission angles in the vicinity of the respective critical angle, the