Intuition de l’approche proposée - Gestion de l’incertitude et de l’imprécision dans un process

La chaîne de traitement décrite dans cette thèse permet d’extraire de l’information textuelle en monde ouvert, d’inférer de la connaissance et de l’évaluer. Ce processus d’inférence tient compte à la fois de l’ensemble des informations délivrées par les relations extraites et d’une source de connaissances externe (si l’utilisateur dé- sire étendre la capacité d’inférence). Sa portée a pour ambition de couvrir plusieurs domaines dont la découverte de connaissances, les systèmes de questions-réponses ou l’enrichissement des bases de connaissances. Compte tenu de ces objectifs, la chaîne de traitement se situe au regard de la figure1.9 au niveau des méthodes de construction sans schéma ontologique initial. Toutefois, son originalité repose sur un module de raisonnement constitué de deux principales parties. La première cor- respond à une étape d’inférence de connaissances réalisée sur les données extraites par l’intermédiaire d’un processus d’induction. Ce dernier permet de découvrir de la connaissance par la généralisation des observations. Ainsi, toute déclaration in- duite lors de ce processus et qui n’est pas explicitée dans les textes est dite décou- verte7. La seconde partie, quant à elle, représente la procédure d’évaluation de la pertinence des connaissances réalisée au travers d’une phase de sélection des décla- rations. Pour cela, elle exploite différents modèles de sélection s’appuyant sur des critères spécifiques, calculés pour chaque déclaration. Enfin, une autre originalité de notre approche est de considérer l’incertitude linguistique au niveau du module de raisonnement.

Les sous-sections suivantes présentent une vue globale du module de raisonnement allant de la phase d’inférence à l’étape de sélection en passant par les moyens de détecter et considérer l’incertitude linguistique.

1.4.1 Inférence de connaissances

Le processus d’inférence est réalisé au travers de la structuration des sujets et des objets des déclarations étudiées au sein d’un ordre partiel. Ce dernier permet d’exploiter une propriété d’inclusion lexicale appliquée aux différents syntagmes nominaux. Prenons l’exemple de deux phrases issues de Wikipedia et des relations qu’elles ex- plicitent (cf. figure1.14).

7. Dans le manuscrit, ce terme de découverte est généralement remplacé par "génération de décla- rations" pour le distinguer du domaine scientifique de la découverte de connaissances.

1.4. Intuition de l’approche proposée 19

FIGURE 1.14 – Exemples de phrases issues de Wikipedia et des relations <sujet, prédicat, objet> exprimées. Le prédicat est_en_rapport_avec est considéré synonyme du prédicat est_liée_à. Le syndrome de Marfan est en rapport avec une mutation du gène FBN-1.

La mucoviscidose est liée à des mutations du gène CFTR. ↓

L’observation des syntagmes nominaux "mutation gène FBN-1" et "mutation gène CFTR" évoquent un concept plus général "mutation gène", qui lui même est une spé- cialisation de "mutation". Ainsi, en tenant compte d’une structuration taxonomique nous pouvons mettre en évidence une hiérarchie entre ces concepts (cf. figure1.15).

FIGURE 1.15 – Liens d’implication syntaxique tenant compte de la décomposition de deux syntagmes nominaux.

mutation

mutation gène

mutation gène FBN-1 mutation gène CFTR

sous_classe_de

est_un est_un

Des premiers éléments de connaissances émergent de cette structuration par rapport aux relations extraites. En effet dans notre exemple, nous pouvons maintenant générer les relations : <syndrome de Marfan, est_liée_à, mutation gène> et <mucoviscidose, est_liée_à, mutation gène>.

L’ordre partiel établi sur les syntagmes permet également de tirer parti d’une connaissance a priori exprimée au sein d’une taxonomie (T-box) dans le but d’intégrer par exemple que toute observation des termes "mucoviscidose" et "syndrome de Mar- fan" correspondent à une évocation de "maladies génétiques" (cf. figure1.16). Toute- fois cela suggère la mise en place au sein de la chaîne de traitement d’un moyen de mise en correspondance entre les termes et les concepts d’une taxonomie, abordant ainsi les problématiques de désambiguïsation.

FIGURE1.16 – Enrichissement des sujets des relations à partir d’une structuration de la connaissance externe. Les pointillés représentent

la connaissance externe. maladies génétiques

syndrome de Marfan mucoviscidose

20 Chapitre 1. Introduction

Ces implications directes (syntaxiques) et indirectes (source externe) renferment des informations supplémentaires par rapport aux relations extraites. Cette connaissance se traduit par la génération de nouvelles relations. En effet, cette structuration permet de mettre en correspondance des concepts faisant référence de façon implicite et non triviale à une même évocation (cf. figure1.17).

FIGURE1.17 – Génération de nouvelles relations. Les flèches repré- sentent les relations de subsomption, les lignes pleines les relations

extraites et les tirets les relations générées. > maladies génétiques synd. de Marfan mucoviscidose mutation mutation gène

mut. gène FBN-1 mut. gène CFTR

est_liée_à est_liée_à

Ce processus de génération permet de faire émerger de nouvelles informations e.g. la structuration des déclarations <mucoviscidose, est liée à, mutation gène CFTR> et <syndrome de Marfan, est liée à, mutation gène FBN-1> font implicitement réfé- rence à la déclaration éventuellement non observée <maladie génétique, est liée à, mutation gène> puisqu’il existe au moins une maladie génétique liée à au moins une mutation génétique.

1.4.2 Évaluation de la pertinence des déclarations

La seconde partie du module de raisonnement porte sur les modalités d’évaluation de la pertinence des déclarations extraites et générées. Pour cela, nous définissons deux critères permettant de discriminer les relations : la croyance et la spécificité. Chacune de ces caractéristiques est estimée à partir de la construction d’un nouveau graphe hiérarchisant l’ensemble des relations extraites et générées en fonction des relations de subsomption entre les sujets et objets des déclarations (cf. figure1.18).

FIGURE1.18 – Structuration des relations extraites et générées.

est_liée_à(maladie génétique, mutation gène)

est_liée_à(syndrome de Marfan, mutation du gène FBN-1)

est_liée_à(mucoviscidose, mutation du gène CFTR)

1.4. Intuition de l’approche proposée 21

Au travers de ce graphe structurant les déclarations, le critère de spécificité corres- pond à la profondeur d’une déclaration et la croyance au nombre d’observations d’une déclaration augmenté du nombre d’observations des déclarations plus spéci- fiques. Ainsi, la valeur de croyance découle d’un processus de propagation ascen- dante et monotone des observations.

Par la suite, les critères de spécificité et de croyance permettent d’évaluer la pertinence de chaque déclaration au travers de différents modèles de sélection. Ces der- niers matérialisent diverses façons d’exploiter ces critères dans l’objectif d’estimer la valeur de vérité des déclarations et de les filtrer.

1.4.3 L’incertitude linguistique dans le module de raisonnement

La chaîne de traitement propose de considérer la prise en compte de l’incertitude linguistique dans le processus d’inférence. En effet, une information contenant un marqueur d’incertitude ne peut être considérée au même niveau qu’une information certaine e.g. "Je crois que Barack Obama est américain." et "Barack Obama est améri- cain" représentent deux niveaux d’information différents tels que le poids accordé à la seconde phrase est plus fort que celui de la première phrase. Dans un contexte de découverte de connaissances, nous nous intéressons notamment à l’agrégation de signaux faibles provenant des extractions. Cette agrégation retranscrit des intuitions sur des connaissances à partir de faits peu exprimés dans les textes. Ainsi, nous pouvons supposer que la prise en compte de l’incertitude linguistique peut jouer un rôle non négligeable sur la façon d’exploiter les extractions lors de l’inférence de connaissances. Toutefois, il est probable que ce rôle soit amoindri dans le cadre d’observations nombreuses à propos d’une relation déjà connue.

La prise en compte de l’incertitude linguistique dans le module de raisonnement est réalisée par l’intermédiaire du processus de propagation des observations. En effet, le poids accordé aux observations peut être modifié en fonction de la qualité des déclarations et notamment de l’incertitude qu’elles véhiculent.

Concernant la détection de l’incertitude à partir du langage naturel, nous avons dé- veloppé une méthode basée sur de l’apprentissage. Pour cela, nous réalisons une représentation vectorielle des phrases à partir d’une agrégation spécifique des poids associés à l’ensemble des unités qui la composent. Ces unités peuvent être les uni- grammes, bi-grammes, etc., tandis que les poids représentent une probabilité condi- tionnelle d’appartenir à une classe donnée de l’incertitude. Cette approche a été éva- luée sur des jeux d’évaluation standards.

La prochaine section expose une vue générale du manuscrit avec une courte présen- tation des chapitres à suivre.

22 Chapitre 1. Introduction

Dans le document Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes (Page 37-41)