• Aucun résultat trouvé

Extraction d’information ouverte (OIE)

Extraction d’information

2.9 Extraction d’information ouverte (OIE)

Dans les deux dernières décennies, nous avons noté une évolution des systèmes d’EI, de systèmes monolingues, dépendants du domaine, basés sur la connaissance vers des systèmes multilingues, entraînables qui utilisent des techniques d’appren-tissage peu supervisées (Piskorski & Yangarber, 2013). Le paradigme d’extraction d’information ouverte (Open Information Extraction, OIE) (Banko et al., 2007 ; Et-zioni, Banko, Soderland, & Weld, 2008) a été introduit pour faciliter la découverte de relations dans les textes indépendamment du domaine et le passage à l’échelle des gros corpus hétérogènes tels que le web. Contrairement aux systèmes d’EI tra-ditionnels où les relations d’intérêt doivent être spécifiées à l’avance, les systèmes d’OIE prennent en entrée uniquement un corpus textuel sans aucune connaissance ou spécification des relations d’intérêt et produit un ensemble de relations extraites. L’un des exemples les plus représentatifs des systèmes d’OIE est le système Tex-tRunner (Yates et al., 2007). TexTex-tRunner apprend tout d’abord un modèle général de la manière dont sont exprimées les relations dans un langage particulier en utilisant un CRF. Il parcourt ensuite chaque phrase du corpus et utilise le modèle construit pour attribuer à chaque mot des étiquettes qui dénotent le début/fin d’une entité ou d’une chaine de caractères représentant une relation. Le modèle utilise uniquement des attributs linguistiques de bas niveau comme les étiquettes morpho-syntaxiques, capitalisation, etc., ce qui est attrayant dans le sens où il permet de traiter la di-versité de genre et différents langages. Pour chaque phrase, le système retourne un ou plusieurs triplets qui représentent chacun une relation binaire entre deux entités (par exemple, (Paris, CapitaleDe, France)) avec une probabilité de l’exactitude du triplet (relation) qui s’appuie sur des informations liées à la fréquence du triplet sur

2.9. Extraction d’information ouverte (OIE) 49 le web. Une évaluation du système TextRunner (Banko & Etzioni, 2008) révèle qu’il atteint en moyenne une précision de 75%.

Banko et Etzioni (2008) comparent TextRunner à un algorithme d’extraction de relations traditionnel basé sur le même modèle CRF mais qui a été entraîné sur des données étiquetées manuellement et qui utilise des attributs lexicaux plus riches. Des expérimentations sur l’extraction de relations comme « les aquisitions d’entreprises » ou « les inventeurs de produits » ont montré que les deux systèmes obtiennent des valeurs de précision comparables (environ 75%), mais le système d’EI traditionnel obtient un rappel largement meilleur (60% contre 20% pour le système d’OIE). Piskorski et Yangarber (2013) pensent que dans le cas où le rappel est pri-véligié dans le contexte d’extraction de relations binaires, l’utilisation d’un système d’extraction de relations traditionnel est de loin plus efficace même si les systèmes d’OIE peuvent réduire la quantité de données d’apprentissage étiquetées manuelle-ment. Si, en revanche, la précision est privilégiée et le nombre de relations à extraire est grand, un système d’OIE peut potentiellement être une bonne alternative. Les auteurs citent également 3 erreurs que font souvent les premiers systèmes d’OIE comme TextRunner :

— des extractions incohérentes (la relation extraite n’a aucun sens) ; — des extractions non informatives (des informations cruciales omises) ; — des arguments incorrects.

Des travaux plus récents ont introduit plus d’heuristiques pour améliorer la qua-lité des relations extraites (Etzioni, Fader, Christensen, Soderland, & Mausam, 2011 ; Fader, Soderland, & Etzioni, 2011). Fader et al. (2011) proposent, par exemple, les deux heuristiques suivantes :

— Une relation multi-mots doit commencer par un verbe, finir par une préposi-tion et être une séquence de mots contigus dans une phrase.

— Une relation binaire doit apparaître avec au moins un nombre minimum de paires d’arguments dans un grand corpus.

Ces deux heuristiques ont permis d’obtenir de meilleurs résultats.

L’utilisation des systèmes d’OIE a beaucoup augmenté ces dernières années pour des besoins de passage à l’échelle et d’indépendance vis à vis du domaine. Cependant, dans des domaines comme le domaine médical, le besoin d’applications d’EI d’une précision extrême se fait encore ressentir. Nous nous inscrivons dans le cadre de ces applications qui ne cherchent pas à extraire toute relation possible dans les corpus mais plutôt des concepts et des relations bien spécifiques à un domaine donné.

Conclusion

Nous avons établi dans ce chapitre un état de l’art autour de l’extraction d’in-formation (EI) en nous focalisant sur les approches d’EI. Notre but étant de mettre en place une approche interactive d’apprentissage de règles d’extraction d’informa-tion, nous avons mis l’accent sur les approches d’EI à base de règles. Mêmes si les approches statistiques sont plus récentes dans le domaine d’EI, les approches à base de règles continuent à être utilisées car elles sont faciles à interpréter et à développer. Elles sont également appréciées dans les systèmes qui demandent une intervention de l’utilisateur car il est plus facile pour l’utilisateur de comprendre des

50 Chapitre 2. Extraction d’information règles symboliques que les sorties d’un algorithme statistique. Tout comme les sys-tèmes d’EI basés sur les ontologies (OBIE), nous cherchons à extraire des concepts et des relations définies dans des modèles sémantiques comme les ontologies tout en assurant l’indépendance entre le module d’EI proposé et le modèle sémantique utilisé pour garder la cohérence et le coté formel de ce dernier. Contrairement aux systèmes d’extraction d’information ouverte qui visent à extraire tout type de rela-tions qui peuvent être extraites à partir de gros corpus comme le web, nous cherchons à extraire des informations spécifiques à un domaine donné comme le font les sys-tèmes d’EI traditionnels. Nous faisons la lumière, dans le chapitre qui suit, sur l’EI interactive et l’intérêt de ce type d’extraction d’information.

Chapitre 3

Extraction d’information