Évaluation par rapport aux autres systèmes

Figure 2.12 – Graphe RDF mettant en avant le lien du graphe vers le texte.

surlignés dans le texte. La figure2.12 permet d’illustrer cette fonctionnalité.

Enfin, nous proposons une vue tabulaire, afin de résumer toutes les connaissances extraites. Le tableau comprend trois colonnes, la première indiquant les entités (sujet), la deuxième, les propriétés (prédicat) et la troisième la valeur de la propriété (objet).

2.7 Évaluation par rapport aux autres systèmes

Afin d’évaluer la qualité de notre extraction de connaissances, nous avons procédé à l’évaluation de notre système par rapport aux systèmes existants. Il existe un grand nombre de systèmes de traitement de texte, effectuant des tâches différentes. Nous pouvons citer à titre d’exemple : LingPipe18, GATE19, Stanford CoreNLP20, PoolParty21.

Les systèmes que nous avons sélectionné mettent à disposition un démonstrateur en ligne que l’on peut tester avec nos propres entrées. Il s’agit des systèmes les plus aboutis, car en plus d’extraire les entités nommées, ces systèmes extraient également des relations afin d’identifier des faits ou des événements. Pour commencer, nous introduisons une description des systèmes choisis, puis, nous passons à l’évaluation de chacun de ces systèmes.

18. http://alias-i.com/lingpipe/

19. https://gate.ac.uk/

20. http://nlp.stanford.edu/software/corenlp.shtml

2.7.1 Présentations des autres systèmes

OpenCalais

Initié par la société Thomson Reuters22_{, le projet OpenCalais a pour but de développer}

des outils autour de l’extraction d’informations à partir de textes. Ils proposent un service Web multilingue (anglais, français et espagnol) pour annoter automatiquement des textes et en extraire un contenu structuré en RDF. OpenCalais est disponible sous forme d’API, de service Web et met à disposition une application Web pour tester ce service. Les résultats de nos tests ont montré que l’extraction d’entités nommées ainsi que la résolution de coréférences fonctionnent bien. De plus, des informations supplémentaires peuvent être associées à l’extraction de connaissances, telles que :

— un degré de pertinence (relevance tag) indiquant à quel point l’entité extraite est pertinente par rapport au sujet traité dans le reste du document ;

— une degré de confiance (confidence tag) indiquant à quel point l’extraction est sûre. En particulier, le type des entités Company, Person, Pharmaceutical Drug, Bankruptcy, Deal, IPO ;

— une désambiguisation, permettant de donner une identification unique aux entités en se référant à une base de connaissances.

Cependant, il existe une différence de qualité entre l’extraction de l’anglais et celle du français. En effet, certaines relations sont bien extraites lorsqu’il s’agit d’un texte en anglais, mais ne sont pas reconnues lorsque le texte est en français. Enfin, en l’absence de connaissances en espagnol, nous n’avons pas pu tester cette langue.

CiceroLite

Language Computer Corporation (LCC) est une compagnie américaine spécialisée dans le développement des technologies de traitements de textes. Ils proposent trois pro- duits :

— CiceroLite : un système d’extraction d’entités, de leurs relations et interactions. Il fonctionne en anglais, arabe, chinois, perse et coréen.

— CiceroCustom : un système d’extraction d’informations pour entités, faits, relations et événements. Il s’agit d’un système open-domain, c’est à dire que l’extraction est indépendante du domaine d’analyse. Les langues traitées sont l’anglais, l’arabe et le chinois.

— Ferret : un système de Question-Réponse, capable d’interpréter des questions po- sées en langue naturelle. Les langues supportées sont : l’anglais, l’arabe, le chinois, le perse et le coréen.

Seul CiceroLite donne accès à une démonstration en ligne. Nous ne nous sommes donc intéressés qu’à ce produit. LCC a participé à de nombreuses campagnes d’évaluation

2.7. Évaluation par rapport aux autres systèmes

(TAC2010 [Leh+10], TAC2011 [Mon+11], TAC2012 [MC12]) afin de tester les perfor- mances de leur système. Les résultats obtenus lors de ces évaluations sont assez bons, en particulier en ce qui concerne le peuplement des bases de connaissances (jusqu’à 80% de F-score).

Durant nos tests, nous avons remarqué que l’extraction d’entités nommées et la ré- solution de coréférences fonctionnent bien. L’extraction des relations, correspondant à la sortie de notre analyse linguistique, révèle les relations syntaxiques entre les mots. Néan- moins, ces relations n’étant pas toutes interprétées, le sens des mots n’est pas développé, nous perdons beaucoup de l’aspect sémantique des traitements.

FRED

FRED [PDG12] est un outil développé au STlab23 _{afin de produire automatiquement}

du RDF/OWL ainsi que du Linked Data à partir de textes. Disponible en librairie python, cet outil combine différentes techniques à savoir : Combinatory Categorial Grammar, Discourse Representation Theory24 _{(DRT), Linguistic Frame Semantics, and Ontology}

Design Patterns25_{. Le résultat de l’extraction peut être visualiser en RDF ou encore à}

l’aide d’une représentation graphique. Les entités extraites sont directement liées au LOD. Les principales tâches effectuées par ce système sont :

— détection des relations n-aires entre les entités, ce qui permet d’extraire des événe- ments décrits ;

— représentation de la négation et des modalités ; — représentation des relations temporelles ; — création des liens avec le Web sémantique ; — résolution de coréférences ;

— génération de graphes nommés.

Le traitement se fait grâce à un apprentissage de l’ontologie à partir du texte traité. L’ontologie créée est alors peuplée grâce aux données du LOD.

Récapitulatif des fonctionnalités

Le tableau 2.2 présente un récapitulatif des différentes fonctionnalités de chaque sys- tème. Nous remarquons que OpenCalais ainsi que FRED offrent les mêmes fonctionnalités, même s’ils utilisent des méthodes différentes. À notre connaissance, CiceroLite ne se base pas sur une ontologie, FRED construit son ontologie à partir du texte analysé grâce au principe d’apprentissage (Ontology Learning), enfin, OpenCalais ne permet pas de visualiser le fichier .owl de l’ontologie, nous n’avons donc pas pu évaluer son expressivité.

23. http://stlab.istc.cnr.it/stlab/The_Semantic_Technology_Laboratory_%28STLab%29

24. Représentation de la théorie du discours 25. Patrons de conception d’ontologies

Fonctionnalité OpenCalais Cicero FRED GEOLSemantics

Multilinguisme oui oui oui oui

REN oui oui oui oui

Résolution de coréférences oui oui oui oui

Relation binaires oui oui oui oui

Extraction des événements oui oui oui oui

Expressivité de l’ontologie non renseignée - variable ALCRIF (D)

Liens vers le LOD oui non oui en cours

Extraction sémantique en RDF oui non oui oui

Table 2.2 – Comparaison des systèmes d’extraction de connaissances.

Pour effectuer une comparaison entre le système d’extraction de connaissances de GEOLSemantics et les systèmes OpenCalais, CiceroLite et FRED, nous avons choisi de le faire sur un ensemble de trois textes en anglais. Dans l’ensemble, la reconnaissance d’entités nommées et la résolution de coréférences est plus performante dans les autres systèmes. Il s’agit d’une tâche à améliorer dans notre système.

Une fonctionnalité, que nous considérons comme très importante, concerne la désambi- guisation des types d’entités nommées, ceci en fonction du contexte. Cette fonctionnalité n’est effectuée que dans le système de GEOLSemantics. Exemple : un lieu peut être confondu avec une organisation. Le contexte permet de définir l’interprétation à donner à l’entité en question.

Pour ce qui est de l’extraction de connaissances, notamment la reconnaissance d’évé- nements, FRED se démarque en extrayant le maximum d’informations disponibles dans le texte. Cependant, cette extraction, très riche à travers un graphe RDF très dense, peut également contenir beaucoup de bruit, ceci à cause d’une mauvaise interprétation de quelques relations sémantiques.

D’un autre côté, CiceroLite effectue une bonne reconnaissance des entités nommées et des relations syntaxiques, cependant, ces dernières ne sont pas toutes interprétées sémanti- quement et se limitent souvent à des relations du type rôle 1 ou rôle 2.

L’extraction de GEOLSemantics donne des résultats satisfaisants, en revanche, ceci est conditionné par la présence des règles d’extraction. En effet, si un concept décrit dans le texte n’est pas défini dans l’ontologie, aucune règle d’extraction ne lui sera associée, par conséquent la connaissance ne sera pas extraite. Par ailleurs, nous avons observé que les autres systèmes ne résolvent pas les dates relatives, alors que dans le système de GEOLSemantics, toute date relative est transformée en date effective.

Dans le document Gestion de l'incertitude dans le processus d'extraction de connaissances à partir de textes (Page 88-92)