Positionnement par rapport à d’autres plates-formes

Partie III. Antelope : une plate-forme pour extraire les sens du texte

G. Positionnement par rapport à d’autres plates-formes

Cette section présente brièvement des architectures et plates-formes de référence de traitement du langage, en positionnant Antelope par rapport à celles-ci. Au vu des caractéristiques de ces plates- formes, il nous semble que la principale originalité d’Antelope réside dans l’intégration d’un lexique sémantique à large couverture, dans son modèle en niveaux de représentations clairement définis et dans la présence d’une ISS.

1. GATE

GATE (General Architecture for Text Engineering) (Cunningham et al., 1996) est une infrastructure permettant le développement et le déploiement de composants pour le traitement de la langue naturelle. Développée depuis 1995 à l’Université de Sheffield, elle est largement utilisée sur des tâches de fouille de textes et d’extraction d’information. GATE propose une architecture, un

framework en Java (incluant de nombreux modules) et un environnement de développement

intégré.

GATE intègre en standard plusieurs composants linguistiques qui effectuent des tâches de segmentation, d’étiquetage morphosyntaxique, de détection de coréférences, d’identification d’entités nommées, d’extraction d’information et d’analyse syntaxique. Ces différentes tâches produisent des annotations sur les documents.

2. OpenNLP

Projet incubé à la Fondation Apache, OpenNLP est une boîte à outil open source pour le TAL, codée en Java ; OpenNLP contient des modules de segmentation, étiquetage morphosyntaxique, chunking, analyse syntaxique en constituants, détection d’entités nommées et extraction des coréférences ; ces différents modules se basent sur la librairie Java d’apprentissage OpenNLP.Maxent, qui utilise un modèle de maximisation d’entropie (Ratnaparkhi, 1996). La conception d’ensemble d’OpenNLP et sa

34 couverture nous paraissent proches de celles d’Antelope. Nous disposons toutefois d’une ISS et d’analyseurs syntaxiques en dépendances absents d’OpenNLP.

3. LinguaStream

LinguaStream (Bilhaut, Widlöcher, 2006) est une plate-forme générique pour le TAL, développée en Java au GREYC depuis 2001. Son environnement de développement intégré permet de créer visuellement des chaînes de traitement linguistique complexes, en assemblant des modules de différents niveaux. Chaque maillon de la chaîne peut annoter le document. LinguaStream facilite la réalisation d’expériences sur corpus, en ne requérant que peu de compétences informatiques. Le public visé par les deux plates-formes n’est pas exactement identique. Pour Antelope, il s’agit essentiellement de développeurs informaticiens ; la cible de LinguaStream est peut-être davantage constituée de linguistes informaticiens désireux de réaliser facilement des expérimentations sur corpus.

4. LingPipe

LingPipe est une bibliothèque commerciale Java qui permet de traiter des corpus en langue anglaise ou chinoise. LingPipe permet de réaliser les traitements linguistiques suivants : conversion d’un texte html en xhtml, segmentation d’un texte en phrases avec prise en compte des acronymes, étiquetage morphosyntaxique, reconnaissance d’entités nommées (lieux, personnes…), résolution d’anaphores pronominales et de coréférences.

LingPipe se base sur des exemples d’apprentissage pour construire certains de ses modèles. LingPipe est notamment utilisée en bioinformatique (Carpenter, 2007).

5. UNL

UNL (Hiroci et al., 1999 ; Sérasset, Boitet, 2000) n’est pas stricto sensu une plate-forme, mais plutôt une langue artificielle pouvant être utilisée comme formalisme de représentation des connaissances ou comme langage pivot interlingue en traduction automatique ; néanmoins, une plate-forme de développement a été bâtie autour. UNL a été conçu pour la compréhension comme pour la génération de texte. En pratique, la stratégie de développement porte actuellement plus sur la génération d’un énoncé en langage UNL vers une langue naturelle ; la compréhension de texte est aujourd’hui envisagée avec une approche semi-automatique, avec une validation humaine interactive. L’objectif principal d’UNL est donc de favoriser la traduction d’un énoncé en plusieurs langues59_.

UNL représente un texte, phrase par phrase, comme un hypergraphe composé d’un ensemble de liens étiquetés dirigés (les relations) entre les nœuds ou hypernœuds (« mots universels » : Universal

Words ou UW), qui représentent les concepts. Les UW peuvent aussi être annotés avec des attributs

contenant des informations de contexte.

59_{UNL est un programme issu de l’Université des Nations Unies, une agence de l’ONU créée en 1973, qui a}

notamment pour objectif d’établir des relations entre l’ONU et la communauté universitaire. L’intérêt d’une automatisation des traductions est évident pour l’ONU. UNL revendique une ambition de couverture d’un grand nombre de langues, mais il semble que les travaux soient surtout actifs sur l’anglais et le japonais.

Figure 6 : Représentation UNL de la phrase anglaise « the sky was blue?! »

Dans l’exemple de la figure 6 ci-dessus, sky(icl>natural world) et blue(icl>color) représentent des concepts différents et sont des UW ; aoj (attribute of an object) est une relation binaire sémantique dirigée reliant les deux UW ; @def, @interrogative, @past, @exclamation et @entry sont des attributs modifiant les UW.

Les UW représentent des concepts universels, exprimés par des mots en anglais ou dans toute autre langue naturelle, lisibles par un humain. Ils se composent d’une tête (la racine de l’UW) et d’une liste de contraintes (le suffixe entre parenthèses) permettant de lever l’ambiguïté de la tête. L’ensemble des UW est organisé sous forme d’une ontologie (UW System), où les concepts du haut sont utilisés pour lever l’ambiguïté de leurs hyponymes grâce aux relations icl (est une sorte de), iof (est une instance de) et equ (est égal à).

Les relations représentent les liens sémantiques entre mots dans toutes les langues. Elles peuvent être ontologiques (comme icl et iof), logiques (comme and et or) ou actancielles (comme agt =

Agent, ins = Instrument, tim = Temps, plc = Lieu…). La spécification UNL compte actuellement 46

relations, qui définissent sa syntaxe.

Les attributs donnent des informations qui ne sont pas portées par les UW et les relations, par exemple sur le temps (@past, @future…), la détermination (@def, @indef…), la modalité (@can, @must…), le sujet de la discussion (@topic, @focus…).

Dans le document Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique (Page 46-48)