Analyse lexicale - Analyse syntaxico-sémantique

État de l’art

1.2 Systèmes de Dialogue Homme-Machine

1.2.2 Analyse syntaxico-sémantique

1.2.2.1 Analyse lexicale

Lemmatisation La première étape d’une analyse syntaxique passe par une phase de lem-matisation des différents mots la constituant, c’est-à-dire le passage d’une forme fléchie à une forme canonique appelée lelemme3, qui correspond typiquement à l’entrée associée dans un dictionnaire : pour les adjectifs, il s’agit de la forme au masculin singulier, pour les verbes de l’infinitif, etc.)

Cette phase se fait généralement en utilisant un lexique associant les formes ﬂéchies à leurs lemmes, avec des entrées du type de celles représentées sur la ﬁgure 1.3.

Cette méthode est toutefois un peu lourde car relativement redondante : même si l’espace de stockage nécessaire pour un lexique complet d’une langue n’est plus un problème, l’ajout d’un nouveau verbe au lexique nécessite d’encoder manuellement toutes ses formes fléchies, nombreuses dans des langues comme le français. Une variante consiste donc à éviter d’encoder de manière individuelle les flexions propres à chaque mot, et à définir plutôt une liste annexe

3Cette déﬁnition du lemme ne fait pas consensus, et correspond plutôt pour certains auteurs commeRastier

[1994] à un lexème – nous adopterons toutefois à cette déﬁnition “classique” et nous ne discuterons pas davantage ce point qui déborde largement du cadre de cette thèse.

bleu ← bleus, bleue, bleues

cliquer ←

clique, cliques, cliquons, cliquez, cliquent, cliquera, cliqueras, cliquerons, cliquerez, cliqueront, cliquais, cliquait, cliquions, cliquiez, cliquaient, cliquai, cliquas, cliqua, cliquâmes, cliquâtes, cliquèrent, cliquasse, cliquasses, cliquât, cliquassions, cliquassiez, cliquassent, cliquerais, cliquerait, cliquerions, cliqueriez,

cliqueraient, cliqué, cliqués, cliquée, cliquées, cliquant

Figure 1.3 Extrait de lexique de formes complètes utilisé par un lemmatiseur

contenant un ensemble de règles de conjugaisons types et de terminaisons possibles. Les lemmes sont alors associés à leur règle d’accord ou de conjugaison [Pitrat, 1981], comme représenté sur la ﬁgure1.4.

bleu ← ADJ_REG

cliquer ← VGRP1_REG

ADJ_REG ← R+s, R+e, R+es

VG1_REG ←

R+e, R+es, R+ons, R+ez, R+ent, R+era, R+eras, R+erons, R+erez, R+eront, R+ais, R+ait, R+ions, R+iez, R+aient, R+ai, R+as, R+a, R+âmes, R+âtes, R+èrent, R+asse, R+asses, R+ât, R+assions, R+assiez, R+assent, R+erais, R+erait,

R+erions, R+eriez, R+eraient, R+é, R+és, R+ée, R+ées, R+ant

Figure 1.4 Extrait de lexique de lemmatiseur avec règles de conjugaison types

Les lemmatiseurs gèrent donc au minimum l’inflexion, association d’une forme fléchie à sa racine, mais ils peuvent également prendre en compte d’autres combinaisons de morphèmes : − les dérivations : qui changent lanatured’un mot. Par exemple, le suffixe dérivationnel “-ation” appliqué au verbe “modifier” donne le nom “modification”. Ces informations supplémentaires peuvent se révéler utiles dans la suite de l’analyse, par exemple pour établir des règles d’équivalence du type : “faire une [R]-ation” ⇔ “[R]”, qui permet de traiter exactement de la même manière deux requêtes sémantiquement identiques comme : “Je veux faire une modification de la page” et “Je veux modifier la page”. − les compositions : qui associent deux mots pour en former un. Ainsi, les noms “clic” et

“droit” s’associent pour former le nom composé “clic-droit”. Ce type de combinaison est relativement complexe à exploiter dans la suite de l’analyse dans la mesure où le sens de la composition n’est pas systématiquement en rapport direct avec celui des mots ainsi composés (par exemple on peut citer le cas classique de “pomme de terre” dont le sens n’est pas une simple composition des sens de “pomme” et “terre”).

− les élisions et clitisations : l’élision, liée à l’amuïssement de la voyelle ﬁnale d’un mot lorsque celui qui le suit commence par une voyelle (e.g. “l’application”) entraîne également une modiﬁcation de la graphie du premier mot, tandis que la clitisation revient à associer un morphème, représentant une forme réduite d’un mot, à un second mot (e.g. “je” dans “puis-je”). Dans les deux cas, généralement, le lemmatiseur ramène le clitique à

sa forme usuelle et supprime les élisions, ce qui donnerait dans les exemples précédents les formes “la application” et “je pouvoir (+ interrogation)”, grammaticalement incorrectes mais sémantiquement identiques pour la suite de l’analyse.

Étiquetage morphosyntaxique La lemmatisation se traduit toutefois par une perte d’in-formation, qui peut être préjudiciable dans l’analyse sémantique qui suit, comme le montre l’exemple de la ﬁgure 1.5. En paralllèle de la lemmatisation, on utiliser donc un analyseur

morphosyntaxique (ou POS Tagger) pour associer aux locutions ou mots lemmatisés un

certain nombre d’étiquettes liées à leur nature (ou Part Of Speech (POS)). Ceci permet de conserver les informations portées par la forme ﬂéchie tout en les rendant plus accessibles (encodage explicite) et en permettant malgré tout au reste du système d’analyse de bénéﬁcier de la réduction de complexité apportée par la lemmatisation.

Le principal problème provient de la diﬃculté à lever l’ambiguité liée à un certain nombre de mots pour lesquels à une graphie unique peuvent être associées plusieurs natures selon le contexte. Ainsi, “passe” peut être le verbe “passer” conjugué à la troisième personne du sin-gulier au présent de l’indicatif, le même verbe à la second personne du sinsin-gulier de l’impératif ou un nom masculin singulier.

Phrase 1 : “J’ai voulu aller à la page d’accueil. . . ” Interprétation 1 : “. . . mais ça n’a pas marché : pourquoi ?” Lemmatisation 1 : Je vouloir aller à la page de accueil Phrase 2 : “Je veux aller à la page d’accueil. . . ” Interprétation 2 : “. . . dis moi comment faire !”

Lemmatisation 2 : Je vouloir aller à la page de accueil

Figure 1.5 Exemple de deux phrases sémantiquement diﬀérentes rendues

indis-tinctes par la lemmatisation

Pour traiter ce problème, on peut distinguer trois grands types d’approches qui se sont développées [Voutilainen,2003] :

règles linguistiques : développée entre la fin des années 1950 (date des premiers travaux dans le domaine de l’étiquetage morphosyntaxique de manière automatique) et le mi-lieu des années 1970, cette approche se fonde sur l’utilisation de règles d’analyse définies manuellement par des linguistes. D’abord gérées par des expressions régulières implémen-tées comme des machines à états finis (une analyse de phrase doit être lue correctement par tous les automates pour être acceptée, cf. figure 1.6), elles évoluent pour être gé-rées sous forme de règles fondées sur des schémas contextuels. Un des systèmes les plus performants parmi ceux couvrant de manière assez large la langue (anglaise) est TAG-GIT [Greene & Rubin,1971], qui est parvenu à étiqueter correctement 77% des mots du corpus Brown [Francis, 1964] – les 23% restants doivent être traités par des linguistes humains mais comme ils restent a priori à déterminer, les linguistes doivent encore véri-fier tout le corpus.

Cette approche sera ensuite délaissée pendant près de 20 ans, jusqu’à ce que des systèmes développés à partir de la Grammaire Contrainte au milieu des années 90 permettent de nouveau de rivaliser en performance avec les systèmes utilisant une approche statis-tique [Samuelsson & Voutilainen,1997].

approches statistiques : le principe repose sur l’analyse d’un corpus de langue suﬃsam-ment signiﬁcatif pour pouvoir estimer la nature d’un mot en fonction de ceux qui l’en-tourent. Dans les années 1980, ce sont essentiellement des analyseurs faisant leur ap-prentissage sur un corpus annoté, en analysant le voisinage des mots sous forme de

N-grammes. Sur l’exemple précédent, en plus de connaître la fréquence f1 à laquelle

“passe” est plutôt un verbe qu’un nom, on peut aussi disposer de la fréquence f2 à la-quelle le mot “passe” apparaissant dans le bigramme“passe moi” est un verbe. Dans un second temps, dans les années 1990, l’analyse desN-grammesest remplacée par l’utilisation de HMM qui ont l’avantage de permettre de travailler sur des corpus non annotés et se basent sur des voisinages de tailles variables, pas forcément directement contigus au mot considéré.

Dans les deux cas, l’approche statistique oﬀre des résultats nettement supérieurs à ce que permettait l’usage de règles. Ainsi CLAWS1 (utilisant des N-grammes) étiquette correctement plus de 96% des mots en anglais [Marshall, 1987]. En langue française, le système développé parChanod & Tapanainen[1995] au Xerox Research Centre Europe

(XRCE)à base de HMM demeure une référence.

approches hybrides : en dépit de leur bonne performance, les systèmes à base de HMM

ont l’inconvénient d’être des boîtes noires puisqu’il est extrêmement diﬃcile pour des humains d’analyser leur fonctionnement. Plusieurs recherches dont [Brill, 1995] se concentrent donc sur l’utilisation des techniques statistiques pour la génération de règles du type de celles que peuvent déﬁnir manuellement les linguistes, pour permettre éven-tuellement une post-édition de celles-ci.

Depuis les années 2000, ce sont d’autres types d’approches hybrides visant à combiner des règles éprouvées écrites manuellement à des systèmes d’apprentissage statistiques pour les exceptions qui retiennent le plus l’attention de la communauté scientiﬁque dans ce domaine [Padro,1998]. q 0 q 1 q 2 q 3 adj_reg / +m. +sg. e / -m. +f. s / -sg. +pl. s / -sg. +pl.

Figure 1.6 Exemple d’automate à états ﬁnis étiquetant en genre et en nombre

un adjectif régulier en français

Dans le document Conception d'une chaîne de traitement de la langue naturelle pour un agent conversationnel assistant (Page 40-44)