Analyse automatique des phénomènes morphologiques

Chapitre 9 : Analyse automatique

9.1 Analyse automatique des phénomènes morphologiques

9.1.1 Définition

L’analyse automatique en morphologie est la tâche qui consiste à extraire d’une forme de surface (le mot-forme) des informations de divers ordres en fonction de l’utilisation de l’analyse. En effet, comme le rappelle (Namer 2005), le terme d’analyse morphologique peut indifféremment désigner « l’étiquetage ou la désambiguïsation catégorielle, l’analyse morphosyntaxique, la lemmatisation, et l’analyse constructionnelle ».

Dans une application qui se limite à analyser morphosyntaxiquement les mots d’une phrase, l’analyse morphologique traite de la morphologie flexionnelle, en identifiant les informations transportées par ses marques, c'est-à-dire, pour les langues

de type inflexionnel, des informations de genre, de nombre, de personne et parfois de cas.

En revanche, le but de l’analyse de la morphologie constructionnelle est d’extraire

« des informations lexico-sémantiques à partir d’indices de surface, c’est-à-dire des signes qui sont physiquement présents dans les textes » (Daille, Fabre et al. 2002).

L’utilisation d’une telle analyse dépend évidemment de l’application dans laquelle elle est utilisée, mais étant donné qu’elle s’intéresse à la structure profonde des unités lexicales, elle a toujours un objectif qui relève de la sémantique. Dans le cas des néologismes construits, l'analyse morphologique permet d'accéder au sens de ces néologismes, en analysant la combinaison des éléments qui les ont construits.

Même si les principaux efforts sont généralement mis sur l’analyse flexionnelle, certaines applications ont entrepris d’analyser les mots construits, et donc de se concentrer davantage sur la morphologie constructionnelle. Mais avant de décrire les différents analyseurs de la morphologie constructionnelle, nous devons distinguer deux critères qui permettent de décrire l’analyse morphologique. Le premier concerne l'analyse elle-même, et plus précisément l'accès au lexique au moment de l'analyse (la récupération des informations, ou lookup). Le second concerne avant tout la construction du lexique par le linguiste informaticien, qui varie selon les méthodes et les architectures employées. Évidemment, ces deux aspects sont interdépendants.

Pour l’accès au lexique (le lookup), on distingue grosso modo deux types d’approche: une approche « statique », où l'input à analyser est confronté à une liste de mots fixes (c’est ce que d’aucun appelle du string matching). L’autre approche, à l’opposé, est une approche plus dynamique, où l’analyse se fait on the fly, par comparaison entre les éléments que constituent l'input et les éléments présents dans le lexique. Dans ce type d'approche, certaines règles, plus abstraites, peuvent être appliquées, comme celle de récursivité.

Pour la construction des lexiques, il existe des approches strictement énumératives, où le linguiste informaticien liste les éléments du lexique. Une telle approche est évidemment très chronophage, mais peut, à la limite, être choisie pour des applications dont le lexique nécessaire serait très restreint. Elle peut n’être utilisée que dans un lookup du premier type (string matching). L'autre approche de construction consiste à constituer une description linguistique complète, contenant une grammaire des mots, composée de règles, de contraintes et de changements morphographémiques, pour "représenter" l'intégralité du lexique à partir d'une liste de formes de base, et pour générer automatiquement le lexique dans son ensemble. Cette méthode peut être employée soit dans un lookup statique, soit pour un lookup on the fly, où l'input est analysé par les règles du lexique.

Dans ce dernier type d'approche de construction par règle, il faut également distinguer les systèmes qui permettent de traiter l'inconnu, des systèmes qui ne peuvent fournir une analyse uniquement pour les éléments connus du lexique. Pour le traitement des néologismes construits, les chaînes à analyser ne sont pas connues a priori, et doivent donc être véritablement analysées par une succession d'hypothèses guidées par un ensemble de règles. C’est donc une approche à base de règles qui doit être privilégiée.

Une autre distinction importante dans la construction de ces algorithmes est la distinction entre les approches procédurales et les approches déclaratives. Les approches

procédurales se font par une suite de procédures nécessairement ordonnées, que l'algorithme suit. Les approches déclaratives ont un niveau d’abstraction supérieur, où il y a un assemblage d’instructions décrites indépendamment du sens dans lequel la machine les traite. Les approches déclaratives distinguent le travail de l'informaticien du travail du linguiste, et permettent ainsi une meilleure gestion et modification des programmes.

9.1.2 Analyse morphologique : état de l’art

9.1.2.1 Les analyseurs de la morphologie flexionnelle

L’analyse flexionnelle est sans doute l’application la plus répandue, qui se retrouve aussi bien dans les correcteurs orthographiques que dans les lemmatiseurs. Les lexiques des analyseurs de la morphologie flexionnelle sont souvent le fruit de l’application de règles lexicales permettant l’extension des données de base à toutes les formes fléchies possibles (Ritchie et Russell 1992). La constitution de ces lexiques a été un vaste sujet d'étude, pour lequel de nombreuses approches ont été expérimentées, comme les automates à deux niveaux (principalement développées à partir des travaux de (Koskenniemi 1983)).

En revanche, l’extension de ce genre de lexique à la morphologie constructionnelle a rarement été effectuée, sans doute à cause de la réputation d’irrégularité dont nous avons déjà parlé. Le traitement de la morphologie constructionnelle nécessite des études approfondies sur les règles de construction des mots, ce qui a sans doute freiné certaines ardeurs. Ainsi, comme le rappelle (Dal 2002), de nombreuses études (pratiques ou théoriques) sur la morphologie « s’accordent à renvoyer dos-à-dos la régularité de la flexion et la moindre régularité, voire l’irrégularité, de la dérivation ». De plus, le nombre de dérivations possibles a semble-t-il toujours paru beaucoup moins restreint que le nombre de flexions. Ainsi, comme le notent (Dal, Hathout et al. 2004), « Plusieurs travaux, relatant l'implémentation de systèmes liés à la flexion, se terminent […] par l’annonce d’une transposition possible au traitement des unités lexicales construites, […] annonce qui demeure le plus souvent programmatique ». Cependant, une implémentation informatique de la morphologie constructionnelle a déjà fait l’objet de certaines recherches, que nous décrivons dans la suite.

9.1.2.2 Les analyseurs de la morphologie constructionnelle

Comme le rappellent (Dal, Hathout et al. 1999), « le lexique dérivationnel idéal […] résulte du passage successif de trois grains : le dégrossissement de la masse des données à traiter est confié à un analyseur basé sur des méthodes statistiques ; l’affinage des données est confié à un analyseur basé sur des règles et sur des listes d’exceptions ; les finitions ultimes sont humaines ». Si nous excluons cette dernière étape, nous pouvons dégager deux tendances (linguistique et statistique ou empirique), qui se retrouvent dans les différents projets de traitement de la morphologie constructionnelle.

Ces deux tendances sont également liées à deux finalités de cette analyse. La première consiste avant tout à traiter les mots inconnus, pour en deviner avant tout la catégorie (et parfois le sens), et la deuxième a davantage une optique de calcul de sens permettant de structurer un lexique automatiquement ou de relier entre eux des mots de même famille morphologique.

Dans ce dernier type d’outil, nous devons citer l’algorithme de (Porter 1980), qui est un programme de désaffixation, permettant de constituer des familles de mots ayant une racine commune. Ce programme a été conçu dans le contexte de la recherche d’information. Il repose sur une liste de suffixes et de critères d’utilisation de ces suffixes, permettant de spécifier les contextes dans lesquels les suffixes peuvent être

« découpés ». Ainsi, les règles implémentées par Porter prennent la forme de (condition) S1 S2

permettant de décrire que si un mot se termine par S1 et remplit les conditions précédentes sur la racine, l’« affixe » est transformé en S2, qui peut être nul.

Ainsi, la règle « ational ate » permet de relier relational et relate. Ces règles sont bien sûr ordonnées, principalement en fonction de la longueur des affixes.

Mais ce type de système « génère soit du bruit, soit du silence lors de la constitution des familles » et ne distingue pas « la flexion de la dérivation » (Dal et Namer 2000).

Dans la suite, nous passons en revue différents projets ayant développé des analyseurs de morphologie constructionnelle, en commençant par présenter les études qui s’intéressaient aux néologismes.

Si l’on exclut les études qui se fondent avant tout sur des méthodes empiriques et d’apprentissage automatique, nous pouvons retenir un certain nombre de tentatives d’exploitation des connaissances morphologiques pour traiter les mots inconnus.

Comme le rappellent (Thede et Harper 1997) :

« Il existe deux options pour traiter les mots inconnus. La première consiste à tenter de construire un lexique complet, et de gérer ensuite les mots inconnus d’une manière rudimentaire, par exemple en les rejetant ou en interagissant avec l’utilisateur pour obtenir les informations nécessaires. La deuxième consiste à analyser le mot quand il entre dans la chaîne de traitement, avec aussi peu d’interaction avec l’utilisateur que possible ».

Une grande partie des études que nous avons recensées traitent de l’incomplétude lexicale des lexiques des analyseurs morphosyntaxiques en suivant cette deuxième option. Elles ont pour principal objectif de deviner la catégorie morphosyntaxique des mots inconnus. Ces « devineurs » exploitent les terminaisons typiques des mots inconnus pour en deviner la catégorie. Ils s’inscrivent alors dans une optique de

« morphologie robuste » (Guilbaud et Boitet 1997) ou de « morphologie agressive » (Woods 2000), dans le sens où l’on exploite toutes les possibilités de l’analyseur et d’autres techniques très mécaniques pour obtenir une couverture maximum.

Si certaines études ne se réclament d’aucune approche linguistique particulière, d’autres montrent explicitement leur référence théorique, à l’image de (Byrd 1983;

Byrd, Klavans et al. 1989) qui proposent une application des principes de la morphologie lexématique de Aronoff. Ces deux articles déplorent que la morphologie computationnelle se soit souvent limitée au traitement de la flexion, et que lorsque que l’on s’occupe de dérivation, la tendance soit plutôt minimaliste, se contentant d’un simple « affixe stripping » pour extraire des informations morphosyntaxiques sur les mots [catégorie morphosyntaxique, genre, nombre].( Byrd et al.) prônent ainsi un

véritable calcul morphologique permettant de retrouver la base et le(s) affixe(s) qui constituent le mot construit.

Ces deux projets proposent donc l’utilisation de règles motivées linguistiquement.

Ces règles sont contraintes selon différents critères (la place des affixes dans la construction du mot, les contraintes de catégorie de la base et les contraintes sémantiques de la base). Bien que centrés sur la langue anglaise, ces projets sont une grande source d’inspiration pour notre analyseur.

Dans le même ordre d’idée, citons également l’article de (Bopp, Pedrazzini et al.

2004) qui propose également l’utilisation de règles de construction des mots pour traiter des mots non enregistrés dans le lexique, mais corrects. Pour affiner leur analyse et éviter les problèmes engendrés par ce genre de règles (cf. chapitre 10), ils proposent également un certain nombre de filtres, basés non seulement sur des préceptes linguistiques, mais également sur des considérations beaucoup plus pragmatiques (par exemple, une règle qui provoque un trop grand nombre d’erreurs est exclue du système).

Un autre projet d’envergure de traitement de la morphologie constructionnelle, mais qui ne s’intéresse pas spécifiquement aux mots inconnus, est le projet Mortal. Il vise à construire un programme informatique permettant d’analyser de manière (semi-)automatique les unités lexicales construites du français. Le but ultime est d'obtenir une base de données constructionnelles enrichie d'informations sémantiques pour les entrées lexicales majeures de cette langue. Ce projet a donné lieu à la mise en place de plusieurs applications, dont la principale, l’analyseur Dérif, permet d’implémenter « des analyses théoriques formulées » (Dal, Hathout et al. 2004) pour pouvoir analyser les mots construits présentés au système. En sortie, outre les informations « classiques » que l’on peut attendre d’un analyseur (catégorie, forme citationnelle), Dérif fournit une analyse constructionnelle « sous la forme d’un schéma crocheté et étiqueté » ainsi qu’une glose formulée en langue naturelle, comme le montre l’analyse de abaissabilité ci-dessous (exemple tiré de (Dal, Hathout et al. 2004)) :

abaissabilité|NOM : [ [ [ abaiss(er) VERBE] able ADJ] ité NOM] (abaissabilité, abaissable, abaisser) :: Propriété de ce qui est abaissable

Ce type de méthode est décrit par les auteurs comme « linguistiquement guidé ».

Cet analyseur est en effet essentiellement basé sur des descriptions linguistiques de chaque procédé de construction analysé. Il requiert en outre un certain nombre d'étapes de validation, afin de constituer notamment des listes d'exceptions permettant d'exclure d'emblée les unités réfractaires à ce type d'analyse, (par exemple, pour ne pas analyser qualifier comme un verbe construit en fier). C’est pour cela que le projet Mortal a également donné lieu à la création d’un autre système (Décor (Dal, Hathout et al. 1999)) basé sur la recherche en corpus de lien entre unités du lexique, permettant d’acquérir de manière plus rapide, mais moins guidée linguistiquement, des informations constructionnelles.

Dans notre analyseur, l’approche adoptée est sensiblement la même que celle de Dérif, pour plusieurs raisons. Premièrement, l'aspect important du travail en amont de théorisation et de description est moindre dans notre projet, étant donné que nous nous limitons à un seul procédé (la préfixation) ; deuxièmement, le fait de vouloir analyser uniquement des mots inconnus nous permet d’exclure à l'avance ces unités

« réfractaires » (que Dérif gère grâce à une liste d'exclusion) qui sont généralement des mots « lexicalisés » présents dans le lexique de référence.

Plus généralement, force est de constater que la plupart des approches allient règles linguistiques et connaissances acquises de manière empirique en corpus. Ces approches hybrides semblent être la clé de la réussite de ces analyseurs. C’est pourquoi, nous allions également dans notre analyseur les deux approches. Cependant, la partie qui repose sur les « règle » constitue le noyau dur de l'analyseur, transposable à d'autres langues, et la partie basée sur des connaissances acquises empiriquement est la partie flexible, spécialisable du système.

9.2 Analyseur morphologique des mots inconnus d’un système de

Dans le document De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue (Page 148-154)