Analyse morphologique non-supervisée - Sous-spécification sémantique

5.2 Sous-spécification sémantique

5.2.1 Analyse morphologique non-supervisée

La question du bien fondé de la notion de morphème avait été abordée à la section 3.2.4. Nous avions toutefois annoncé qu’elle conserverait une place importante dans la suite des traitements. C’est justement parce que la plupart des solutions actuelles capables de répondre

86 CHAPITRE 5. PRÉ-TRAITEMENTS TEXTUELS

à la question que nous nous posons de façon non supervisée s’appuient sur cette notion que nous avons fait le choix de garder des frontières théoriques aux morphèmes. Ce parti pris est donc moins un assujettissement à une école théorique qu’à une exigence pratique.

Hammarström & Borin (2011) proposent un état de l’art exhaustif des méthodes de segmentation morphologique non supervisée. Ces systèmes prennent souvent en compte cer- tains procédés morphologiques et pas d’autres. Beaucoup d’entre eux ont été développés pour analyser uniquement des langues à morphologie concaténative et compositionnelle.

La granularité de l’analyse morphologique donnée en sortie peut varier d’une simple liste d’affixes à une liste de paradigmes associés à une liste de radicaux reliés au paradigme qu’ils uti- lisent. Hammarström & Borin (2011) distinguent quatre grandes approches fondamentales dans lesquelles classifier les algorithmes d’analyse morphologique non supervisée :

— Celles qui segmentent morphologiquement sur la base de la co-occurrences de chaînes de caractères partielles adjacentes (approches à frontières et fréquence). Les systèmes non-supervisés les plus répandus utilisant cette approche sontMorfessor (Creutz &

Lagus, 2005) etLinguistica (Goldsmith, 2000).

— Celles qui regroupent les éléments ayant des ressemblances morphologiques sur la base de métriques (principalement les distances d’édition, parfois des caractéristiques sémantiques, des similarités distributionnelles ou autres). Une fois ces groupes obte- nus, des patrons morphologiques récurrents sont identifiés dans chaque groupe (approches de groupement et d’abstraction). Bernhard (2010) a proposé des méthodes non-supervisées relevant de cette approche :MorphoNet et MorphoClust.

— Celles qui voient un mot comme étant un ensemble de traits (n-grames ou chaînes de caractères partielles selon la méthode utilisée). Les traits apparaissant sur de nombreux mots ont un pouvoir sélectif faible, alors que les traits rarement vus sont des indica- teurs de mots ou de racines spécifiques. L’idée sous-jacente est comparable à celle du TF-IDF. La classification d’un mot inconnu revient à utiliser ces traits pour déterminer de quel(s) autre(s) mot(s) il peut être une variante morphologique (approches « traits et classes »).

— Celles qui, considérant qu’il existe une approximation correcte entre phonèmes et gra- phèmes, distinguent les éléments vocaliques et consonnantiques afin de découper le mot en « squelettes » (vocaliques et consonnantiques) sur lesquels appliquer l’approche à frontières et fréquence (approches par catégorie phonologique et séparation). Cette démarche vise spécifiquement les morphologies non concaténatives.

Il est possible de combiner certaines approches, notamment les approches àfrontièr et fré- quenc et celle de groupements et d’abstraction. L’approche à frontière et fréquence est parti-

5.2. SOUS-SPÉCIFICATION SÉMANTIQUE 87 etcatégori phonologiqu et séparation ne traitent pas nécessairement des segments conti-

gus. Concernant les langues polysynthetiques, la question de savoir s’il vaut mieux procéder à une segmentation non supervisée ou à une analyse morphologique n’a pas été approfondie ici, notamment car les langues polysynthetiques dépassent le cadre de cette thèse. Néanmoins, afin de nourrir cette réflexion, il serait utile de regarder quelles sont les unités élémentaires à extraire les mieux compatibles sémantiquement avec la tâche de traduction qui sera utilisée par la suite. Une ébauche de réponse est proposée par Nicholsonet al. (2012).

Concernant les performances des différents systèmes, il est relativement difficile de les me- surer. Tout d’abord, parce que ces derniers sont, la plupart du temps, testés sur des données d’évaluation relativement limitées, dans un petit nombre de langues, souvent différentes. En- suite parce que les types d’analyses voulues en sortie ne sont pas systématiquement compa- rables.

La campagne d’évaluationMorphoChallenge (Kurimo et al., 2010a,b) a été conçue dans le

but d’évaluer les analyseurs morphologiques basés sur des outils d’apprentissage automatique statistique. Elle permet de comparer les résultats de différents systèmes dans au plus 5 langues (anglais, finnois, allemand, turc et arabe) pour 3 tâches :

— comparaison à des segmentations en morphèmes de référence, — évaluation au sein d’un tâche d’extraction d’information, — évaluation dans une application de traduction automatique.

Selon l’année et la tâche envisagée, certaines langues ne disposent pas de données d’évaluation. C’est notamment le cas de l’arabe, moins souvent évalué que le reste des langues.

La majorité des systèmes disponibles ont été conçus pour traiter des langues à morphologies concaténatives. Pour les langues sémitiques à morphologie non-concaténatives, les algorithmes d’analyse morphologique peuvent être classés selon deux niveaux d’analyse (Xuet al.,

2002 ; Al-Sughaiyer & Al-Kharashi, 2004) :

— La recherche de radicaux ; dans ce cas, l’algorithme n’identifie que les affixes. Parmi ceux là, l’analyseur de Buckwalter (2002) (qui fait usage d’un moteur de règles spéci- fiques à l’arabe) ;

— La recherche de racines, auquel cas les radicaux identifiés sont réduits à des racines. Parmi ces derniers on trouve ALPNET (Beesley, 2001) (fonctionnant avec un trans- ducteur fini) , leKhoja Stemmer 7 (Khoja & Garside, 1999) (qui combine moteur de

règles et listes d’éléments spécifiques en arabe), ou encore leISRI Stemmer 8 (Taghva et al., 2005) (utilisant également un moteur de règles).

Parmi ces systèmes, tous ont été conçus spécifiquement pour l’arabe et aucun ne repose sur 7. Téléchargeable à l’adresse : http://zeus.cs.pacificu.edu/shereen/research.htm

8. Implémenté dans module NLTK ISRI. Voir http://nltk.googlecode.com/svn/trunk/doc/api/ nltk.stem.isri-module.html

88 CHAPITRE 5. PRÉ-TRAITEMENTS TEXTUELS

de l’apprentissage automatique. Il existe un nombre relativement limité de publications fai- sant état de recherches sur des analyseurs morphologiques non-supervisés destinés à traiter des langues à morphologie non-concaténative de façon générique. À notre connaissance, les seules approches proposées dans ce cadre précis sont celle de Xanthos (2008), qui joue sur la sépara- tion des aspects phonologique et morphologique pour formuler des règles de combinaison, et celle de Khaliq & Carroll (2013), qui peut notamment traiter de l’arabe « naturel », c’est à dire sans voyelles courtes ou marqueurs diacritiques. Toutefois, aucune implémentation n’est disponible au téléchargement à l’heure où nous écrivons. Pour cette raison, nous avons dé- cidé de traiter l’arabe avec le même analyseur morphologique utilisé pour les autres langues, et ainsi n’effectuer qu’une analyse au niveau des radicaux et non des racines, au sens de Xuet al.

(2002). Bien que racines et gabarits aient peu de chances d’être dissociés lors de cette analyse, des suffixes et des préfixes seront malgré tout identifiés.

Pour la campagne d’évaluation de 2010, le système non-supervisé obtenant les meilleurs résultats globaux 9 étaitMorfessor U+W, une extension de la version non supervisée de l’al-

gorithmeMorfessor Baseline décrit par Virpioja & Lagus (2010). Ce dernier fait partie de la

famille des approches àfrontièr et fréquence, et est donc développé pour des langues à mor-

phologie concaténative complexe (comme le finnois ou le turc), mais fonctionne également pour toutes les langues comportant des mots composés ou des affixes non-fusionnels (Vir- piojaet al., 2013). En plus d’une segmentation, Morfessor propose un étiquetage des éléments

segmentés en fonction de leur type (suffixe, préfixe, radical). Des exemples d’analyses rendues parMorfessor sont présentées dans le tableau 5.3. Cela nous permettra de faciliter la sélection

des éléments morphologiques à supprimer pour obtenir nos UTE .

La version la plus récente de l’outilMorfessor (v. 2.0.1) (Kohonen et al., 2010 ; Virpioja et al., 2013) apporte quelques corrections et améliorations à la précédente implémentation.

Nous avons donc utiliséMorfessor v. 2.0.1 pour la décomposition morphologique des langues

à morphologie concaténative de notre échantillon. Le programme possède des paramètres de base permettant de l’utiliser tel quel. Il est toutefois possible de faire varier deux paramètres : — La valeur pour l’amorce (random seed) de la fonction aléatoire utilisée pour la produc-

tion du modèle de segmentation de référence initial (non-deterministe). Nous avons conservé la valeur par défaut, qui est zéro.

— Le seuil de perplexité b, qui dépend de la taille des données. Les recommandations sont d’augmenter la valeur par défaut de (b = 10) pour un plus grand nombre de données. Incidemment, plus b est grand, plus la précision de la segmentation aug- mente au détriment du rappel. À l’inverse, un b plus petit aura tendance à favoriser la sur-segmentation. En ce qui nous concerne, le choix du paramètre b dépendra plus 9. Évaluation pour les langues à morphologie concaténative deMorpho Challenge

5.2. SOUS-SPÉCIFICATION SÉMANTIQUE 89 des types de langues que l’on souhaite traiter que de la taille des corpus. Différents tests sur les langues concernées (avec b = 10, b = 100, b = 300 et b = 400) nous ont permis de déterminer empiriquement que, pour les langues dites « analytiques » (voir tableau 4.1), plus ce seuil était petit, meilleur étaient le découpage obtenu pour ce que l’on souhaite en conserver. En revanche, pour les langues synthétiques, favori- ser un b petit, et donc une sur-segmentation dégrade les performances de Morfessor en ce qui concerne l’identification des racines. Les tests nous ont permis de détermi- ner empiriquement que la valeur b = 100 produisait un découpage raisonnable pour ces langues. Cette valeur sera donc le paramètre de référence pour les langues synthé- tiques. Toutefois, nous appliquons une exception à cette règle pour l’arabe. Le fait que sa morphologie non-concaténative ne soit pas traitée par Morfessor rend sa segmentation plus difficileme. Ce désavantage est donc (modérément) neutralisé en retenant, pour cette langue, b = 10.

Dans le document Extraction et Complétion de Terminologies Multilingues (Page 110-114)