• Aucun résultat trouvé

Le problème technique de la Segmentation

1.5 Conclusion

2.1.1 Le problème technique de la Segmentation

Les segmentations en affixes et radicaux des formes flexionnelles paraissent souvent in- tuitives. À partir de formes de surface, il semble au premier abord suffire de retirer de chaque forme son radical pour obtenir un paradigme d’affixes sur lequel fonder une théorie des classes flexionnelles : c’est la stratégie de Carstairs (1987), pour qui le comportement flexionnel d’un lexème est manifesté par un paradigme d’affixes.

On trouve rarement de description détaillée du processus nécessaire à l’inférence de ces segmentations. Comme nous l’avons mentionné dans la sous-section1.2.4, il n’existe pas de procédure communément admise permettant d’inférer systématiquement des affixes à partir des paradigmes de formes, sans préconception sur les données, et de façon universelle, c’est à

2.1. Pour en finir avec la segmentation en radicaux et exposants 75

dire applicables à toute langue sans préconception sur la nature des phénomènes morphopho- nologiques mis en jeu. C’est ce que Spencer (2012) nomme le P   S :

Problème de la Segmentation :

En général, pour n’importe quel mot complexe de n’importe quelle langue, il n’y a (apparemment) aucun moyen d’établir une segmentation de façon algorithmique.2

Spencer identifie en fait deux problèmes distincts : d’une part, il s’agit d’un sujet peu étudié en lui-même ; d’autre part « lorsque l’on regarde la pratique des grammairiens, il apparaît clai- rement d’un examen superficiel des descriptions de langues morphologiquement complexes familières qu’il n’y a aucun consensus sur la segmentation même pour des langues extrême- ment bien étudiées3». En effet, les descriptions de segmentations élaborées manuellement par

les linguistes sont le fruit de séries d’arbitrages qui varient entre auteurs, entre traditions théo- riques, et d’une langue à l’autre.

Il existe bien des outils de segmentation non supervisée de formes de surface. Ceux-ci se fondent généralement sur l’optimisation de longueurs de description afin de fournir une seg- mentation économique des formes. C’est le cas de Linguistica (Lee et Goldsmith2016) ou de certains programmes de la famille Morfessor (Virpioja et al.2013; Grönroos et al.2014). Cepen- dant ces programmes ne sont pas capables d’inférer des segmentations spécifiquement flexion- nelles, d’associer les segmentations opérées à des valeurs morphosyntaxiques (c’est à dire aux cases), de tirer parti de la structure paradigmatique, ou d’extraire des morphèmes discontinus. Ils ne permettent donc pas de segmenter des formes de paradigmes en radicaux et affixes, et ne sont pas utiles en présence de morphologie non-concaténative (Hammarström et Borin2011, p. 68).

Afin de nous convaincre plus avant que le problème de segmentation ne peut être résolu simplement et que celle-ci ne permet pas l’identification des paradigmes types, nous proposons

2. [En anglais dans le texte] « Segmentation Problem:

In general, for any complex word in any language, there is (apparently) no way to establish a segmentation algorith- mically ».

3. [En anglais dans le texte] « when we look at the practice of grammarians, it should be clear from a cursory

glance through descriptions of familiar morphologically complex languages that there is no consensus on segmentation even for extremely well-studied languages ».

d’examiner un exemple concret. Nous appliquons à la lettre deux descriptions du processus de segmentation, l’une portant sur les radicaux, l’autre sur les affixes, au petit ensemble de lexèmes nominaux du latin déjà présentés.

Kuryłowicz (1945, p. 220) propose d’extraire les radicaux, qu’il nomme thèmes par identifi- cation de la plus longue sous-chaîne commune à l’ensemble du paradigme d’un lexème :

On trouve le thème en dégageant les éléments communs à toutes les formes ca- suelles du paradigme (quand il s’agit de la déclinaison). P.e lup-us, -i, -o, -um, -orum,

-is, -os fondent le thème lup-. Le paradigme russe trud, -’a, -’u, -’om, etc. permet de

dégager un thème trud’-.

Boyé (2000, p. 125) définit quant à lui les affixes comme la plus longue sous-chaîne commune à l’ensemble des formes d’une case :

Établissons simplement les affixes flexionnels en utilisant la partie commune à tous les verbes pour chacune des formes.

Ces deux définitions, réunies ensemble, ont l’élégance de la symétrie : l’affixe d’une case est le matériel phonétique invariable dans les formes de cette case, le radical d’un lexème est le matériel phonétique invariable dans les formes de ce lexème. Le tableau2.1présente le résultat de cette analyse sur nos quelques noms latins4. Les exposants sont présentés pour chaque

case sous l’intitulé « exp »., les radicaux dans la colonne « radical ». Les colonnes « reste » présentent le matériel que cette procédure ne définit ni comme radical ni comme exposant.

Le caractère problématique de la segmentation résulte du sort qui sera fait à ce « reste ». Les analyses proposent typiquement de l’assimiler soit aux exposants (on a alors des classes flexionnelles), soit aux radicaux (on a alors de l’allomorphie radicale). Ce choix n’est cependant pas aisé.

Observons tout d’abord la colonne .. L’ensemble des affixes familiers des noms du latin (-a,-us, etc.) figurent non dans la colonne dans exposants, mais dans celle du reste. En 4. Nous extrayons la plus longue sous-chaîne commune (« longest common substring », ou LCS), possiblement discontinue, à toutes les formes d’un lexème pour trouver le radical, et la LCS à toutes les formes d’une case pour trouver l’exposant. Cette procédure est donc à même de découvrir des exposants et radicaux discontinus.

2.1. Pour en finir avec la segmentation en radicaux et exposants 77

radical . . . . . .

reste exp. reste exp. reste exp. reste exp. reste exp. reste exp.

 ros- -a — -a — -am — -ae — -ae — -aː —

 domin- -us — -e — -um — -iː — -oː — -oː —

 ag-r -e- — -e- — -um — -iː — -oː — -oː —

 templ- -um — -um — -um — -iː — -oː — -oː —

 re- -x — -x — -gem — -gis — -giː — -ge —

 consul — — — — -em — -is — -iː — -e —

 corp- -us — -us — -us — -is — -iː — -e —

 civ- -is — -is — -em — -is — -iː — -e —

 urb- -s — -s — -em — -is — -iː — -e —

 mar- -e — -e — -e — -is — -iː — -iː —

 manu- -s — -s — -m — -ːs — -iː — -ː —

 cornu- -ː — -ː — -ː — -ːs — -ː — -ː —

radical . . . . . .

reste exp. reste exp. reste exp. reste exp. reste exp. reste exp.

 re- -ːs — -ːs — -m — -ːiː — -ːiː — -ː —

 ros- -ae — -ae — -aːs — -aːr- -um -iː- -s -iː- -s

 domin- -iː — -iː — -oːs — -oːr- -um -iː- -s -iː- -s

 ag-r -iː — -iː — -oːs — -roː- -um -iː- -s -iː- -s

 templ- -a — -a — -a — -oːr- -um -iː- -s -iː- -s

 re- -geːs — -geːs — -geːs — -g- -um -gibu- -s -gibu- -s

 consul -eːs — -eːs — -eːs — — -um -ibu- -s -ibu- -s

 corp- -a — -a — -a — — -um -ibu- -s -ibu- -s

 civ- -eːs — -eːs — -eːs — -i- -um -ibu- -s -ibu- -s

 urb- -eːs — -eːs — -eːs — -i- -um -ibu- -s -ibu- -s

 mar- -ia — -ia — -ia — -i- -um -ibu- -s -ibu- -s

 manu- -ːs — -ːs — -ːs — -u- -um -ib- -s -ib- -s

 cornu- -a — -a — -a — -u- -um -ib- -s -ib- -s

 re- -ːs — -ːs — -ːs — -ːr- -um -ːbu- -s -ːbu- -s

Pour des raisons de lisibilité, nous notons ici l’allongement par le symbole de l’ « ː ».

effet, la stratégie de Boyé (2000) échoue dès lors qu’il existe des classes flexionnelles, car elle présuppose que les affixes sont uniformes à travers tous les lexèmes. Les seuls affixes trouvés sont le-umcommuns à tous les génitifs pluriels, le-scommun à tous les datifs et ablatifs pluriels. Il faudrait donc partitionner préalablement les lexèmes en classes, afin que cette stratégie fonctionne. Hélas ! Pour partitionner les lexèmes en classes, il nous faudrait déjà connaître leur comportement flexionnel.

Dans cet exemple, la solution consistant à reverser le « reste » vers les affixes pourrait nous tenter. Mais cela produit une segmentation peu convaincante en présence d’allomorphie radicale : on obtient l’affixe-xpour le nominatif et le vocatif derex, et un ensemble de suffixes en -g pour les autres cas. Le résultat serait du même ordre en présence de supplétion : on analyserait un radical zéro et l’ensemble du matériel serait présent dans le reste.

Spencer (2012) propose à l’inverse de favoriser les radicaux dans ce type d’arbitrages : Le second principe est la Maximisation du Radical. Chaque fois que nous sommes confrontés avec le choix de traiter une sous-chaîne comme un affixe flexionnel ou une partie d’un radical morphomique, nous ne devrions opter pour la solution affixale que si cette solution est sans équivoque et mène à une déclaration simple de l’exponence. Sinon, nous supposons que la sous-chaîne fait partie du radical. Une conséquence de ce principe est que nous devrions traiter tout fragment (c’est à dire, sous-chaîne) comme partie d’un radical morphomique dès lors qu’elle réapparaît ailleurs dans le paradigme avec une fonction différente.5

Dans nos données, pour le lexème , la plupart des « restes » sont répétés entre nomi- natif et vocatif : faut-il pour autant tous les considérer comme parties du radical ? Aux génitif, datif et ablatif pluriels, on trouve des affixes uniques communs à toutes les classes,-um,-s. Faut- il renoncer à ce que-sfasse partie de l’affixe parce qu’il est répété entre datif et ablatif pluriel ? 5. [En anglais dans le texte] « The second principle is Stem Maximization. Whenever we are confronted with a

choice as to whether to treat a substring as an inflectional affix or as part of a morphomic stem we should only opt for the inflectional affix solution if that solution is unequivocal and leads to a simple statement of exponence. Otherwise, we assume that the substring is part of the stem. A consequence of this principle is that we should treat any partial (that is, substring) as part of a morphomic stem whenever that partial recurs elsewhere in the paradigm with a different function ».

2.1. Pour en finir avec la segmentation en radicaux et exposants 79

Est-il préférable de conserver ces affixes communs, plutôt que les habituels-arum,-orum, etc., au prétexte que cela mène à une définition plus simple des affixes ? Il est difficile de déterminer dans quels cas la solution affixale est « simple » et « sans équivoque ».

Les alternances non concaténatives posent encore un autre problème. Que faire par exemple face aux alternances de longueur des voyelles dans notre exemple ? Dans le paradigme de , où l’on peut observer une alternancee/eː, notre méthode a conservé la voyelle dans le radical, ce qui mène à des affixes du type-ːs. Ceux-ci semblent artificiels, pourtant la solution inverse, qui consiste à toujours identifiereeteːcomme faisant partie des exposants, manque de toute évidence une information sur la récurrence de la voyelleedans les formes ce lexème, dont le radical serait alors réduit àr-.

Le problème technique de la segmentation que mentionne Spencer (2012) n’est donc pas, contrairement à sa suggestion, seulement apparent. Il est bien sûr possible de prendre une fois pour toutes une décision entre maximisation du radical et maximisation des exposants. Les deux mènent cependant à des segmentations peu satisfaisantes, même sur un exemple aussi peu controversé que l’ensemble des lexèmes exemplaires du latin analysés ici. Est-il seulement possible de résoudre ce problème d’une façon satisfaisante ?