• Aucun résultat trouvé

Les probl`emes inh´erents `a une segmentation en mots

Les linguistes informaticiens et chercheurs en traitement automatique des langues,

qui utilisent de mani`ere quotidienne l’ordinateur pour ´etudier ou traiter la langue,

font constamment face `a un probl`eme : le plus souvent, ils ´etudient et traitent

uniquement la forme ´ecrite de la langue, alors qu’elle est orale par essence.

Bien que le syst`eme d’´ecriture d’une langue ne soit pas li´e `a la structure

in-terne de la langue consid´er´ee, la forme ´ecrite de la langue ne peut pour autant ˆetre

n´eglig´ee. Elle est souvent la seule donn´ee `a notre disposition, par exemple sous la

forme de donn´ees

¿

moissonn´ees

À

sur le web, ou tir´ees de grandes bases de donn´ees

linguistiques telles que celles distribu´ees par FRANTEXT5, le LDC6 ou l’ELDA7.

En traitement automatique des langues fond´e sur les donn´ees, on travaille

habituelle-ment au niveau de ce qu’on appelle le mot, conform´ehabituelle-ment `a l’id´ee intuitive que l’on

en a dans les langues `a segmentation claire, c’est-`a-dire dont le syst`eme d’´ecriture

in-clut des s´eparateurs sp´ecifiques. Ces s´eparateurs segmentent le document en de plus

petites parties, en d´elimitant des chaines de lettres ou d’id´eogrammes. `A l’oppos´e,

dans les langues dont le syst`eme d’´ecriture n’admet pas de s´eparateur, une phrase,

un paragraphe ou des documents entiers peuvent ˆetre ´ecrits en une s´equence

con-tinue de lettres ou d’id´eogrammes. Cela pose donc un probl`eme de m´ethode.

Illustrons ce que nous venons de dire. Le fran¸cais, l’anglais et l’allemand sont des

langues dont le syst`eme d’´ecriture admet des s´eparateurs : l’espace et la ponctuation.

Par exemple, dans la phrase suivante en fran¸cais :

Le chat mange une souris.

on peut compter 5 mots. Dans son ´equivalent en anglais :

The cat eats a mouse.

4

Les grammaires hors-contexte sont habituellement fond´ees sur des cat´egories affect´ees aux mots,

le mot est donc une unit´e de d´epart.

5

Voir http://www.frantext.fr .

6

Voir http://www.ldc.upenn.edu .

7

Voir http://www.elda.org .

on peut aussi compter 5 mots. Enfin, dans son ´equivalent en allemand :

Die Katze ißt eine Maus.

on peut encore compter 5 mots. Cependant, dans son ´equivalent en japonais :

猫が鼠を食べている。

/nekoganezumiwotabeteiru./

on n’est pas en mesure de d´enombrer visuellement plusieurs mots. Dans ce cas pr´ecis,

on se heurte au fait que dans le syst`eme d’´ecriture de la langue japonaise, il n’y a

pas de fronti`ere entre les mots induite par des s´eparateurs clairs8 (dans le cas des

langues europ´eennes cit´ees en exemple, l’espace et la ponctuation). Ce ph´enom`ene

est loin d’ˆetre exceptionnel : la majorit´e des langues orientales telles que le chinois,

le tha¨ı, le lao s’´ecrivent sans espace, tout comme par ailleurs le latin et le grec ancien

`a une certaine ´epoque en Europe. Dans l’exemple qui nous int´eresse, on pourrait

toutefois contourner un tel probl`eme en proposant une segmentation en mots selon

des r`egles d´efinies `a l’avance : par exemple,

猫kがk鼠kをk食べてkいるk。

/nekokgaknezumikwoktabetekiruk./

Ou alors, on pourrait aussi accepter :

猫kがk鼠kをk食べているk。

/nekokgaknezumikwoktabeteiruk./

Ou encore, on pourrait choisir une segmentation en bunsetsus :

猫がk鼠をk食べているk。

/nekogaknezumiwoktabeteiruk./

que trouveraient plus coh´erente les personnes ayant des notions de grammaire

ja-ponaise.

On peut tirer trois enseignements de l’exemple cit´e ci-dessus :

• il n’existe pas une mais plusieurs fa¸cons apparemment correctes, et justifi´ees,

de d´ecouper la langue en mots, dans le cas o`u le syst`eme d’´ecriture de la langue

consid´er´ee n’admet pas de s´eparateur. Il existe donc un d´esaccord au niveau

de la d´ecoupe ;

• d’autres unit´es que le mot (telles que le bunsetsu dans l’exemple en langue

japonaise) semblent tout aussi appropri´ees que le mot pour d´ecouper la langue,

si ce n’est plus ;

• une pratique courante en traitement automatique des langues, est de

trans-poser des approches depuis des langues dont le syst`eme d’´ecriture admet des

s´eparateurs `a des langues dont le syst`eme d’´ecriture n’en admet pas, alors

qu’elles ne sont pas n´ecessairement appropri´ees ni intuitives dans celles-ci.

Nous d´eveloppons ce point dans la section 2.2.

8

On pourra tout de mˆeme remarquer qu’une s´eparation est d´efinie dans le cas duromaji,

tran-scription de la langue utilisant l’alphabet latin, ou encore dans le cas des livres pour enfants o`u

le syst`eme d’´ecriture utilise uniquement l’alphabet syllabique dithiragana. Dans ce dernier cas, la

segmentation est en bunsetsus.

Une s´eparation graphique entre les mots ne pouvant ˆetre d´efinie dans le cadre

de la th´eorie linguistique g´en´erale, le mot graphique lui-mˆeme ne peut ˆetre d´efini

grace au syst`eme d’´ecriture d’une langue particuli`ere, et n’est ainsi pas une unit´e

linguistique `a valeur g´en´erale.

Pour Mounin, bien que dans certaines langues on dispose d’indices phon´etiques

(comme par exemple le changement de la consonne initiale en contexte dans le cas

du breton) la notion de mot est empiriquement li´ee `a sa forme ´ecrite : ce qui peut

alors sembler clair dans le syst`eme d’´ecriture de beaucoup de langues europ´eennes,

o`u un mot est une unit´e d´elimit´ee par deux blancs, un signe de ponctuation et un

blanc ou l’inverse, ne l’est pas dans d’autres langues. Mounin conclut ainsi9:

Le mot n’est pas une r´ealit´e de linguistique g´en´erale.

Ainsi, le mot graphique peut ˆetre encadr´e par deux termes dot´es d’une r´ealit´e

linguistique. D’un cˆot´e, le terme de lex`eme, porteur de sens, qui devient mon`eme

s’il est ind´ecomposable en unit´es plus petites ; de l’autre, le terme delexie, unit´e de

surface du lexique et qui comprend le lex`eme, ses d´eriv´es affixaux et ses compos´es.

Mounin cite l’exemple suivant :pomme,pommieretpomme de terresont des lexies

alors que seulpomm(e)est un lex`eme10.

Mˆeme dans le cas o`u une unit´e de mot peut ˆetre pr´ecis´ee dans le cadre d’une

langue en particulier, l’application de crit`eres rigoureux produit des analyses dont le

r´esultat s’´ecarte bien souvent consid´erablement du sens commun du terme. En effet,

on peut retrouver ce mˆeme probl`eme dans des langues dont le syst`eme d’´ecriture

admet des s´eparateurs. Martinet11 cite lui-mˆeme les cas suivants :

• le cas du g´enitif en anglais : ainsi, dans The King of England’s, on ne sait pas

dire si l’on d´enombre 4 ou 5 mots graphiques ;

• dans le mot compos´e en fran¸cais Bonne d’enfant, on d´enombre 1 ou 3 mots,

alors que dans sa traduction allemandeKinderm¨adchen, on peut se demander

de fa¸con l´egitime si l’on doit compter 1 ou 2 mots, puisque que l’on retrouve

ind´ependamment KinderetM¨adchen.

La segmentation des mots compos´es en allemand n’est pas ´evidente, comme le

montre l’exemple extrˆeme suivant12: Lebensversicherungsgesellschaftsangestellter,

qui signifie en fran¸caisEmploy´e de compagnie d’assurance vie. Un tel exemple nous

renvoie `a la r´ealit´e : la langue est d’abord et avant tout orale. Oralement, on peut

ne pas faire de pause dans un tel mot compos´e, alors qu’on s´epare les mots per¸cus

comme tels. De ce fait, un mot compos´e est un mot, au mˆeme titre que ses compos´es

sont des mots, lorsqu’ils sont pris comme tels. Est un mot, ce qui a un sens autonome.

Martinet pr´ef`ere au terme mot le terme syntagme autonome: le syntagme est

chez lui une combinaison d’unit´es r´ealis´ee par un sujet parlant. Le fait qu’il soit

autonome implique que sa fonction ne d´epend pas de sa place dans l’´enonc´e. Ainsi,

il propose la d´efinition suivante :

Un syntagme autonome form´e de mon`emes non s´eparables est ce qu’on

appelle commun´ement un mot. On ´etend toutefois cette d´esignation aux

9

Mounin,Dictionnaire de la linguistique, 1974, p. 222.

10

Pommier est form´e de deux lex`emes, pomm-d´esignant le fruit, et le foncteur -ier, signifiant

¿

arbre `a X

À

.

11

Martinet,El´ements de linguistique g´en´erale´ , 1970, p. 116.

12

mon`emes autonomes comme hier, vite, ainsi qu’aux mon`emes non

au-tonomes, fonctionnels commele,livre,rouge, dont l’individualit´e

phono-logique est g´en´eralement bien marqu´ee encore que leur s´eparabilit´e ne

soit pas toujours acquise [...].

Op´erer avec une unit´e significative plus vaste que le mon`eme et qu’on appelle

motne pose d`es lors pas d’inconv´enient, tant que l’on garde `a l’esprit que le terme de

motrecouvre dans chaque langue des types particuliers de relations syntagmatiques.

Nous allons donc nous int´eresser `a une autre unit´e possible pour d´ecouper la

langue, afin de traiter en particulier les langues dont le syst`eme d’´ecriture n’admet

pas de s´eparateur : le caract`ere, tel qu’utilis´e pour ´ecrire les textes ´electroniques.