Les linguistes informaticiens et chercheurs en traitement automatique des langues,
qui utilisent de mani`ere quotidienne l’ordinateur pour ´etudier ou traiter la langue,
font constamment face `a un probl`eme : le plus souvent, ils ´etudient et traitent
uniquement la forme ´ecrite de la langue, alors qu’elle est orale par essence.
Bien que le syst`eme d’´ecriture d’une langue ne soit pas li´e `a la structure
in-terne de la langue consid´er´ee, la forme ´ecrite de la langue ne peut pour autant ˆetre
n´eglig´ee. Elle est souvent la seule donn´ee `a notre disposition, par exemple sous la
forme de donn´ees
¿moissonn´ees
Àsur le web, ou tir´ees de grandes bases de donn´ees
linguistiques telles que celles distribu´ees par FRANTEXT5, le LDC6 ou l’ELDA7.
En traitement automatique des langues fond´e sur les donn´ees, on travaille
habituelle-ment au niveau de ce qu’on appelle le mot, conform´ehabituelle-ment `a l’id´ee intuitive que l’on
en a dans les langues `a segmentation claire, c’est-`a-dire dont le syst`eme d’´ecriture
in-clut des s´eparateurs sp´ecifiques. Ces s´eparateurs segmentent le document en de plus
petites parties, en d´elimitant des chaines de lettres ou d’id´eogrammes. `A l’oppos´e,
dans les langues dont le syst`eme d’´ecriture n’admet pas de s´eparateur, une phrase,
un paragraphe ou des documents entiers peuvent ˆetre ´ecrits en une s´equence
con-tinue de lettres ou d’id´eogrammes. Cela pose donc un probl`eme de m´ethode.
Illustrons ce que nous venons de dire. Le fran¸cais, l’anglais et l’allemand sont des
langues dont le syst`eme d’´ecriture admet des s´eparateurs : l’espace et la ponctuation.
Par exemple, dans la phrase suivante en fran¸cais :
Le chat mange une souris.
on peut compter 5 mots. Dans son ´equivalent en anglais :
The cat eats a mouse.
4
Les grammaires hors-contexte sont habituellement fond´ees sur des cat´egories affect´ees aux mots,
le mot est donc une unit´e de d´epart.
5
Voir http://www.frantext.fr .
6Voir http://www.ldc.upenn.edu .
7Voir http://www.elda.org .
on peut aussi compter 5 mots. Enfin, dans son ´equivalent en allemand :
Die Katze ißt eine Maus.
on peut encore compter 5 mots. Cependant, dans son ´equivalent en japonais :
猫が鼠を食べている。
/nekoganezumiwotabeteiru./
on n’est pas en mesure de d´enombrer visuellement plusieurs mots. Dans ce cas pr´ecis,
on se heurte au fait que dans le syst`eme d’´ecriture de la langue japonaise, il n’y a
pas de fronti`ere entre les mots induite par des s´eparateurs clairs8 (dans le cas des
langues europ´eennes cit´ees en exemple, l’espace et la ponctuation). Ce ph´enom`ene
est loin d’ˆetre exceptionnel : la majorit´e des langues orientales telles que le chinois,
le tha¨ı, le lao s’´ecrivent sans espace, tout comme par ailleurs le latin et le grec ancien
`a une certaine ´epoque en Europe. Dans l’exemple qui nous int´eresse, on pourrait
toutefois contourner un tel probl`eme en proposant une segmentation en mots selon
des r`egles d´efinies `a l’avance : par exemple,
猫kがk鼠kをk食べてkいるk。
/nekokgaknezumikwoktabetekiruk./
Ou alors, on pourrait aussi accepter :
猫kがk鼠kをk食べているk。
/nekokgaknezumikwoktabeteiruk./
Ou encore, on pourrait choisir une segmentation en bunsetsus :
猫がk鼠をk食べているk。
/nekogaknezumiwoktabeteiruk./
que trouveraient plus coh´erente les personnes ayant des notions de grammaire
ja-ponaise.
On peut tirer trois enseignements de l’exemple cit´e ci-dessus :
• il n’existe pas une mais plusieurs fa¸cons apparemment correctes, et justifi´ees,
de d´ecouper la langue en mots, dans le cas o`u le syst`eme d’´ecriture de la langue
consid´er´ee n’admet pas de s´eparateur. Il existe donc un d´esaccord au niveau
de la d´ecoupe ;
• d’autres unit´es que le mot (telles que le bunsetsu dans l’exemple en langue
japonaise) semblent tout aussi appropri´ees que le mot pour d´ecouper la langue,
si ce n’est plus ;
• une pratique courante en traitement automatique des langues, est de
trans-poser des approches depuis des langues dont le syst`eme d’´ecriture admet des
s´eparateurs `a des langues dont le syst`eme d’´ecriture n’en admet pas, alors
qu’elles ne sont pas n´ecessairement appropri´ees ni intuitives dans celles-ci.
Nous d´eveloppons ce point dans la section 2.2.
8
On pourra tout de mˆeme remarquer qu’une s´eparation est d´efinie dans le cas duromaji,
tran-scription de la langue utilisant l’alphabet latin, ou encore dans le cas des livres pour enfants o`u
le syst`eme d’´ecriture utilise uniquement l’alphabet syllabique dithiragana. Dans ce dernier cas, la
segmentation est en bunsetsus.
Une s´eparation graphique entre les mots ne pouvant ˆetre d´efinie dans le cadre
de la th´eorie linguistique g´en´erale, le mot graphique lui-mˆeme ne peut ˆetre d´efini
grace au syst`eme d’´ecriture d’une langue particuli`ere, et n’est ainsi pas une unit´e
linguistique `a valeur g´en´erale.
Pour Mounin, bien que dans certaines langues on dispose d’indices phon´etiques
(comme par exemple le changement de la consonne initiale en contexte dans le cas
du breton) la notion de mot est empiriquement li´ee `a sa forme ´ecrite : ce qui peut
alors sembler clair dans le syst`eme d’´ecriture de beaucoup de langues europ´eennes,
o`u un mot est une unit´e d´elimit´ee par deux blancs, un signe de ponctuation et un
blanc ou l’inverse, ne l’est pas dans d’autres langues. Mounin conclut ainsi9:
Le mot n’est pas une r´ealit´e de linguistique g´en´erale.
Ainsi, le mot graphique peut ˆetre encadr´e par deux termes dot´es d’une r´ealit´e
linguistique. D’un cˆot´e, le terme de lex`eme, porteur de sens, qui devient mon`eme
s’il est ind´ecomposable en unit´es plus petites ; de l’autre, le terme delexie, unit´e de
surface du lexique et qui comprend le lex`eme, ses d´eriv´es affixaux et ses compos´es.
Mounin cite l’exemple suivant :pomme,pommieretpomme de terresont des lexies
alors que seulpomm(e)est un lex`eme10.
Mˆeme dans le cas o`u une unit´e de mot peut ˆetre pr´ecis´ee dans le cadre d’une
langue en particulier, l’application de crit`eres rigoureux produit des analyses dont le
r´esultat s’´ecarte bien souvent consid´erablement du sens commun du terme. En effet,
on peut retrouver ce mˆeme probl`eme dans des langues dont le syst`eme d’´ecriture
admet des s´eparateurs. Martinet11 cite lui-mˆeme les cas suivants :
• le cas du g´enitif en anglais : ainsi, dans The King of England’s, on ne sait pas
dire si l’on d´enombre 4 ou 5 mots graphiques ;
• dans le mot compos´e en fran¸cais Bonne d’enfant, on d´enombre 1 ou 3 mots,
alors que dans sa traduction allemandeKinderm¨adchen, on peut se demander
de fa¸con l´egitime si l’on doit compter 1 ou 2 mots, puisque que l’on retrouve
ind´ependamment KinderetM¨adchen.
La segmentation des mots compos´es en allemand n’est pas ´evidente, comme le
montre l’exemple extrˆeme suivant12: Lebensversicherungsgesellschaftsangestellter,
qui signifie en fran¸caisEmploy´e de compagnie d’assurance vie. Un tel exemple nous
renvoie `a la r´ealit´e : la langue est d’abord et avant tout orale. Oralement, on peut
ne pas faire de pause dans un tel mot compos´e, alors qu’on s´epare les mots per¸cus
comme tels. De ce fait, un mot compos´e est un mot, au mˆeme titre que ses compos´es
sont des mots, lorsqu’ils sont pris comme tels. Est un mot, ce qui a un sens autonome.
Martinet pr´ef`ere au terme mot le terme syntagme autonome: le syntagme est
chez lui une combinaison d’unit´es r´ealis´ee par un sujet parlant. Le fait qu’il soit
autonome implique que sa fonction ne d´epend pas de sa place dans l’´enonc´e. Ainsi,
il propose la d´efinition suivante :
Un syntagme autonome form´e de mon`emes non s´eparables est ce qu’on
appelle commun´ement un mot. On ´etend toutefois cette d´esignation aux
9
Mounin,Dictionnaire de la linguistique, 1974, p. 222.
10
Pommier est form´e de deux lex`emes, pomm-d´esignant le fruit, et le foncteur -ier, signifiant
¿
arbre `a X
À.
11Martinet,El´ements de linguistique g´en´erale´ , 1970, p. 116.
12
mon`emes autonomes comme hier, vite, ainsi qu’aux mon`emes non
au-tonomes, fonctionnels commele,livre,rouge, dont l’individualit´e
phono-logique est g´en´eralement bien marqu´ee encore que leur s´eparabilit´e ne
soit pas toujours acquise [...].
Op´erer avec une unit´e significative plus vaste que le mon`eme et qu’on appelle
motne pose d`es lors pas d’inconv´enient, tant que l’on garde `a l’esprit que le terme de
motrecouvre dans chaque langue des types particuliers de relations syntagmatiques.
Nous allons donc nous int´eresser `a une autre unit´e possible pour d´ecouper la
langue, afin de traiter en particulier les langues dont le syst`eme d’´ecriture n’admet
pas de s´eparateur : le caract`ere, tel qu’utilis´e pour ´ecrire les textes ´electroniques.
Dans le document
Méthodes en caractères pour le traitement automatique des langues
(Page 37-40)