M ATHÉMATIQUES ET SCIENCES HUMAINES
B ERNARD V AUQUOIS
Modèles pour la traduction automatique
Mathématiques et sciences humaines, tome 34 (1971), p. 61-70
<http://www.numdam.org/item?id=MSH_1971__34__61_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1971, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
MODÈLES POUR LA TRADUCTION AUTOMATIQUE
par
Bernard
VAUQUOIS1
Lorsqu’on
de poser leproblème
à un niveausuffisamment
abstrait et de leformuler
en termes théo-riques,
la traductionautomatique
a été et reste une motivationimportante
pour une étudeopérationnelle
deslangues
naturelles. En vued’expiiquer
le« comment» des processus deproduction
et de reconnaissance d’unelangue (c’est
le cas de latraduction),
on peut concevoir un automatequi produise
ou reconnaisse un texte eneffectuant
des calculs effectifs au sens de calculseffectués
par une Machine deTuring,
mais on peutexiger
en
plus
que tout calculeffectué
par cet automate soiteflectué
en un temps «raisonnable»,
avec une mémoirelimitée,
par une machine réelle. Si l’on veut tester la validité d’une théorielinguistique
et enparticulier
d’unegrammaire
deproduction
ou dereconnaissance,
n’est-il pas meilleur test que le « passage o en machine réelle?L’expérimentation,
à l’aide d’unordinateur,
permet de poser de nouveauxproblèmes,
de réaliser des combinatoirescomplexes, d’imposer
au théoricien des contraintesqui
éviterontparfois
les solutions évidentes !J. P.
DESCLÉS
INTRODUCTION
La
traduction,
du moins tellequ’elle
est conçuedepuis
une dizained’années,
a été une motivationimportante
pour l’étude et la réalisation de modèles calculables par ordinateur. Par lasuite,
d’autrescentres d’intérêt tels que la communication homme-machine en
langue
naturelle ou encore lesproblèmes d’indexage
en documentationautomatique
ontprofité
de la même démarcheméthodologique
etparfois emprunté
unepartie
des mêmes réalisations.Aussi,
dans cequi suit,
si laplupart
desexemples
sont choisis pour les besoins de la traductionautomatique,
il ne sera pas défendunéanmoins,
de montrer comment ces mêmes modèles peuvent servir à autre chose.Ce
cadre, plus large
que celui de la seule traductionautomatique
seradésigné «
traitement auto-matique
deslangues » (en
abréviation :T.A.L.).
Une
traduction, automatique
ou non, est soumise à un certain nombre de contraintes. Enparti- culier,
le texte à traduire est considéré dupoint
de vue de son contenu et non de sa formed’expression.
On élimine ainsi les textes dont la forme
prend
une partimportante (art littéraire).
La « traduction»de tels textes est en réalité une nouvelle
composition artistique.
1. CNRS, Centre d’études pour la traduction automatique.
En traduction
automatique,
il est nécessaire deprolonger
lesconséquences
de la remarqueprécédente
aussi loin quepossible.
On considère que lalangue d’expression
est le moyen decodage
d’un« messages
qui
aurait pu être codé dansplusieurs
autreslangues.
Parexemple,
ladescription
d’uneexpérience
dephysique
peut aussi bien s’écrire enfrançais, anglais,
russe,japonais,
etc.Il est aussi nécessaire de soumettre à la machine des textes « correctement» écrits. En
effet,
l’idée de modèle ne peuts’appliquer qu’à
des niveaux delangue
bien définis et décritsrigoureusement.
Il est
impossible,
ou du moins totalementinefficace,
de demander à une machined’interpréter
correc-tement toutes les fantaisies de syntaxe, de
lexique, d’orthographe... auxquelles
se livrent certains auteursscientifiques.
Ces restrictions étantacceptées (il
y en aura d’autresqui
interviendront par lasuite),
voyons ce que
représente
la notion de modèle en traitementautomatique
deslangues.
I. NOTION DE
MODÈLE
ET NIVEAUX DE LANGUELa notion de modèle
qu’on
désireappliquer
n’a riend’original
et se trouve courammentpratiquée
dansd’autres
disciplines.
Ce que l’on souhaite obtenir en traitementautomatique
deslangues,
ce sont desmodèles
adaptés
aux différentesapplications
fixées commeobjectif.
Dans ce but on est conduit à dis-tinguer
divers niveaux delangue.
Le niveau le
plus
bas est celui du texte considéré comme chaîne desymboles (chaîne
de caractèresalphabétiques, ponctuation,
etc., pour un texteécrit,
chaîne desymboles phonétiques
pour un texteparlé, préalablement transcrit).
C’est le niveau habituel où les textes sont introduits dans un ordinateur si l’on n’effectue aucune
préédition
manuelle. En traductionautomatique
c’est le niveau dedépart
du texte à traduire et leniveau de sortie du texte traduit. Il en est de même à l’entrée et sortie d’un
système
de communication homme-machine.On peut
imaginer
à l’autre extrémité un niveau de « contenu»qui représente
lasignification
dutexte codé par la chaîne de
symboles.
Ce niveau ne seprête
à aucune définitionrigoureuse
etapparaît
inaccessible. On se contentera donc de niveaux intermédiaires entre le « texte» et le « contenu».
Pour fixer les
idées,
disons que, dans la hiérarchie ascendante texte 2013~- contenu, unniveau n2
sera
supérieur
à un niveau ni si la formulation du message dans n2échappe davantage
aux contraintes de lalangue
que la formulation du même message dans n1.Par
exemple,
prenons un message limité à unephrase
de texte : cettephrase
est transformée en uneformuler
au niveau n, et en uneformule f2
au niveau n2. Alors le nombre dephrases
designification équivalente
oureprésentées
par la mêmeformule f2
est engénéral supérieur (quelquefois égal)
au nombrede celles
représentées
par la même formulefi.
En somme,plus
le niveau est élevé etplus
lacapacité
deparaphrasage
estgrande.
A titre
d’exemple simple,
donnons-nous les deuxphrases : ( 1)
« Le clientpaie
la marchandise. »[2)
« Le client paye la marchandise.»Au niveau du texte
(chaîne
de caractèresalphabétiques)
ces deuxphrases
sont différentes àcause de «
paie»
et « paye ».Au niveau de
représentation morphologique,
elles sontidentiques,
car «paie»
et « paye» sontreprésentés
parl’unique
formule :verbe « payer» : troisième personne
singulier,
indicatifprésent
la troisième
phrase :
(3)
« La marchandise estpayée
par le client»est différente des deux
premières,
au niveau du texte, au niveaumorphologique
et aussi au niveausyntaxique. Pourtant,
il est aiséd’imaginer
un niveausupérieur
où ces troisphrases
sontreprésentées
par la même formule. En
effet,
supposons que l’on note le concept de « payer» comme unprédicat
àdeux
places d’arguments :
PAYER(x,, x2)
est laplace
de l’élément payeur et x2 celle de l’élémentpayé,
on aboutit à la formuleunique :
PAYER
(client, marchandise)
dans les troisexemples.
Pour passer d’un niveau à un autre de manière
automatique,
on réalise un modèle. Il est évidentque
lorsque
les niveaux sontdéterminés,
on se borne à réaliser des modèles effectuant le passage au niveau immédiatement inférieur ousupérieur.
Le but dechaque
modèle consiste à fournir pourchaque
formule
proposée
au niveaud’entrée,
toutes les formulescorrespondantes
au niveau de sortie.On dit
qu’il s’agit
d’un modèled’analyse (ou
dereconnaissance)
si le niveau d’entrée est inférieurau niveau de
sortie, qu’il s’agit
d’un modèle desynthèse (ou génératif)
dans le cas contraire.Étant
donnéefi,
formule au niveaud’entrée,
le modèle peut fournir :a)
Aucune formule de sortie : celasignifie
que la formulefi
n’était pasvalable ;
b)
Plusieurs formules de sortie : pour un modèle desynthèse
celasignifie qu’il
calcule toutes les para-phrases possibles ;
pour un modèled’analyse,
celasignifie
que laformuler
estambiguë.
c)
Une seule formule de sortie : pour un modèle desynthèse
celacorrespond
à un choix(selon
un critèrequelconque)
d’une seule solutionparmi
lesparaphrases ;
pour un modèled’analyse
celasignifie
quefi
n’est pas
ambiguë.
A titre
d’exemple,
considérons un modèled’analyse morphologique :
dans ce cas, une formule d’entréeest une chaîne de
morphèmes
provenant de lasegmentation
d’un mot(segmentation
obtenue au moyen d’un dictionnaire demorphèmes) ;
une formule de sortie est une chaîne desymboles qui
déterminel’origine
lexicale du mot ainsi que les diverses dérivationsqu’il
a subies et les valeurs des variables gram- maticalesqui
lui sont attachées.Ainsi «
INUTILITÉ »
estsegmenté
en IN > UTIL >ITÉ
> : on obtient :dérivation nominale >
n égation >
substantif commun >
féminin
singulier >
ou encore TROUVENT
segmenté
en TROUV > ENT >.Pour mettre en évidence un cas où aucune formule de sortie
n’apparaît,
il suffit de choisir un mot àsegmentations multiples
tel que :PORTES
Ce mot conduit à trois formules d’entrée :
1)
PORTE > S > où PORTE > est le substantif et S > la marque dupluriel.
Cette formule est valable et donne un résultat.
2)
PORT > ES > où PORT > est la base du verbe porter et ES > une désinence.C’est aussi valable.
3)
PORT > ES > où PORT > est le substantif et ES > une désinence.Pour cette formule
d’entrée,
iln’y
a pas de sortie car ils’agit
d’unesegmentation
incorrecte.Cet
exemple
de modèlemorphologique
permet aussi d’éclairer cequi
suit concernant lesétapes
à réaliser pour la construction d’un modèle.
1. On doit choisir les niveaux d’entrée et de sortie et en donner une
description
formalisée. Cecisignifie
que l’on détermine les classes
d’objets mathématiques auxquelles appartiennent
les formules d’entréeet de
sortie,
ainsi que les contraintes àimposer
à ces formules.Ainsi,
dans le cas du modèlemorphologique
onprocède
auxopérations
suivantes :a)
On définit une liste demorphèmes
tels quechaque
forme de mot delangue
soit une suite de certains de cesmorphèmes.
On ne considère commeacceptable
que les suitesqui
constituent une forme de mot et une seule. Ainsi l’unité de traitement est la forme de mot(choix
du niveaud’entrée).
b)
On définit des ensembles decatégories syntaxiques,
variablesgrammaticales, dérivations,
référenceslexicales,
etc., une formule de sortie est une suite de telssymboles (choix
du niveau desortie).
c)
Ladescription
formalisée comporte la définition de classes demorphèmes,
oùchaque
classe estrepré-
sentée par un
symbole.
L’ensemble de cessymboles
constituel’alphabet
d’entrée. Onprocède
de manièreanalogue
pour créer unalphabet
de sortie.Les
objets mathématiques qui expriment
les formules d’entrée et de sortie sont donc des chaînes construitesrespectivement
sur les deuxalphabets (éléments
du monoïde libreengendré
parl’alphabet correspondant).
Dans le cas d’un modèle
d’analyse syntaxique (au
niveau syntaxe desurface)
les formules de sorties ne sontplus exprimées
par des chaînes mais par des arborescencesqui
sont évidemment d’autresobjets mathématiques.
2. On doit
ensuite,
compte tenu des résultats de lapremière étape, ajouter
aux contraintesdéjà expli-
citées pour les formules des niveaux d’entrée et
sortie,
d’autres types de contraintes liées d’une partaux
phénomènes linguistiques
que l’on veutreproduire
dans le modèle et d’autre part, auxpossibilités
de cal~ ul d’une formule du second niveau à
partir
d’une formule dupremier.
Ceci conduit à
examiner, parallèlement l’adéquation
du modèle à la réalité et le choix d’un typelogique.
Ce typelogique
est un modèle abstraitgénérateur
de tous les modèles concrets ayant en communles
objets mathématiques qui expriment
les formulesd’entrée,
ceuxqui expriment
les formules de sortieet les contraintes de calcul.
Reprenons l’exemple
d’un modèled’analyse morphologique
dufrançais.
Les formules d’entréesont
exprimées
par des chaînes construites sur unalphabet VE
dont lessymboles
sont les classes mor-phémiques
dufrançais
selon unprocédé
extérieur de classification.Les formules de sortie sont
exprimées
par des chaînes construites sur unalphabet Vs
dont lessymboles
traduisent des conceptsplus
abstraits(classe syntaxique, nombre,
temps, personne,etc.).
Ainsi le modèle doit réaliser un calcul de chaîne à chaîne. En
français,
il n’est pas difficile de déterminer une classification desmorphèmes
telle que toute forme de mot soitreprésentée
par une chaîne desymboles
obéissant à la contrainte suivante :La validité ou le refus d’un
symbole
dans la chaîne nedépend
que dusymbole précédent (éventuel-
lement d’un nombre fini de
symboles précédents).
Dans cesconditions,
le typelogique
de modèle leplus simple
et leplus
efficace est le type « transducteur à états unis )>.Ainsi ce type
logique
de modèle convient pour tout modèle chaîne - chaîne dont les contraintessont dites « d’états finis». Il convient en
particulier
pour la réalisation du modèle concret demorpho- logie
dufrançais
mais aussi pour des modèles demorphologie
debeaucoup
d’autreslangues.
Pour un modèle
d’analyse syntaxique (au
niveau syntaxe desurface)
les formules d’entréeseront les formules de sortie du modèle
d’analyse morphologique,
donc des chaînes desymboles.
Parcontre, que l’on se propose d’obtenir une structure
syntaxique
du type P-marker deChomsky
ou bienun
graphe
dedépendance
du typeTesnières-Hays,
les formules de sortie sont des arborescences. Ils’agit
d’un modèle chaîne - arborescence. Si les contraintes sur les chaînes
d’entrée,
contraintesimposées
par les
phénomènes linguistiques,
sont relativementsimples (continuité
des constituants immédiats ouprojectivité
dugraphe
dedépendance)
alors le typelogique
de modèle leplus simple
et leplus
efficaceest le type dit « hors contexte »
(context-free).
Il arrive
déjà
à ceniveau,
et encoredavantage
aux niveauxsupérieurs,
que le choix d’un typelogique
connu et relativementsimple
ne soitplus compatible
avec les conditionsd’adéquation
du modèleà la réalité. Il est donc nécessaire soit de trouver d’autres types
logiques (éventuellement
d’en construirespécialement)
pour satisfairepleinement
aux conditionsd’adéquation,
soit de tronquer lalangue (abandonner
lareprésentation complète
du niveau delangue considéré)
pourgarder
un typelogique simple,
soit enfin de trouver une solution decompromis.
Cette étude est sans doute l’une des
plus
difficiles et desplus importantes
du traitement auto-matique
deslangues.
3.
L’étape
suivante consiste à réaliser le modèle concret sur la base du typelogique adopté
et à le rendreopérationnel.
Parallèlement,
on doit d’une part écrire unegrammaire,
c’est-à-dire un ensemble derègles qui
permettent de calculer pas à pas, la formule de sortie à
partir
de la formuled’entrée,
d’autre part, étudier unalgorithme qui
est le moded’emploi
de lagrammaire
ou si l’on veut le fil directeur de la conduite du calcul. Il peut,évidemment,
existerplusieurs algorithmes qui
utilisent la mêmegrammaire
et conduisent au même résultat. Il
s’agit
là d’une étude d’efficacité.En ce
qui
concerne l’écriture de lagrammaire,
il est nécessaire dedisposer
d’un formalisme d’écriture(métalangage
danslequel
lagrammaire
estécrite). Chaque
typelogique
fournit un tel forma-lisme
(quelquefois
mêmeplusieurs).
Tel est le cas, parexemple,
de la forme normale deChomsky
ou cellede S. Greibach à propos des
grammaires
hors contexte.Cependant, l’expérience
montre que cesformalismes,
bienadaptés
à l’étude despropriétés intrinsèques
desmodèles,
seprêtent
mal à une utilisation en vue de l’écriture d’unegrammaire
réelle.En
effet,
l’utilisation directe du formalisme deChomsky,
parexemple,
conduirait à l’écriture deplusieurs
dizaines de milliers de
règles
pour un modèled’analyse syntaxique
du russe, dufrançais,
etc.Il est donc
indispensable
de déterminer desmétalangages, équivalents
aux formalismes utilisés dans lathéorie, qui
soientopérationnels.
A l’aide de ces outils le modèle concret peut enfin
apparaître
sous la forme d’unepremière
version.4.
Enfin,
la dernièreétape
consiste à vérifierl’adéquation
effective du modèle. Ils’agit
là decorriger
les erreurs dans les
règles
degrammaires
ainsi que cellesqui proviennent
ducodage (affectation
à desclasses)
des éléments lexicaux. Cecireprésente
un travailanalogue
à celuiqui
consiste à mettre aupoint
un programme.
Cependant,
la « mise aupoints
d’unegrammaire
et d’un dictionnaire est uneopération beaucoup plus
difficile pourplusieurs
raisons :- En
effet,
il n’est pastoujours possible
de segmenter unegrammaire
comme on peutsegmenter
un programme. En outre, on ne
dispose
d’aucuneméthodologie rigoureuse
pour déceler toutes lesconséquences
de la correction d’unerègle
degrammaire.
Pour assurer
l’adéquation
effective du modèle à90%
il est nécessaire d’avoir contrôlé des milliers de formules d’entrées.Ainsi,
un modèled’analyse syntaxique
commence à avoir une valeur réellelorsque cinq
ou six millephrases
ont été contrôlées.Ce travail est donc très
long
et devient fastidieux.Pourtant,
il estindispensable
de le conduirejusqu’au
bout. Il y a dans cedomaine,
un travail de recherche difficile poursystématiser
et accélérerla mise au
point
des modèles.II.
APERÇU
SURQUELQUES MODÈLES
ET LEURS APPLICATIONSIl serait hors de propos de vouloir dans ces
quelques lignes
entrer dans le détail de chacune desétapes précédemment
mentionnées pour des modèles relatifs à tous les niveauxqui
ont été réalisés ou sont encours de réalisation.
Nous nous bornerons à exposer les résultats de certains d’entre eux et à montrer
quelques-unes
de leurs
applications.
1. MODÈLES D’ANALYSE MORPHOLOGIQUE
Dans la mesure où une
langue possède
unemorphologie
assezriche,
c’est un modèlequi s’impose
pour toute étude visant le traitementautomatique
deslangues.
Faute dequoi,
on seraitobligé
de construiredes dictionnaires
gigantesques
pour reconnaître toutes les formes de mots.Ainsi l’inutilité de ce modèle
apparaît
dans deux cas :a)
Lamorphologie
de lalangue
est très pauvre : le nombre de formes de mots n’est que très peusupérieur
au nombre de
racines ;
b)
Le vocabulaire dusujet
traité est très restreint : iln’apparaît
que peu de mots et ces mots n’utilisentjamais
laplupart
des formespossibles (titres,
éventuellement résumés succinctsd’articles).
Applications
a) Étude
de vocabulaire parprocédé automatique.
En
effet,
le même mot est reconnu sous toutes ses formes. On peut aussi étudierl’emploi
desdérivations et leur
complexité
dans un textequelconque.
b) Étape
intermédiaire pour des étudesqui
nécessitent l’accès à un niveau delangue plus
élevé.2. MODÈLES D’ANALYSE SYNTAXIQUE
(AU
NIVEAU SYNTAXESUPERFICIELLE)
On atteint là un niveau
déjà
intéressant. Avant d’énumérer lesmultiples applications
d’un telmodèle,
voyons d’abord
quelle
est l’allure des résultats sur unexemple,
peut être un peucompliqué
maisqui
pourra être réutilisé à d’autres niveaux.
Soit la
phrase :
« Leremplacement
des tramways par des autobus apermis
undéveloppement rapide
de la circulation dans les rues de la vrille. »Il existe des modèles
d’analyse syntaxique qui
vont fournir la formule suivante au niveau desortie.
En
réalité,
la formule estplus compliquée
car elle comporte(ce qui
n’est pas notéici)
l’identification de larègle
degrammaire qui
a construitchaque
syntagme intermédiaire et les valeurs des variablesgrammaticales qui
sont associées à chacun d’eux.En outre, les mots de la
phrase
sont en réalité les chaînes desymboles qui
résultent del’analyse morphologique.
Il existe aussi d’autres formulations à ce même
niveau, qui représentent également
la constructionsyntaxique
au moyen d’une arborescence(schémas
deTesnière-Hays,
schémas obtenus àpartir
desgrammaires d’ajouts
deJoshi- Fraser- Salkoff).
Les
applications
que l’on trouve sontdéjà
nombreuses.a)
Ce niveau a été utilisé comme niveau detransfert
dans certainesexpériences
de traductionautomatique
notamment au
Japon,
auxÉtats-Unis
etpartiellement
enGrande-Bretagne.
Dans de tellesexpériences
on établit une
correspondance
entredes « sous-arbres», correspondant
à des groupessyntaxiques
dansla
langue
source et dans lalangue
cible.On substitue
ainsi,
par morceaux, des sous-arbres(éléments
de formule de la structuresyntaxique
en
langue cible)
à ceuxqui
ont été obtenus parl’analyse syntaxique
de lalangue
sourcejusqu’à
la création de la structuresyntaxique complète
enlangue
cible.Il reste alors à
remplacer
les mots du texte initial par leurséquivalents (appartenant
à la classesyntaxique exigée
par la nouvellestructure)
dans lalangue
cible et à réaliser la construction du textetraduit au moyen d’un modèle de
synthèse.
Les limites d’une telle méthode sont évidemment subordonnées aux
possibilités
de correspon- dance entre groupessyntaxiques
et aussi à lacapacité
de résolution desambiguïtés
du modèled’analyse.
b)
Desapplications pédagogiques
variées. Eneffet,
on peut soumettre à de tels modèlesd’analyse
syn-taxique
les textes écrits par les élèvesqui
ont étudié unelangue pendant
1 an, 2 ans, etc., et observerainsi la
progression
dans lacomplexité
des structuressyntaxiques qu’ils
utilisent.c)
Desapplications linguistiques
visant lacomparaison
des structuressyntaxiques
de surface entrediverses
langues.
d)
Ce niveau est bienadapté
à lasynthèse automatique
de laparole
pour calculer laligne mélodique (pitch),
lasegmentation
en groupesphoniques
et la durée relative desphénomènes.
On peut ainsi
(des expériences
sont encours)
réaliser la conversionautomatique
d’un texte écriten texte
parlé.
e) Enfin,
ce niveau(éventuellement
un niveau trèsvoisin)
est un intermédiaire inévitable pour accéder à un niveau delangue supérieur.
3. MODÈLES DE NIVEAU SUPÉRIEUR A LA SYNTAXE DE SURFACE
Les niveaux que l’on peut
imaginer
sont extrêmement nombreux car ondispose
d’une assezgrande
liberté dans leur définition. Aussi les
applications précises
que l’onpoursuit
interviennent avecgrand poids
dans un tel choix.Prenons à titre
d’exemple,
le modèlequi
a été réalisé au C.E.T.A. pourl’application
« traductionautomatique»
etqui pourrait
être utilisé en vue d’autresapplications.
Une
description
détaillée de ce modèle et des résultatsauxquels
il conduit se trouvent dans lesréférences
[1], [2], [3], [4].
Pour donner un aperçu très sommaire du niveau obtenu on peut dire
qu’une
formule à ceniveau
exprime
le contenu d’unephrase
en utilisant lalexicographie
de lalangue
naturelle et en se débar-rassant le
plus possible
de la syntaxe. Ainsi les relations entre les motsqui
étaient de naturesyntaxique
au niveau
précédent
sontremplacées
par des relationslogiques.
Une formule
apparaît
encore sous la forme d’une arborescence où les sommets sont porteurs d’unités lexicales et les arcs porteurs de relations.Ces relations
appartiennent
à l’un ou à l’autre des deux types suivants :a)
Relationindiquant
laplace
d’un argument dans unprédicat (prédicat
à une, deux ou troisplaces d’argument).
Cette relation est notéeACT l, ACT2, ACT3,
suivant laplace (rappelant
ainsi la notiond’actant de
Tesnière).
b)
Relationsindiquant
ladépendance qui
existe entre deuxprédicats.
On se bornera àexpliciter
cellesqui
interviennent dans la formule associée à laphrase
donnée enexemple
à propos du modèlesyntaxique.
Ainsi,
cettephrase qui
sertd’exemple :
« le
remplacement
des tramways par des autobus apermis
undéveloppement rapide
de la circulation dans les rues de la ville» aboutit à la formule :Comme dans le cas de la structure
syntaxique,
cette formule estsimplifiée
en ce sens que des indications denombre,
de temps(temps
réel et non tempssyntaxique),
etc., sont aussi associées aux unités lexicales.Toujours
est-il que cette formule met en évidence les énoncés suivants :-
remplacer
permet dedévelopper,
- on
remplace
les tramways par desautobus,
- le
développement
estrapide,
- la circulation « dans» la rue,
- la rue « de » la
ville,
en outre, on connaît l’articulation de ces énoncés.
Il en résulte un
éloignement
tel de la constructionsyntaxique
initiale que bon nombre d’autresphrases
designification équivalente
et utilisant les mêmes unités lexicales aboutiraient à la même formule.En
conséquence,
lesphrases
commençant par :« le fait d’avoir
remplacé
les tramways par desautobus... »,
« le fait que l’on ait
remplacé
les tramways par desautobus... »,
« que les tramways aient été
remplacés
par desautobus,
cela apermis ... » aussi,
celles continuant par :« a
permis
dedévelopper rapidement
lacirculation... »,
« a
permis
que la circulation sedéveloppe rapidement...
»,ainsi que les voies
passives
admissibles.Applications
a)
Lapremière application
de ce niveau a été lesystème
de traductionautomatique
du C.E.T.A. enmettant en oeuvre un modèle concret
d’analyse
àpartir
du niveausyntaxique
pour le russe et l’ébauche d’un modèleanalogue
pourle japonais
et enfin un modèle concret desynthèse
pour lefrançais ;
b)
On peut de toute évidence utiliser un aller-retour de modèlesd’analyse
et desynthèse
dans la mêmelangue
en vue de l’étude de laparaphrase ;
c)
Onimagine
fort bienqu’un
niveau de ce genre(soit
un peuplus évolué,
soit un peumoins)
soit lepivot (ou l’interface)
de la communication homme-machine enlangue
naturelle.Il y a là matière à de nombreuses
applications spécialisées : interrogation
defichier,
documentationautomatique,
commande enlangue naturelle, enseignement
assisté parordinateur,
etc.d) Enfin, pourquoi
pas, considérer ce niveau commeétape
intermédiaire vers des butsplus
ambitieux.En
quelques
pages on ne peutespérer
entrer dans les détails de toute l’activité concourant autraitement
automatique
deslangues.
Cette notion de niveau delangue
et celle de modèle se sont révéléescomme éléments moteurs de cette activité. Réunissant
linguistes,
mathématiciens et informaticiensautour d’un
objectif
communqui
ne relève pasuniquement
soit des propos de lalinguistique
soit de l’undes autres, le traitement
automatique
deslangues
est unexemple
éclatant d’activitépluridisciplinaire (ou interdisciplinaire)
riche en nouvelles découvertes et en nouvellesapplications.
BIBLIOGRAPHIE
[1] VAUQUOIS, B., VEILLON, G.,
"Unmétalangage
degrammaires transformationnelles", Conférence
Internationale sur le Traitement
Automatique
desLangues,
1967(1967
International Conference onComputational Linguistics), Grenoble,
23-25 août 1967.[2] VEILLON, G., "Description
dulangage pivot
dusystème
de traductionautomatique
duCETA",
T.A.
Informations, 1968,
n° 1 pp. 8-17.[3] VAUQUOIS, B., VEILLON, G., NEDOBEJKINE, N., BOURGUIGNON, C.,
"Une notation des textes hors des contraintesmorphologiques
etsyntaxiques
del’expression",
InternationalConference
onComputational Linguistics, Stockholm,
1-4septembre
1969.[4] VEILLON, G.,
Modèles etalgorithmes
pour la traductionautomatique,
Thèse deDoctorat, Grenoble,
avril 1970.