D ENIS M AUREL
Description par automate des dates et des adverbes apparentés
Mathématiques et sciences humaines, tome 109 (1990), p. 5-16
<http://www.numdam.org/item?id=MSH_1990__109__5_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1990, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DESCRIPTION PAR AUTOMATE
DES DATES ET DES ADVERBES
APPARENTÉS
Denis
MAUREL1
RÉSUMÉ -
Cet article présente une utilisation de la théorie des automates finis pour la reconnaissanceautomatique des dates (et des adverbes apparentés à une date) dans un texte. Une introduction porte sur la nécessité d’une étude syntaxique précise du lexique et sur l’utilisation des automates en informatique linguistique. Puis,
l’article propose la construction d’automates pour les dates, les heures et certains compléments circonstanciels de temps, avant de discuter sur les tables de transitions et
la forme
des bases de donnéescorrespondantes. Enfin,
uneconclusion
précise quelques
applications de cette étude.ABSTRACT -
Describing
by Automata Dates and Adverbs Related to a DateThis article presents a use of finite automata theory for automatic recognizing
of French
dates (and adverbs relatedto a date) in a text. The introduction deals with the necessity of a precise syntactic
study of vocabulary
and with using automata in linguistic information processing. Then the article describes automata construction for dates,hours and some time adverbial complements before arguing about tables of transitions and about forms of corresponding data bases.
Lastly,
a conclusion precisespractical applications
of thisstudy.
1.
INFORMATIQUE
ETLINGUISTIQUE
Le
développement
actuel del’informatique
dans tous les domaines et son ouverture à unpublic
de
plus
enplus large impose
une amélioration sensible de la coinmunication homme-machine. Or lelangage
leplus adapté
à lacommunication,
à la fois par sa richesse et par le nombre de sesutilisateurs,
est bien sûr lalangue
naturelle. C’estpourquoi
lesperspectives
commerciales des industries de lalangue
sont souvent citées comme legrand
marché de cette fin de siècle[1].
Laplupart
dessystèmes
commercialisés de communication homme-machine(par exemple
lessystèmes d’interrogation
de bases de données ou les correcteursorthographiques)
reposent sur l’utilisation de mots-clefsappartenant
à un vocabulairefigé,
sans considération de leur environnementsyntaxique.
Il s’ensuit parconséquent
uneperte
d’informations et une arrivée deréponses
necorrespondant
pas au souhait de l’utilisateur. La nécessité d’une étudesyntaxique précise
dechaque
entrée dulexique apparaît
donc comme une conditionimpérative
de la réussited’une telle amélioration
(voir
parexemple
J.L.Jayez [2],
L. Danlos[3]
et ladescription systématique
des constructionssyntaxiques
dufrançais
par M. Gross[4] [5] [6] ).
1 Travail réalisé dans le cadre du Laboratoire
d’Automatique
Documentaire etLinguistique
(Université Paris 7)et du Centre d’études et de recherches en
Informatique linguistique.
Il
s’agit
doncd’utiliser,
dans uneanalyse automatique
de texte, des informations sur lastructure
syntaxique
d’unephrase
ou d’unepartie
dephrase.
Pourcela,
il fautdisposer
d’unebase de données
importante
en taille et assezsouple
pour permettre facilement toute sorte decorrections, ajouts
ou retraits. Deplus,
laprésentation
des données doit être facilement accessible de la part d’un non informaticien. Toutes cesqualités
se retrouvent[7]
dans la théorie des automates finis(un
automate[8]
est ungraphe
comportant des sommets,appelés états,
etdes
flèches, appelées transitions).
L’idée d’utiliser des automates dans le domainelinguistique
aété avancée par C.F. Hockett
[9]
ainsi que par N.Chomsky
et G.A. Miller[10] qui
en ont aussisouligné
les insuffisances dèsqu’il
est nécessaire d’introduire l’idée de récursivité dans lagrammaire,
c’est-à-dire finalement dès que le domaine considéréprend
del’importance.
Commenotre étude restera
limitée,
nous ne retiendrons des automates que leursqualités.
Unexemple - parmi
d’autres - d’utilisation des automates enlinguistique informatique appliquée
auFrançais
est donné par par J. Courtin
[ 11] [ 12].
Cet article
présente
la construction d’un automate fini dans le but d’obtenir unepremière approche
de la structuretemporelle
d’un texte. Celle-ci est véhiculéeprincipalement
par le temps des verbes et par des adverbes ou descompléments
de temps. Laissant de côtél’analyse
desverbes,
l’étudequi
suit abordera enpremière partie
la construction d’automates pour les dates proprementdites,
les horaires et les adverbes de temps. Puis seront abordés lescompléments
circonstanciels de temps. Dans une deuxième
partie,
il sera traité des tables de transitionsqui complètent
au niveau lexical ladescription syntaxique
par automate.Enfin,
la conclusion proposera une réflexion sur l’insertion d’automates(tels
que l’automateréalisé)
dans un cadreplus
vaste.L’automate
présenté
ici a servi à la réalisation d’un programme de reconnaissanceautomatique
des adverbes de date duFrançais [13].
Enguise d’illustration,
voiciquelques exemples,
extraits dujournal
LeMonde,
où lesséquences
de motsqui
sont écrites enitalique
sont celles
qui
ont été reconnues par le programme mis aupoint :
Il a fait défection le 7 novembre
1981,.
un mois et une semaine avant laproclamation...
A deux mois environ du sixième anniversaire de la guerre
irano-irakienne,
que lui-mêmea déclenchée le 22
septembre 1980,
leprésident
Saddam Hussein aappelé
le 2 août lesdirigeants
iraniens...Les crédits à la consommation ont continué
d’augmenter rapidement...
au cours des troispremiers
mois de l’année.La Cour s’était retirée pour délibérer
jeudi
en milieu de matinée...[Elle]
avait choisi lapremière
heure du trentièmejour
duprocès.
Dimanche à 1 heure du matin...M. Hachemi Zammel prononce le verdict...
2. CONSTRUCTION DE L’AUTOMATE 2.1. Dates
Les trois automates des
figures
1 à 3 contiennent la mention dujour,
lepremier
avec l’articledéfini le ou
l’adjectif
démonstratif ce, le deuxième avec l’article indéfini un et le troisième sansarticle,
niadjectif
démonstratif[14].
Figure
1Figure
2Figure
3Bien
sûr,
lesexemples
utilisés sur cesfigures
pourétiqueter
les différentes transitionsreprésentent
en fait des classessémantiques (ou, plus loin, syntaxiques) : l’étiquette
lundi> estéquivalente
auxétiquettes
de la classeIdimanche, lundi, mardi, mercredi, jeudi, vendredi, samedi 1.
Demême, l’étiquette
2 9>remplace
lesétiquettes
de la classe{ 1 er,1, 2..., 31 } , l’étiquette février>,
celles de la classeljanvier, février,
mars,avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre, 7bre, 8bre, 9bre, IObre } ~ l’étiquette 2>,
celles de la classe{1, 2..., 12},
et lesétiquettes
1988> et88>, respectivement
celles des classes{ 1 D0, 101..., 1988, 1989... }
et{ 1, 2..., 98, 991.
Biensûr,
il faut tenircompte
du fait quetous ces nombres
peuvent
aussi être écrits en toutes lettres ou en chiffres romains.L’automate suivant
(figure 4)
ne concerneplus
que les mois et les années avec les mêmes conventionsd’étiquetage.
Figure
4Une étude
linguistique plus poussée
des formesprises
par une date montreraitqu’il
estsouvent
possible d’insérer,
dans ces quatre automates, soit unmodifieur «Modif»,
soit uneapposition.
La classe desmodifieurs comprend
desadjectifs (par exemple prochain),
deslocutions adverbiales
(par exemple à venir)
et desparticipes passés (par exemple écoulé).
Laséquence suivante,
où lesigne
+désigne
ladisjonction exclusive, présente
une date suivie d’un tel modifieur :le lundi
29 février (prochain
+ àvenir)
.La classe des
appositions comprend
pour sa partuniquement
des noms de temps{lVtps>),
comme par
exemple
matin dans laséquence :
le lundi matin
29 février
L’ensemble de ces considérations
permettent
la construction de l’automate de lafigure
5 àpartir
des quatre automatesprécédents.
1
Figure
52.2. Heures
La
description
de l’heure est donnée par un sixième automate(figure 6). L’étiquette
8> estéquivalente
auxétiquettes
de la classe{O, 1, 2, 3...,24 }
et lesétiquettes
5> et7>,
à la classe{ 0,1, 2, 3...,59 } .
De mêmel’étiquette
midi>correspond
à la classe{ midi, minuitl
etles
étiquettes heures>,
minutes> et secondes> sontrespectivement équivalentes
auxétiquettes
des classes( heure, heures, h }, { minute, minutes, mn }
et(seconde, secondes, s } .
Figure
6Ces six
premiers
automatesprésentent
ungrand
nombre depossibilités combinatoires, qui
illustrent bien la diversité des formes
qu’il
faut reconnaîtrelorsqu’on
cherche à couvrir l’ensemble dulangage
naturel. Parexemple,
il estremarquable
que lalangue française dispose
de
plusieurs expressions
synonymes(toutes
attestées par lalittérature)
pourdésigner
le quart d’une heure :A sept heures moins
(le
+un)
quart Il était midi(un
+ et un +et)
quart2.3. Adverbes de temps
apparentés
à une dateL’automate de la
figure
7 reconnaît les adverbes detemps
en lien avec une date(Advtps>) qu’il
estpossible
de classerschématiquement
en deux groupes : les adverbesqui impliquent
l’idée d’une
répétition (par exemple quotidiennement)
et ceuxqui désignent
une date(par exemple aujourd’hui).
Lespremiers apparaissent toujours seuls,
alors que les seconds peuvent êtreprécédés
d’unepréposition (Prép>)
et suivis d’uneapposition
par un nom de temps,comme par
exemple
dans laséquence :
’
dès demain matin
Figure
72.4.
Compléments
circonstanciels de tempsLa
simple
lecture d’un article dejournal
prouve que la reconnaissance des dates et des adverbes detemps précédents
est encore totalement insuffisante à lacompréhension
de la structuretemporelle
d’un texte. En effet d’autresexpressions,
lescompléments
circonstanciels de temps, font référence à unedate, parfois
avec une aussigrande précision, parfois
de manièreplus
floue.La date de coréférence
peut
d’ailleurs être une date du texte, mais aussi la date deparution
dujournal
ou durapport,
ou la date d’élocution dans le cadre dulangage parlé.
Bien
sûr,
la construction de cescompléments
circonstanciels de temps ne peut être réalisée endehors de
l’analyse
dephrases complètes,
car les formes autorisées varient suivant le contexte.Plus
précisément,
c’est le verbequi
en détermine le sens et la forme. Une étudesystématique
detous ces
compléments
a donc été réalisée àpartir
d’un verbe choisi comme classifieur des dateset des adverbes
apparentés :
le verbe avoir lieu. L’utilisation de ce verbe tientprincipalement
àce
qu’il
admet différentstypes
decompléments (dates
proprementdites, répétitions
oudurées) :
La réunion a lieu lundi
La réunion a lieu tous les lundis
La réunion a lieu toute
la journée
de lundiLes
compléments
circonstanciels sont des groupes nominaux engénéral prépositionnels.
L’automate de la
figure
8 reconnaît lesplus simples
d’entre euxqui
sont constitués de la combinaison d’unepréposition,
d’un article ou d’unadjectif démonstratif,
d’unadjectif
numéralcardinal
«Dnum»
et d’un nom de temps. Ils’agit
parexemple
deséquences
comme :dans les trois
jours
à
partir
de ce week-enddurant la semaine par mois
pendant
des annéesdeux’décennies
’
Figure
8Bien
sûr,
dans cet automate, lesétiquettes le>,
ce> et un>désignent respectivement
les classes
{ le, la, 1’l, { ce,
cet,cette }
et{ un, unel.
Comme pour lesdates,
il estpossible
d’insérer dans ces groupes nominaux des modifieurs ou des
appositions,
comme parexemple :
dans les trois derniers
jours
à
partir
du lendemain matin L’automate de lafigure
9 traduit ces différentespossibilités.
3. AUTOMATE FINAL
Pour être
plus complet,
il faudraitajouter
queles dates,
lesheures,
les adverbes de temps et lescompléments
circonstanciels de temps comportent souvent un déterminant(Dét».
La classedes déterminants contient des adverbes
(par exemple exactement),
desadjectifs (par exemple certain)
et aussi des groupes nominaux(par exemple la fin de) [6].
Parexemple :
après
exactement troisjours
durant certaines semaines
vers
la f in
de l’annéevers le début du lundi 29
février
1988Figure
9Il faudrait donc
compléter
les automates desfigures 5,
6 et 9 par l’éventuel parcours de l’automate de lafigure
10 :Figure
10C’est le rassemblement de ces quatre automates en un seul
qui
fournira l’automatefinal,
utilisé pour reconnaître les
exemples
duparagraphe
1. Cette reconnaissanceexige parfois plusieurs
passages successifs(en particulier
pour lesconjonctions
de coordination et lescompléments
denom).
Cet automate final seprésente
donc sous la formesuggérée
par lafigure
1 l.
Figure
114. TABLES DE TRANSITIONS
Pour
permettre
à la fois la maintenance etl’adaptation
à telle ou telleapplication,
les automatesqui
viennent d’êtreprésentés
l’ont été sous une formesimple, compréhensible
à la fois deslinguistes
et des informaticiens. Pourcela,
lesétiquettes désignant
les transitions sont réduites àun minimum de
symboles :
des classessémantiques (par exemple : Ntps»
ousyntaxiques (par exemple : Prép>).
Mais il est évident que l’utilisation de ces classes nepeut garantir
l’existence des transitions
correspondantes
pourchaque
terme de la classe concernée.Par
exemple,
les deuxséquences :
en semaine et * en moiscorrespondent
au cheminconstitué des transitions
étiquetées Prép>
etNtps>
de l’automate de lafigure 8,
mais lapremière
est correcte alors que la seconde ne l’est pas(ce qui
estsymbolisé,
dans lesexemples
cités,
par uneétoile).
Etant donné la richesse et la diversité de lalangue naturelle,
il estprobable
que si on voulait constituer des classes véritablement
homogènes
pour toutes lespropriétés lexicales, syntaxiques
ousémantiques rencontrées,
on arriverait au terme de l’étude avec des classes comprenant... un ou deux éléments !A titre de
comparaison,
un travail degrande
envergure a été réalisé au Laboratoired’Automatique
Documentaire etLinguistique (L.A.D.L.)
sur les verbes duFrançais :
cent dixpropriétés syntaxiques
de trois mille verbes ont été étudiées de manière exhaustive. En prenantcomme
principe
de constitution d’une classe de verbesl’égalité complète
des ditespropriétés,
ilen est ressorti deux mille classes différentes !
[5].
Bien
sûr,
il seraitpossible (théoriquement) d’étiqueter
les transitions non pas par des classes de mots, mais par les mots eux-mêmes. Ainsi la transitionétiquetée
en arriverait sur un état d’oùpartirait
une transitionétiquetée semaine,
mais pas de transitionétiquetée
mois. Il est ànoter
cependant
que lareprésentation
d’un travail aussicomplexe
que lacomparaison
terme àterme de
chaque
mot par un automatecompliquerait
certainement tant la mise aupoint
que la maintenance d’un telsystème,
sansparler
de lasimple présentation
des résultats ! C’estpourquoi
il a paruplus judicieux
de constituer un automate àpartir
de certaines classessémantiques
ousyntaxiques
et de réserver pour un deuxième temps la vérification terme à termede la validité de la reconnaissance par l’automate. Celle-ci
opère
àpartir
d’une base de donnéequi
contient les informations nécessaires sous la forme de tables de transitions. Ces tables sontdes matrices binaires indicées par tous les éléments des classes concernées. Un
signe
+ àl’intersection d’une
ligne
et d’une colonnecorrespondra
à l’existence des transitionscorrespondantes,
unsigne -
au contraire. Parexemple,
une fois reconnu par l’automate le cheminPrép> Ntps>,
lesséquences
en(semaine
+*mois)
entraînent la consultation de la table dont voici un extrait :C’est le
signe
+ à l’intersection de lapremière
colonne(semaine)
et de la deuxièmeligne (en) qui
autorise lapremière séquence
et c’est lesigne -
à côtéqui
refuse la deuxième. Dans cetextrait de table sont aussi
répertoriés l’acceptation
desséquences :
en été + par
(semaine
+ mois + été +siècle)
et le refus des
séquences :
* dans
(semaine
+ mois + été +siècle)
+ en sièclePour des
séquences plus complexes, plusieurs
tables sont consultées successivement. Parexemple
laséquence :
vers
la fin
du dernier mois de l’année 1988correspond
à une double lecture de l’automate(avec décomposition
de du en dele) :
et va
exiger
la consultation de quatre tables pour vérifier lacompatibilité
de :C’est seulement alors que cette
séquence
sera véritablement reconnue.Bien
sûr,
la constitution de cettebase
de donnéesreprésente
un tel travaillinguistique qu’il
est
possible
des’interroger
sur sa nécessité.Cependant
celle-cipossède
un autre débouché où elle se révèle sans contesteindispensable :
ils’agit
de lagénération
de texte enlangue
naturelle.En
effet,
s’il peutparaître (en première approximation) négligeable
desavoir,
dans lareconnaissance de texte que en ne peut être suivi immédiatement de
mois,
cette connaissance devient absolumentindispensable
engénération
de texte, souspeine
d’aboutir à un charabiaincompréhensible.
La recherche eninformatique linguistique
s’oriente donc vers la constitution de telles bases dedonnées,
accessible à la fois pourreconnaître, interpréter,
traduire ougénérer
un texte, car toutes ces
questions
sont bienplus
liéesqu’il
ne le semblaient deprime
abord[ 15].
Peut-être est-il intéressant d’un
point
de vueépistémologique
de citer ici leprincipe
dedépart
de M. Gross
(et
duL.A.D.L.). Ayant remarqué
que : "toute constructionthéorique
atoujours
étéprécédée
par unlong
travail d’accumulationsystématique
de données" et que "les chercheurs sesont
toujours
efforcés de combler les trousqui‘pouvaient
seprésenter
dans leurs données avantd’avancer une
règle générale",
M. Gross souhaite l’élaboration derègles linguistiques
nonplus
àpartir
d’observationsisolées,
comme c’est le casactuellement,
mais àpartir
de cetteaccumulation de
données,
afin de déboucher sur une véritable science de la syntaxe.5.
CONCLUSION
L’automate réalisé
présente
defaçon
claire et concise ungrand
nombre depossibilités
combinatoires. Le dictionnaire comporte à ce
jour cinq
centquatre-vingts entrées,
l’automate estcomposé
de deux centsoixante-quatorze
transitions serapportant
àquatre-vingt-trois
tables. Deplus, malgré
lagrande quantité
d’informationsemmagasinées,
les modifications restent desopérations simples.
Il est tout à faitpossible d’ajouter
ou de retrancher une transition àl’automate, d’augmenter
ou de réduire les classessémantiques
ousyntaxiques qui
serventd’étiquettes
ou encore de modifier une table de transition. Cettesouplesse
d’utilisation des bases de données est un desgrands
avantages de lareprésentation
d’unepartie
de lalangue
sous laforme d’automates. Cette méthode semble donc véritablement
opérationnelle
pour le traitement de lalangue
naturellequi échappe
leplus
souvent à tout recensement exhaustif.Cependant,
si les résultats sont satisfaisants dans un cadrelimité,
une telle étude nepeut
être totalementindépendante
du reste del’analyse
de laphrase. Quelques exemples
le montreraient facilement. Cela traduitsimplement l’impossibilité
de décrire l’ensemble de lalangue
sous laforme d’un automate fini
[16]. D’ailleurs,
l’automate réalisé ici s’est limité à ladescription
uncertain nombre de
compléments
circonstanciels de temps, ceux dont la syntaxe reste suffisammentsimple.
Enparticulier,
il n’a pas étéquestion
depropositions
relatives oupropositions
incises. Ce même critère est àl’origine
de l’éliminationcomplète
de cette étude despropositions
subordonnées circonstancielles de temps.La recherche en
informatique linguistique
s’est donc orientée vers la constitution delexiques-grammaires complets,
associant une étudesyntaxique précise
àchaque
entrée dulexique.
L’étude des verbes par le L.A.D.L. en est unexemple. Néanmoins,
certainesparties
dudiscours,
comme parexemple
lesdates,
constituent un domaineparticulier,
leplus
souventlimité et emprunt d’une certaine
régularité
lexicale etsyntaxique,
cequi
les rendpropices
à unedescription
formelle sous la forme d’un automate. Une telledescription présente l’avantage
deproposer à un
analyseur syntaxique
uneinterprétation probable
dès le début del’analyse,
cequi
éviterait une
dispersion
en demultiples hypothèses.
Diverses
applications
de cette étude sontpossibles.
Parexemple,
l’utilisation de cet automatedans le cadre de
l’interrogation
de bases de donnéespermettrait
desquestions
relatives aux datessous une forme
proche
dulangage
naturel. Autreexemple,
dans le cadre de la traductionautomatique
utilisant des modules de transfert[17],
lesséquences représentant
une datepourraient,
une fois reconnues parl’automate,
être traduitesdirectement,
sans passer par les différentesreprésentations,
cequi
ferait gagner dutemps
ausystème.
Uneimplémentation
de cetautomate dans le programme EUROTRA de traduction entre lès différentes
langues
de la C.E.E.devrait avoir lieu dans le courant de l’année 1990.
BIBLIOGRAPHIE
[1].
ABBOUA.,
MEYERT.,
LEFAUCHEURI.,
Les industries de lalangue,
lesapplications
industrielles du traitement de la
langue
par lesmachines, Paris, Daicadif,1987.
[2].
JAYEZ J.H., Compréhension automatique
dulangage naturel,
le cas du groupe nominalen français, Paris, Masson,1985.
[3].
DANLOSL.,
Générationautomatique
de textes enlangues naturelles, Paris, Masson,
1986.