P HILIPPE B ERNARD
D ENIS M AUREL
Interrogation en langage naturel d’une base de données : interprétation des adverbiaux de localisation temporelle
Mathématiques et sciences humaines, tome 123 (1993), p. 45-52
<http://www.numdam.org/item?id=MSH_1993__123__45_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1993, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
INTERROGATION EN LANGAGE NATUREL D’UNE BASE DE
DONNÉES : INTERPRÉTATION
DES ADVERBIAUX DE LOCALISATION TEMPORELLEPhilippe BERNARD,
DenisMAUREL*
RÉSUMÉ 2014
Cet article présente un travaild’interprétation
des adverbiaux de localisationtemporelle
du français, en vue del’interrogation
d’une base de données. Celle-ci s’effectue par desrequêtes
enlangue
naturelle,comprenant des expressions temporelles. L’interprétation de ces adverbiaux, qui passe par la
définition d’informations
sémantiques associées aux entrées d’un dictionnaire, analyse chaque catégorie de mots :modifieurs,
adverbes, noms de temps, déterminants,prépositions,
etc., et revient à traduire les expressionstemporelles
endonnées qui serviront de points de
départ
àl’interrogation
de la base : une date de début, une datede fin,
une heurede début et une heure
de
fin.SUMMARY 2014 Natural Language Database Queries : Interpretation of Adverbials of Location in Time.
This paper presents a
study
of the application of French adverbials of location in database queries. Such querieswill be
formulated
using natural language andincluding temporal
adverbials. The interpretation of these adverbials,possible
only through reference to the semantic interpretation of the associateddictionary
entry,provides
an analysis of each word category :modifiers,
adverbs, determinants, prepositions, etc. Such an interpretation amounts to a translation of thetemporal
expressions into data which can be used to query the database : start date , end date, start time, and end time.1. LE TRAITEMENT
AUTOMATIQUE
DU LANGAGE NATUREL : CAS DES EXPRESSIONSTEMPORELLES1
Longtemps
limitée au calcul et à lagestion
desentreprises, l’informatique
se tourneaujourd’hui
de
plus
enplus
vers desapplications
destinées augrand public,
lespossibilités
matérielles etlogicielles
aidant. Ainsi lelangage naturel, qui
est le propre del’homme, apparaît
comme lemeilleur moyen de
dialoguer
avec une machine. L’idée de fairecommuniquer
hommes etordinateurs n’est pas nouvelle et remonte même aux débuts de
l’informatique,
avec autantd’espoirs
que de désillusions. Nous ne tracerons pas ici l’histoire du traitementautomatique
dulangage naturel,
la littérature sur cesujet
étant abondante. Citonssimplement
unesynthèse
intéressante réalisée par Coulon et
Kayser
1986[5] présentant
lesapplications
du traitementautomatique
dulangage
naturel et les différents modèles de lalangue.
Si
l’imperfection
du traitementautomatique
dulangage
naturel estsoulignée
dans desdomaines tels que la
traduction, l’indexation,
la correction de textes où il estplutôt question
pour l’instant d’assistance au travail humain que d’automatisation
complète (cf.
parexemple
* Denis
Maurel, Institut de Recherche en Informatique de Nantes (IRIN) - 3 rue du Maréchal Joffre, 44041 Nantes cedex 01, France. Tél: (33) 40.30.60.52. Fax: (33) 40.30.60.53. - e-mail: denis.maurel@ iut-nantes.univ-nantes.fr.1 Les auteurs remercient Henri Labesse pour ses conseils après la lecture d’une première version de cet article.
langue française,
dans le but depouvoir interroger
une base de données contenant des horaires de trains. Ce travaild’interprétation,
réalisé à l’IRIN(Institut
de Recherche eninformatique
deNantes)
dans le cadre d’un mémoire de DEAd’informatique [1],
constitue une suitelogique
auxtravaux effectués sur la reconnaissance des adverbes de date par Denis
Maurel,
travaux dont les méthodes et résultats ont étéexposés
dans le numéro 109 de cette revue[ 10]2.
2.
INTERPRÉTATION SÉMANTIQUE
DES ADVERBIAUX DE LOCALISATION TEMPORELLE2.1.
Interprétation
L’interprétation sémantique
concernant la notion detemps
dans lelangage
naturel est unsujet
délicat
qui
a faitl’objet
de nombreuses études de lapart
deslinguistes,
des informaticiens et deslogiciens (cf.
entre autres les travaux deBestougeff et Ligozat [2],
ceux de Desclés et al.[6],
deMaire-Reppert [7]
et Oh[15],
ou encore ceux de Molines[13][14]
et Bras[3]).
Nous nereprendrons
pas ici ces études ambitieuses mais il faut savoirqu’elles
ont servi à notreprojet
dont
l’objectif
était d’attribuer desinterprétations sémantiques
à des formessyntaxiques.
Ils’agissait
en fait de donner desinterprétations sémantiques
sous forme de dates et d’heures àpartir
de la reconnaissance des adverbiaux de localisationtemporelle,
afin depouvoir interroger
une base de données.
Dans les textes en
langage naturel,
la structuretemporelle dépasse
le cadre de la date(le
3juin 92)
et de l’heure(à 8 heures).
D’autresexpressions, plus
ou moinsfloues, peuvent
faire référence à une date ou unepériode (à la fin de
lasemaine).
Si l’adverbe de date le3 juin
92 estfacilement
interprétable, grâce
à uncalendrier,
il n’en va pas de même pour l’adverbialfin
desemaine
qui
sera identifié comme unepériode ayant
des bornesreprésentées
chacune par unjour précis
du calendrier. Cetteinterprétation apparaît
pour le moinssubjective
car lesimple
concept
de semaine recouvre au moins deux senspossibles : s’agit-il
d’une semaine au sensstrict du terme, commençant le dimanche et finissant le samedi ou d’une semaine de
travail,
dulundi au vendredi? Il en est de même pour la
restrîctionfin
de semaine dontl’interprétation peut
varier d’une personne à l’autre. Pour
pouvoir
associer des dates et des heures à desexpressions
concernant des
requêtes
en vue del’interrogation
d’une base dedonnées,
il est nécessaire d’effectuer aupréalable
des choix de définition des termescomposant l’expression.
Pour vers lafin
de lasemaine,
cela revient à attribuer un certain nombre d’informationssémantiques
auxtrois termes suivants :
vers, fin,
etsemaine,
si l’on considère que les mots de et la ne sont pasporteurs
de sens.2.2.
Interprétation
Les informations
sémantiques
diffèrent selon lacatégorie grammaticale
des termes :préposition, déterminant, prédéterminant,
nom detemps, modifieur, adverbe,
etc. Demême,
la valeur de cesinformations
peut
varier d’uneapplication
à une autre. Prenons parexemple
lapréposition
avantdans
l’expression
avant Noël. C’est un traitsémantique
attaché à cettepréposition qui indique
lenombre de
jours
de lapériode qui précède
Noël.L’interprétation
de avant Noëldépendra
ZVoir
aussi [8], 191, [ 11 ] et [12].directement de ce trait
qui dépendra
lui-même del’application.
Les informationssémantiques
sont associées à
chaque
entrée d’un dictionnaire des termesapparaissant
dans des adverbiaux de localisationtemporelle ;
ellescomplètent
les informationsdéjà
existantes utilisées par le module de reconnaissance de ces adverbiaux. Le dictionnairepeut
être mis àjour
à tout moment, en casd’évolution de
l’application informatique qui
l’utilise ou en fonction d’une autreapplication.
Notre étude nous a amené à définir
quatorze
informationssémantiques :
(1)
Letype
du mot : un motpeut être,
soit non porteur de sens(comme
en dans enfin
desemaine),
soitreprésentatif
d’unepériode (mois),
ou d’une restriction depériode
ou encore d’une
période
relative(lendemain, avant), soit, enfin, représentatif
d’une durée
(jour, heure).
(2)(3)
La durée : ce sera 1 pourdemain,
7 poursemaine,
etc. On lui associe son unité heure ouminute).
(4)(5)
Le nombre dejours :
un choix a été fait pour attribuer une valeurquantifiée
àcertains mots ; par
exemple,
lemot fin correspond
à 3(en fin
de mois renverra autrois derniers
jours
du mois enquestion) ;
pourd’autres,
commepremière moitié,
c’est une formule de calculqui s’appliquera
par la suite au nom detemps qui
suit. Ilen est de même pour le nombre d’heures : pour vers il vaut 1
(vers
ll hcorrespondra
à lapériode
allant de 10h30 à1 lh30).
(6)
Laposition :
le mot troisièmecorrespond
à la valeur 3.(7)-(9)
Lesigne qui indique
si la référence sur l’axe destemps
se fait en avant(après-
demain vaut
+)
ou en arrière(avant
vaut-),
on luiajoute
son attribut : exclu(avant)
et inclu et le saut
correspondant (2
pouraprès-demain).
(10)-(12)
La borne de début et la borne de fin de lapériode
de référence : pourmatinée,
nousavons
respectivement : 5(h), 12 (h) et jour.
(13)
Le code depriorité
associé àchaque
nom detemps,
de 1(minute)
à 11(année).
(14)
Une condition booléenne pour calculer si certains mots sont ou nonporteurs
desens suivant leur contexte
(jeudi
estporteur
de sens dans l’adverbialjeudi prochain,
mais non dans
jeudi
15avril).
Il est
important
designaler
que les informations utilisées ne sont pas les mêmes pour tous les mots maisdépendent
directement de leur proprecatégorie grammaticale. Après
lecture dans le dictionnaire des motscomposant l’expression entrée,
le module de reconnaissance des adverbiaux de localisationtemporelle (cf. [10])
renvoit au moduled’interprétation
lesinformations
sémantiques
dechaque
mot avec leurcatégorie grammaticale.
Exemples
d’informationssémantiques
2.3. Adverbiaux traités
L’application distingue
troistypes
d’adverbiaux de localisationtemporelle sujets
àinterprétation :
(1)
les adverbes de date : dates et heuresdernière
puisque
nous nous intéressons à desrenseignements
detrains,
c’est-à-dire situés dans le futur.Cependant,
lagestion
des adverbes situés dans lepassé
ne pose aucunproblème puisqu’il
suffirait de lesrajouter
dans le dictionnaire avec des informationssémantiques appropriées.
Etant donné
qu’il
n’est paspossible d’envisager
toutes lesexpressions temporelles
pourune telle
application,
nous nous sommes limités dans notre étude à unlexique
d’environ deuxcents
quatre-vingts
mots, taille bien suffisante pour offrir unegrande complexité
deréponses possibles
ausystème.
Enfait,
rienn’empêche d’envisager l’élargissement
ultérieur dulexique
ou son
adaptation
à une autre base dedonnées,
dans le cadre d’une autreapplication.
Làaussi
il suffirait de
rajouter
dans le dictionnaire les motsqui
nous intéressent ou bien encore de modifier la valeur des informationssémantiques
des différents termesqui
yfigurent.
Le
lexique
utilisé est un extrait du dictionnaire de[9]
etcomporte
aussi bien des motssimples,
commedemain,
que des motscomposés,
comme à peuprès. Cependant,
pour les besoins del’interprétation,
le dictionnaire a étécomplété
par des informationssémantiques.
D’autres
types d’adverbiaux,
comme les coordinations(lundi
oumercredi)
ou lesexclusions
(cette semaine, sauf mercredi)
ne sont pas traitésactuellement,
mais le seront par la suite.3. DE LA RECONNAISSANCE
À L’INTERPRÉTATION
Dans une
première étape,
l’utilisateur saisit sarequête
enlangage naturel,
parexemple : je
souhaite
partir
lundiprochain enfin
de matinée(supposons
que cette saisie ait lieu le vendredi 1 erjanvier
1993 àmidi).
Puis s’effectue le lancement du module de reconnaissance. Dans la
réponse ci-dessus, l’expression temporelle
reconnue est lundiprochain enfin
de matinée.Le module de reconnaissance renvoit à celui
d’interprétation
la liste des mots del’expression temporelle
reconnue ainsi que, pour chacund’eux,
leurcatégorie grammaticale
etleurs informations
sémantiques, après
lecture du dictionnaire. A l’aide de cesdonnées,
leprogramme
d’interprétation
va transformerl’expression temporelle
en unepériode
en dates et enheures, soit,
pourl’expression ci-dessus,
du 04/01/93 au04/01/93,
de 10h à 12h.L’interprétation
desexpressions temporelles
reconnues s’effectue en neufphases :
3.1. Elimination des mots "non
porteurs
de sens"les
démonstratifs,
lesarticles,
certainesprépositions (à, durant, en,...),
etc. Certains autresmots
(dans, mois, prochain, ...)
peuvent êtreégalement
non porteurs de sens, dans certainscontextes
d’utilisation,
cequi
est noté dans leur informationsémantique
par une condition booléenne(voir
supra§2.2).
Le programme teste cette condition pourchaque
mot del’expression qui
contient une telle information et élimine tous ceux dont l’information "nonporteur
de sens" est vraie.ce jour
->
jour
3.2.
Regroupement
des déterminantsnumériques
avec
le(s) mot(s) associé(s)
etinterprétation
desexpressions numériques. L’interprétation peut
donner lieu à une durée(3 jours),
unepériode
enjours (mars 93),
unepériode
en heures(dans
les 3
heures),
une date(15 mai)
ou une heure(16
heures30).
à
dix-sept
heures trente et une->
dix-sept
heures trente et une(cf. 3.1)
->
((17 heures) 31)
3.3.
Regroupement
des modifieursprochain,
àvenir, premier,...
avecleur(s) mot(s) associé(s)
et calcul del’interprétation correspondante.
Exemples
deregroupements (M0==modifieur,
NT=nom detemps)
Les mots de
l’expression
sont examinés un par un àpartir
du dernier. Pourchaque
mot declasse
modifieur,
lesystème
détermine le nom detemps
aveclequel
il doit êtreinterprété.
Celane pose aucun
problème lorsqu’il n’y
aqu’un
seul nom detemps
dansl’expression (les
deuxpremiers exemples).
Par contre,lorsque
deux noms detemps figurent
dansl’expression
àinterpréter,
onrisque
uneambiguïté d’interprétation (lequel choisir?).
Celle-ci est levée entenant
compte
de la structure del’expression :
- Si la structure est NT MO NT ou NT NT MO et
4ènie exemples),
lesystème interprète
le modifieur avec le nom detemps qui possède (dans
son informationsémantique)
lecode
priorité
leplus grand,
conformément à la liste ci-dessous : 1 : minute2 : heure
3 :
aube,
aurore,crépuscule
4 :
après-midi, matin, matinée, midi, soir, soirée,
tantôt S :avant-veille, lendemain, surlendemain,
veilleb :
jour, journée
7 :
lundi, mardi,
etc, dimanche 8 : week-end9 : semaine 10 : mois 11 :
an, année
Ainsi,
dansl’exemple
lundiprochain
aumatin, prochain
estinterprété
avec lundi(priorité=7)
et non matin(priorité=4).
Ce dernier serainterprété plus
loin(en phase 6).
- Si la structure est MO NT NT
(5ème exemple),
le modifieur estinterprété
avec les deuxnoms de
temps qui
forment alors un tout :3.4.
Interprétation
des adverbes de tempsaujourd’hui, demain, après-demain
Le résultat est la
journée correspondante,
avec éventuellement une restriction sur lapériode
en heure
(comme
dansdemain,
versmidi) ;
3.5.
Interprétation
des noms de fêteNoël, Pâques,...
Le programme recherche tout d’abord la date de la fête en
question, puis
le calcul se faitnormalement à
partir
de cette date. Parexemple,
si nous supposonstoujours
être le 1 erjanvier
1993 à midi :
Trois jours
avantPâques
-> 3
jours
avantPâques (cf. 3.2)
-> 3
jours
avant Il avril 19933.6.
Interprétation
des noms detemps
mois, matinée, semaine,...
Ils’agit
icid’interpréter
les noms detemps
dans desexpressions
telles que ce
matin,
au début del’après-midi,
en milieu de semaine. Dans certains cas, les nomsde
temps peuvent
êtreinterprétés
dans desétapes antérieures,
soit en lesregroupant
avec un déterminantnumérique (dans
les troisjours,
deuxjours
avantNoël), soit,
comme on l’a vu enphase 3,
parregroupement
avec un modifieur(la
semaineprochaine,
le week-end àvenir).
3.7.
Interprétation
des déterminantsdébut, fin,
moitié...Chaque
déterminant estinterprété
avec le motqui
le suit(la fin
de lasemaine). L’expression
àinterpréter
est examinée mot par mot àpartir
de ladroite,
dans le but de traiter les cas oùplusieurs
déterminants se succèdent.3.8.
Interprétation
desprépositions
dès,
vers,...Chaque préposition
estinterprétée
avec le mot(ou
le groupe demots) qui
la suit.Trois cas se
présentent :
- avant la semaine
prochaine, après
lafin
de lamatinée,
àpartir
de 16 heures.L’interprétation
d’unepréposition
consiste en le calcul d’unepériode
finale àpartir
d’unepériode
initiale définie par les motsqui
la suivent. Ce calcul est déterminé par l’intermédiaire des informationssémantiques
de lapréposition,
notamment cellequi indique
si lapériode
finalese situe avant
( ler exemple)
ouaprès (2ème
et3éme exemples)
lapériode initiale,
et cellequi précise
l’inclusion(3éme exemple)
ou la non inclusion( 1 er
et2éme exemples)
de la borne.- trois
jours
avant NoëlLa
préposition
est alorsprécédée
d’un groupe de motsindiquant
une durée. C’est la neuvième informationsémantique,
le saut,qui permet l’interprétation
de cetteexpression : ici,
elleprend
la valeur de la
durée,
c’est-à-dire3,
etindique
que troisjours séparent
lapériode
initiale de lapériode
finale.- dans trois
jours,
d’ici troisjours
Cette
fois,
lapréposition
est suivie d’un groupe de motsindiquant
une durée.L’interprétation
de ces
expressions
s’effectue en fonction dusigne
de lapréposition.
Dans lepremier exemple,
il est
positif
etindique
alors un saut(de
troisjours)
à effectuer àpartir
de la date dujour.
Dansle
second,
il estnégatif.
Dans ce cas, lapériode correspondant
àl’interprétation
débute à la date dujour
et s’achève 3jours après.
3.9.
Interprétation
desprédéterminants
environ,
exactement,...Chaque prédéterminant
estinterprété
avec le mot suivant ou le motprécédent,
selon un ordre deprécision qui
seprésente
ainsi : heure(16 heures), période
enheures
(matin), jour (demain), période
enjours (la
semaineprochaine).
Parexemple,
dansl’expression
demain environ à 16heures,
leprédéterminant
serainterprété
avec 16 heures etnon avec demain..
4. DE
L’INTERPRÉTATION À
L’INTERROGATIONLe résultat de
l’interprétation
des différents termescomposant l’expression temporelle
consisteen
quatre
valeursqui
caractérisentl’interprétation
del’expression
reconnue : une date dedébut,
une date de
fin,
une heure de début et une heute de fin. A l’aide de cesquatre données,
le programmepeut ensuite,
dans une dernièreétape, interroger
la base de données. Celle-ci contient tous les horaires des TGV entre Paris et Nantes maispourrait
bien sûr être étendue.Si
l’expression temporelle
est, parexemple,
la semaineprochaine
en débutd’après-midi,
nous obtiendrons les
quatre
données suivantes(en supposant toujours
que nous sommes le vendredi lerjanvier
1993 àmidi) :
Résultat de
l’analyse
Le programme fournira donc la liste des TGV circulant entre Paris et Nantes du 3 au 9
janvier 1993,
de 12 heures à 14 heures :Réponses
fourniesdemain,
vers midi(cf. 3.4)
Trois
jours
avantPâques (cf. 3.5)
etc.
Ce résultat montre que la reconnaissance des adverbiaux de localisation
temporelle proposée
par[lo] permet
leurinterprétation lorsque
le contexte détermine unpoint
de référence pour le calcul(ici,
la date et l’heure del’interrogation
de labase).
BIBLIOGRAPHIE
[1] BERNARD, P., Interrogation
enlangage
naturel d’une base dedonnées, interprétation
desadverbes de temps du
français,
mémoire de DEA d’InformationScientifique
etTechnique (Université
ParisVII), Paris, 1992.
[2] BESTOUGEFF, H.,
LIGOZATG.,
Outilslogiques
pour le traitement du temps, De lalinguistique
àl’intelligence artificielle, Paris, Masson, 1989.
[3] BRAS, M.,
Calcul des structurestemporelles
dudiscours, Toulouse,
Thèse de Doctorat(Université Paul Sabatier), 1990.
[4] CARRÉ, R., DÉGREMONT, J.F., GROSS, M., PIERREL, J.M., SABAH, G., Langage
humain et
machines , Paris,
Presse duCNRS, 1991.
[5] COULON, D., KAYSER, D., "Informatique
etlangage naturel,
Présentationgénérale
desméthodes
d’interprétation
des textesécrits", Technique
et ScienceInformatiques ,
février1986,
103-124.
[6] DESCLES, J.P., JOUIS, C., OH, H.G.,
REPPERTD., Segond F., Représentations
etrecherches des valeurs
sémantiques
destemps
del’indicatif
dufrançais
pour une mise en oeuvreinformatique, CAMS,
GDR957, n°1, Paris, 1991.
[7] MAIRE-REPPERT, D.,
Les temps del’indicatif
dufrançais
en vue d’un traitementinformatique, l’imparfait, Paris,
Thèse de Doctorat(Université
ParisIV), 1991.
[8] MAUREL, D.,
"Grammaire desdates,
étudepréliminaire
à leur traitementautomatique", Linguisticae Investigationes,
vol. 12(1988), n°1, 101-128.
[9] MAUREL, D.,
Reconnaissance deséquences
de mots par automate, adverbes de date duFrançais, Paris,
Thèse de Doctorat(Université
ParisVII), 1989.
[10] MAUREL, D., "Description
par automate des dates et des adverbesapparentés", Mathématiques, Informatiques
et Scienceshumaines,
n° 109(1990), 5-16,
Paris.[11] MAUREL, D.,
"Adverbes dedate,
étudepréliminaire
à leur traitementautomatique", Linguisticae Investigationes,
vol. 14(1990), n°1,
31-63.[12] MAUREL, D., "Préanalyse
des adverbes de date dufrançais",
TAinformation,
volume 32(1991), n°2, 5-17,
Paris.[13] MOLINES, F.,
Adverbes de localisationtemporelle
à base de noms detemps,
Mémoire de maîtrise(Université
de Toulouse leMirail), Toulouse, 1988.
[14] MOLINES, F., Acceptabilité
etinterprétation
des adverbiaux de localisationtemporelle, grammaire
oudictionnaire?,
Mémoire de DEA(Université
de Toulouse leMirail), Toulouse,
1989.
[15]
OH. H.G., Représentation
des valeurssémantiques
dupassé composé français
en vued’un traitement