B RIGITTE L E P ÉVÉDIC
D ENIS M AUREL
Un dictionnaire électronique évolutif par apprentissage
Mathématiques et sciences humaines, tome 136 (1996), p. 43-49
<http://www.numdam.org/item?id=MSH_1996__136__43_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1996, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UN DICTIONNAIRE
ÉLECTRONIQUE
ÉVOLUTIF
PAR APPRENTISSAGEBrigitte
LEPÉVÉDIC1
et DenisMAUREL2
RÉSUMÉ -
Dans le cadre dudéveloppement
d’unsystème
d’aide à la saisierapide
de textes pour des personneshandicapées
physiques, nous allons aborder, dans cet article,l’approche
lexicale.Le principe du
système
est le suivant : en fonction du début du textedéjà
saisi et despremières
lettres dumot en cours de saisie nous comptons proposer à l’usager la liste des mots les
plus
fréquents dans la ou les catégories grammaticales les plusprobables,
tout en respectant le cadre sémantique.Il s’agit donc de réaliser un dictionnaire électronique comportant des indications
morphologiques,
syntaxiques et sémantiques, ainsi qu’un systèmed’apprentissage
permettant uneadaptation
de ce dictionnaire à l’utitisateur.SUMMARY - An electric dictionary with a learning system
This paper presents the work to construct a communication-aid software in order to
speed
up the captureof data
forphysically handicapped people.
In this article, the lexical approach isdeveloped.
The principle is : in function for
beginning
texts and the first letters of words current capture, we want to suggest to users a list of morefrequently
used words in a moreprobable grammatical
category with a correct semantical context.We propose therefore to carry out an electronic
dictionary
withmorphological, syntactical
and semanticalinformations and a
learning
system which allowsadjustment
to thisdictionary for
the user.INTRODUCTION
L’objet
de ce travail est ledéveloppement
d’uneméthodologie
d’aide à la communication écrite par destechniques
deprédictions morphosyntaxiques
et d’évolutivités. Letemps
de saisie d’untexte pour des personnes
handicapées physiques
est unproblème majeur.
Eneffet,
Boissière1990
[2]
fait la remarque suivante :"supposons
que la personne ait pu trouver le matériel le mieuxadapté
à sonhandicap
luipermettant
d’écrire avec le maximum de confort. Alors lehandicapé
au mieux de sespossibilités
atteindra sa vitesse defrappe
maximumqui
resteraquand
mêmelargement
en dessous desperformances
d’une personne valide(1
à 6caractères/minute pour un
tétraplégique
contre 10 mots/minute pour un élève de 8-9 ans, 25 mots/minute pour unesecrétaire)".
1 Institut de Recherche en
Informatique
de Nantes (IRIN) - 2, rue de la Houssinière, BP 92208 44322 Nantes cedex 03. Tel: (33) 02-40-37-30-37 - Email :lepevedic@irin.univ-nantes.fr
2 LIae311 Université François-Rabelais - 64, avenue Jean-Portalis 37 200 Tours. Tel: (33) 02-47-36-14-35 - Email : maurel@univ-tours.fr
directement dans son texte.
Figure
1 : Interface dulogiciel
de saisieNous avons donc besoin d’un dictionnaire comportant des indications
morphologiques, syntaxiques
etsémantiques
ainsi que d’unsystème d’apprentissage permettant
uneadaptation
de ce dictionnaire à
chaque
utilisateur.Le caractère "évolutif" du dictionnaire
permet,
d’unepart,
l’enrichissement du dictionnaire initial(c’est
à dire l’introduction éventuelle dans le dictionnaire des mots"nouveaux" apparus lors de la saisie d’un
texte) ;
et, d’autrepart,
la modification de lafréquence
des mots au fur et à mesure des utilisations. Apartir
d’une versioninitiale,
ledictionnaire sera
progressivement adapté
àl’usager.
Il sera
également possible
de faireappel,
lors d’unesaisie,
à des dictionnairesspécifiques
d’un domaine
(histoire, géographie, sciences, etc...).
La
première partie
traitera desproblèmes linguistiques
rencontrés lors de la constitution dece
dictionnaire ;
une deuxièmepartie
des solutionsinformatiques.
Enfin une conclusiondéfinira la suite à donner à ce
projet.
1.
ÉTUDE LINGUISTIQUE
l. l. La notion de
fréquence
La
fréquence
est leparamètre
leplus important
du dictionnaire. Ellepermet
de sélectionnerparmi
l’ensemble du vocabulaire de l’utilisateur les trois mots et trois lettres à lui proposer. Deplus,
cette information vapermettre d’adapter
le dictionnaire àchaque utilisateur,
afin dedistinguer
son vocabulaire courant de son vocabulaire occasionnel. Il sera ainsipossible
de luiproposer en
priorité
les motsappartenant
à son vocabulaire usuel. Lepremier
dictionnaire quenous avons constitué est issu
principalement
des études de N. Catach 1984[2]
et A. Juilland1970
[5].
Déterminons tout d’abord ce que l’on entend par le terme de
"fréquence".
1.2. La méthode de calcul
proposée
par A. JuillandLe corpus utilisé par A. Juilland est d’une très
grande
richesse. Il est constitué de 3 078 livresou articles de 513 auteurs.
Chaque
texte sélectionné est affecté à l’une descinq catégories
suivantes :
Roman, Théâtre, Essais, Presse,
Textesscientifiques
ettechniques (cf. figure 2).
Figure
2 :Composition
du corpus de A. JuillandA. Juilland va ensuite établir entre ces
cinq catégories
un indiced’apparition, appelé
indice de"dispersion" (D).
Cet indice dedispersion
n’intervient que pour les mots sous leurs formeslemmatisées,
il seracompris
entre 0 et 1.Il se calcule de la manière suivante :
où : o
-
Xi
est le nombred’apparitions
du lemme dans lacatégorie i,
-
F,
la sommedes Xi
d’un lemme c’est à dire le nombre totald’apparitions
dulemme,
-
N,
le nombre decatégories (dans
Juilland N=5).
Un coefficient
d’usage
est calculé pourchaque
mot lemmatisé : CU =(F*D)
/ 100.Ce coefficient
d’usage
repose sur une mise enrapport
du nombre d’occurrences(F)
d’un motlemmatisé et de son indice de
dispersion (D).
L’indice dedispersion
est donc deplus
enplus
efficace au fur et à mesure que le nombre
d’apparitions
d’un mot diminue : il est donc peupertinent
pour les mots très utilisés.Le nombre d’occurrences d’un mot lemmatisé
(F)
estégal
au total de toutes lesoccurrences de toutes ses formes fléchies. Ceci
implique
que le coefficient dedispersion
nepeut
être calculé que pour les lemmes.Chaque
flexion d’un mot se réfère donc au lemme dont il découle.Un numéro d’identification du coefficient
d’usage (NCU)
par ordre décroissant est associé au CU car deux lemmes peuvent avoir le même CU.Pour
résumer,
le mot leplus fréquent
est celuiqui
à leplus grand coeficient d’usage (ou
leplus petit NCU)
et le nombre d’occurrences leplus
élevé. Lafréquence
intervient au niveau lexical(chaque
mot est relié au lemme dont ildépend)
mais il existe unerépartition
morphologique (chaque flexion possède
un nombre d’occurrencespropre).
Les locutions sont
également
introduits car ils ont unefréquence
propre. Parexemple
lesfréquences
des mots"temps",
"de" et "en" seront différentes de lafréquence
du motcomposé
"de
temps
entemps".
Nous avons
séparé
notre dictionnaire en deuxparties :
unepartie chargée
en mémoire etune autre stockée sur
disque.
Le dictionnaireplacé
en mémoire sera constitué de l’ensemble des 4000 mots sélectionnés par N. Catach.Quant
au dictionnaireplacé
surdisque,
il contiendral’ensemble des formes
répertoriées
dans le dictionnaire de A. Juilland dont les formules de calcul sur lafréquence
ont étéreprises
etadaptées.
Le dictionnaire
chargé
en mémoire est d’une taillemodeste,
mais l’ensemble lexicalqui
y estprésenté
permet de couvrir90,51 %
des occurrences d’un texte courant. Unajout
massifsupplémentaire n’augmenterait
cepourcentage
que d’unefaçon
dérisoire sansjamais
atteindre100%.
Une entrée du dictionnaire contient le mot sous sa forme
fléchie,
le numérod’identification du coefficient
d’usage (NCU)
et le nombre d’occurrences du mot. Parexemple,
le mot le
plus fréquent,
"le" aura pour NCU 1 et pour nombre d’occurrence8609;
et deux mots ayant le même NCU(issus
donc d’un mêmelemme)
parexemple
"un" et"une",
vont différerpar leur nombre d’occurrences
(cf. figure 3).
Figure
3 :Cinq
entrées du dictionnaire1.4. L’évolution de la
fréquence
Comme nous l’avons vu, la
"fréquence"
d’un motdépend
de deuxparamètres,
le nombred’occurrences du mot et le coefficient
d’usage.
Sa mise à
jour
se passe en deuxtemps.
Eneffet,
les deuxparamètres
nepeuvent
évoluer simultanémentpuisqu’ils
ne font pas référence aux mêmes notions.- Le
premier paramètre dépendant
du nombre d’occurrences du mot, ilsuffit,
pour le faireévoluer,
de l’incrémenter àchaque
fois que le mot est utilisé.- Le second
paramètre
concerne l’ensemble des formes fléchies du mot lemmatisé. Il faut pourchaque
lemme recalculer un coefficientd’usage
en utilisant la méthode de A. Juilland. Pour que l’évolution de ceparamètre
soitsignificative,
il faut attendre d’avoir saisi un nombrereprésentatif
de mots. Une mise àjour régulière
est doncprévue.
2.
ÉTUDE INFORMATIQUE
2.1 La
représentation
du dictionnaire en mémoireLa
plupart
des travaux utilisant un dictionnaire(par exemple
B. Courtois et M. Silberztein 1990[4]),
sont astreints à une concentration maximal des informations(cf.
D. Revuz 1991[ 11 ]
et M. Mohri 1994[ 10] ).
Pour notreapplication,
seul l’ensemble du vocabulaire courant de l’utilisateur(environ
4 500mots)
estchargé
en mémoire. Deplus
larapidité
de la recherche des informations pour la création de la liste despropositions
repose surl’organisation
dudictionnaire en mémoire et sur son accès.
Nous avons
opté
pour unereprésentation
sous la forme de 26 listes de mots chaînées dans l’ordrealphabétique ; chaque
liste est, ellemême, composée
de sous-listes chaînées parcatégorie grammaticale ;
une table(cf.
A. Aho et al 1993[1]) repère
lepremier
mot de chacunedes sous-listes. Cette structure
permet d’introduire, également,
unchaînage grammatical qui
trouvera son utilité lors de l’intervention du critère
syntaxique
dans la recherche(cf. figure 4).
Figure
4 : Structure du dictionnaire en mémoireLégende :
-
Ad-x-y
: adresse dupremier
mot commençant par la lettre y de lacatégorie grammaticale
x- Adresse 0 : adresse du mot en mémoire
- Adresse 1 : adresse
(s’il
elleexiste)
duprochain
mot commençant par la même lettre- Adresse 2 : adresse
(s’il
elleexiste)
duprochain
mot ayant la mêmecatégorie grammaticale.
2.2. La recherche d’un mot
Le critère de recherche d’un mot est actuellement lexical : en fonction des
premières
lettres dumot, le
logiciel
doit proposer à l’utilisateur les mots et les lettres lesplus fréquents correspondant
au début de la saisie.A
partir
de lapremière
lettresaisie,
on recherche dans la table d’adresses la sous-liste àexplorer (26
sous-listespossibles).
Une fois cette sous-listedétectée,
nous allons au fur et àmesure de la saisie du mot la restreindre.
Par
exemple :
Si nous saisissons la lettre
"m",
nous allons travailler sur la l4ème sous-liste. Puis si la saisie sepoursuit
par la lettre"e",
nous allons enlever de la 14èmesous-liste,
tous les motsprécédent
"me" ainsi que l’ensemble des mots suivant "me". Cette restriction est
simple
àréaliser,
il suffitd’utiliser deux
pointeurs
de délimitation. Cet intervalle diminue àchaque
saisie d’une nouvellelettre,
cequi
accélère d’autantplus
letemps
deréponse
dulogiciel (cf. figure 5).
Figure
5 : Recherche d’un mot en mémoireCONCLUSION
Comme nous l’avons
montré,
il estpossible
de proposerrapidement
une liste de motsprobables
lors de la saisie despremières
lettres. A condition de baser cesystème
sur des étudeslinguistique
etinformatique approfondies.
Deplus,
laprise
encompte
de l’évolution de lafréquence
dechaque
motpermet
d’obtenir un dictionnaireélectronique
évolutif et doncadapté
àchaque
utilisateur.Cependant,
pour mener à bien ceprojet,
certainspoints
restent à travailler. La création etla
gestion
d’un dictionnaire évolutifcomportant
desfréquences d’apparitions
ne sont pas suffisantes pour déterminer le motqu’un
utilisateur veut saisir. Eneffet,
laproposition
d’unmot ne
dépend
pasuniquement
de safréquence.
Elledépend, également,
du contexte.L’introduction de la syntaxe et la
sémantique
sembleindispensable
pour un fonctionnement correct.- L’introduction de la syntaxe va
permettre
de déterminer la(ou les) catégorie(s) grammaticale(s)
la(ou les) plus probable(s)
suivant le contextegauche (cf.
F. Debili 1982[5]). L’analyseur
ainsi construit va aider à la construction correcte d’unephrase.
actuellementcet
analyseur
est en cours de réalisation(cf.
B. LePévédic,
D. Maurel[8]
et[9]).
- L’introduction de la
sémantique,
avec la constitution d’un réseausémantique (thésaurus)
vapermettre
de sélectionner les mots àprésenter
dans un cadresémantique
cohérent avec lecontexte
qui précède.
On pourra parexemple
consulter à cesujet
J. C.Lejosne et
al. 1992[7].
Cette
partie
feral’objet
de travaux futurs.BIBLIOGRAPHIE
[1] AHO, A., HOPCROFT,
J.,ULLMAN, J.,
Data structure andalgorithms, Reading, Addisson-Wesley, 1983 ; Paris,
Interédition,
1987(traduction française).
[2] BOISSIÈRE, P.,
Unsystème auto-organisationnel pour faciliter
ledialogue
écrit homme-machine,
Thèsed’état,
Université de ToulouseIRIT,1990.
[3] CATACH, N.,
Les listesorthographiques
de base dufrançais (LOB), Paris,
Nathan-recherche, 1984.
[4] COURTOIS, B., SILBERZTEIN, M.,
"Dictionnaireélectronique
dufrançais’’, Langues française, n°87, Paris, Larousse, septembre 1990, 11-22.
[5] DEBILI, F., Analyse syntaxico-sémantique fondée
sur uneacquisition automatique
derelations lexicales