HAL Id: inria-00099698
https://hal.inria.fr/inria-00099698
Submitted on 21 Nov 2017
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Description d’un système de compréhension automatique de la parole
Salma Jamoussi, Kamel Smaïli, Jean-Paul Haton
To cite this version:
Salma Jamoussi, Kamel Smaïli, Jean-Paul Haton. Description d’un système de compréhension automa- tique de la parole. Troisièmes Ateliers en Traitement et Analyse d’Images : Méthodes et Applications - TAIMA’03, Oct 2003, Hammamet, Tunisie, France. 6 p. �inria-00099698�
Salma Jamoussi,Kamel Smali etJean-Paul Haton
LORIA/INRIA-Lorraine
615rueduJardinBotanique,BP101,F-54600Villers-les-Nany,Frane
Tel:int+33383593000,Fax:int+33383278319
fjamoussi, smaili, jphgloria.fr
Resume Laomprehensionautomatiquedelaparolepeut^etreonsidereeommeunprobleme
d'assoiation entre deuxlangages dierents.Enentree,la requ^eteexprimee enlangage natu-
rel eten sortie, juste avant l'etape d'interpretation, la m^eme requ^eteexprimee en termede
onepts.Unoneptrepresenteunsensbiendetermine.Ilestdeniparunensembledemots
partageantlesm^emesproprietessemantiques.Dansetartile,nousproposonsunemethodea
base dereseaubayesienpour l'extrationautomatiquedes oneptsainsiqu'une nouvelleap-
prohepourlarepresentationvetorielledesmots.Cetterepresentationaidelereseaubayesien
aregrouperlesmots,onstruisantainsilaliste adequatedesoneptsapartirduorpusd'ap-
prentissage.Nous onluronsetartile par ladesription d'uneetape depost-traitementau
ours de laquelle, nousetiquetons nosrequ^etesetnous generons les ommandesSQL appro-
prieesvalidantainsi,notreapprohedeomprehension.
Mots les Comprehension dela parole, onepts semantiques,reseauxbayesiens, etiquetage
semantique,ategorisationautomatique.
1 Introdution
Danslalitterature, plusieursmethodesde omprehensionde laparoleontete proposees.
Laplupartdees methodessefondentsurdesapprohesstohastiquesde deodageonep-
tuel qui permettent d'approher la omprehension automatique, reduisant ainsi le reours
a l'expertise humaine. Cependant, es methodes neessitent uneetape d'apprentissage su-
pervise,e quisignie qu'ilyauneetape anterieure d'annotationmanuelleduorpusd'ap-
prentissage [1 ,3,4 ℄. Dans de telles approhes fondees sur le deodage oneptuel, l'etape
d'annotation onsistea segmenter les donnees d'apprentissage en dessegments oneptuels
representant haun un sens bien determine [1℄. Il s'agit don de trouver tout d'abord les
dierents onepts relatifs au orpus, de segmenter ensuite les phrases de e orpus, de
lesetiqueter enutilisantles oneptstrouvesetde proeder ennal'apprentissageautoma-
tique.Fairetoutetravaild'unefaonmanuelleonstituesansdouteunephasefastidieuseet
o^uteuse.Deplus,l'extrationmanuelleestsujettealasubjetiviteetauxerreurshumaines.
Automatiser ette t^ahe permettra don de reduire ou d'annulerl'intervention humaine et
surtoutde pouvoir reutilisere m^eme proede lorsqu'onhangede ontexte.
Dansetartile,nousommenonsparderirel'arhiteturegeneraledenotresystemede
omprehensiondelaparole,basee surl'approheproposeedans[4 ℄.Ensuite,nouspresentons
une nouvelle approhe pour extraire automatiquement les onepts semantiques. Pour e
faire, nous utilisons un reseau bayesien pour la lassiation non supervisee, appele Au-
toClass. Puis, nous exposons une nouvelle methode pour la representation vetorielle des
motsan de lesregrouperpourformerdesonepts. Enn,nousabordonsladerniereetape
du proessus de omprehension, au ours de laquelle nous etiquetons les requ^etes et nous
generons les ommandesSQL assoiees.
2 La omprehension automatique de la parole
Le problemede omprehensionde laparolepeut^etrevuommeunproblemedemiseen
orrespondaneentreuneha^nedemotsenentreeetunesuitedemotsdansunlangageplus
restreintvehiulantlesideesprinipalesd'unephrase.Ils'agit,dansunpremiertemps,d'as-
soierlesmotsdelaphraseenentreedusystemeadesmessagesdansunlangagesemantique
intermediaire(souventappelesonepts).Dansunseondtemps,andesatisfairelarequ^ete
emise en entree, on traduit les onepts obtenus en ationsou reponses et on parledans e
asde l'etape d'interpretationde laphrase.
L'entree du systeme peut^etre donnee sousforme textuelle ousous forme d'un signalde
parole, sa sortie exprimee en tant qu'ations ou ommandes n'est qu'une onversion d'une
listedeoneptsdonneeparunmoduleintermediairedetradutionsemantiqueetfournissant
le sens litteral de la phrase. Un onept est une lasse de mots traitant d'un m^eme sujet
et partageant des proprietes ommunes. Par exemple, les mots h^otel, hambre, auberge et
studiopeuventtousorrespondreauonept\hebergement"dansuneappliationtouristique.
Dans [4 ℄, les auteurs denissent un modele general pour la omprehension automatique de
laparolequi,enraisondesasimpliiteet desoneÆaite,aete reprisdansplusieursautres
travaux [1 ,3℄. Nous avons adopte la m^eme arhiteture generale (voir gure 1), mais nous
représenté
CR Traducteur
TS
Convertisseur de sens
concepts appropriés
Parole ou texte ACTION
Représentation Sémantique
par les
Fig.1.Arhiteturegeneraled'unsystemedeomprehensionautomatiquedelaparole.
Dans notre travail, nous nous interessons a une appliation de onsultation de pages
\Favoris"(Bookmarksenanglais).Pourefaire,nousutilisonsunorpusduprojeteuropeen
MIAMM dont l'objetif est de onstruire uneplate-forme de dialogue oral multimodale.Le
orpus ontient 71287 requ^etes dierentes exprimees en langue franaise. Chaque requ^ete
exprime une maniere partiuliere d'interroger la base. Des exemples de es requ^etes sont
donnes dans la table 1. Ces requ^etes sont fournies au systeme de omprehension sous leur
forme textuelle. Notre but est de fournir a la n les requ^etes SQL orrespondantes qui, en
lesexeutant, repondrontaux demandesdesutilisateurs.
Tab. 1.Quelquesexemplesderequ^etesduorpusMIAMM.
Montre-moileontenudemesfavoris.
Jevoudraissavoirsitupeuxmeprendreleontenuquej'aime.
Est-equetuveuxmeseletionnerlestitresquejeprefere.
Est-ilpossiblequetumepasseslepremierdemesfavoris.
Teserait-ilpossibledem'indiquerquelquehosedepareil.
Tupeuxfairevoiruniquementdeembre2001.
Ilfautquetumepresenteslalistequej'aiutiliseet^otematin.
Jetedemandedemepasserles hansonsquej'aieouteesematin.
3 Extration automatique des onepts
Au oursdeetteetape,nousherhonsaidentierlesoneptssemantiquesliesanotre
appliation. La determination manuelle de es onepts est une t^ahe tres lourde. Il nous
fautdontrouverunemethode automatique qui,pourraitne pasdonner desresultats aussi
performantsque eux obtenus parla methode manuelle, mais qui,en ontre partie, permet
uneautomatisation omplete duproessusde omprehension.
Partant du prinipe d'automatisation de ette t^ahe de ategorisation, nous avons opte
pour des methodes de lassiation non supervisee. Notre but nal etant de trouver des
onepts oherents de l'appliation, le meilleur moyen d'y parvenir est de regrouper les
motsen fontion de leurs proprietes semantiques. La methode a utiliserva don regrouper
les mots du orpus en dierentes lasses, onstruisant ainsi les onepts de l'appliation.
Pour e faire, nous avons utilise une methode basee sur les reseaux bayesiens en raison
de leur fondement mathematique fort et le meanisme d'inferene puissant sous-jaent. Le
reseau bayesien utilise s'appelle AutoClass, il aepte en entree des valeurs reelles, mais
des probabilites d'appartenane des elements en entree, aux lasses trouvees. Il suppose
l'existene d'une variable multinomiale ahee qui peut representer les dierentes lasses
auxquelles appartiennent les elements en entree. AutoClass est base sur le theoreme de
Bayeset ilest deriten detaildans [2℄.
Unefoisl'outildelassiationhoisi,ilnousresteaherherunerepresentationadequate
des mots. En eet, un mot peut avoir plusieursarateristiques possibles, mais rares sont
elles qui peuvent luidonner une representation semantique omplete. Dans notre travail,
nousavons deide d'utiliserdeux types d'information: le ontexte desmotset lasimilarite
du mota representer ave tousles autres motsdu lexique.And'exprimerette similarite,
nous avons utilise la mesure de l'information mutuelle moyenne qui permet de trouver des
ressemblanesontextuelles entremots. Nous assoions donahaque mot un veteura M
elements,ouM estlatailledulexique.L'elementnumerojdeeveteurrepresentelavaleur
del'informationmutuellemoyenneentrelemotnumerojdulexiqueet lemotarepresenter.
Laformuledel'informationmutuellemoyenne[5 ℄entredeuxmotsw
a etw
b
estdonneepar:
I(w
a :w
b
)=P(w
a
;w
b )log
P(wajw
b )
P(w
a )P(w
b )
+P(w
a
;w
b )log
P(wajw
b )
P(w
a )P(w
b )
+
P(w
a
;w
b )log
P(wajw
b )
P(wa)P(w
b )
+P(w
a
;w
b )log
P(wajw
b )
P(wa)P(w
b )
(1)
Ou P(w
a
;w
b
) est la probabilite de trouver les deux mots w
a et w
b
dans la m^eme phrase,
P(w
a jw
b
)estlaprobabilitede trouverlemotw
a
sahant qu'onadejarenontrelemotw
b ,
P(w
a
) est la probabilite de trouver le mot w
a
et P(w
a
) est la probabilite de ne pas avoir
renontre lemot w
a et.
Combiner ontexteet mesure d'informationmutuelle onsistea representer haque mot
parune matrie d'information mutuelle moyenne a dimension M 3. La premiere olonne
orrespond au veteur d'information mutuelle moyenne derit preedemment, la deuxieme
olonnerepresente l'informationmutuellemoyenneentre unmot quelonqueduvoabulaire
et leontexte gauhedu motarepresenter. Idempourlatroisiemeolonnemaisonernant
leontextedroit.Lajemevaleurdeladeuxieme olonneest lamoyenneponderee desinfor-
mationsmutuelles moyennes entre le jeme mot du voabulaire et le veteur onstituant le
ontextegauhe du mot W
i
enquestion. Elleestalulee omme suit:
IMM
j (C
i
g )=
P
wg2ontextegauhedeWi I(w
j :w
g )K
wg
Nb o
(2)
Ou IMM
j (C
g
) represente l'informationmutuelle moyenne entre le mot w
j
du lexique et le
ontexte gauhe du mot W
i . I(w
j : w
g
) represente l'informationmutuelle moyenne entre le
motnumerojdulexiqueet lemotw
g
quiappartientauontextegauhedumotW
i .K
wg est
lenombre defois ou lemot w
g
est trouve ommeontexte gauhe dumot W
i
et Nb o est
lenombretotald'ourrenedumotW
i
dansleorpus.Le motW
i
seradonrepresente par
unematrieommelemontrelagure2.Cettematrieexploiteunmaximumd'informations
surle mota representer, e qui a puaiderle reseau bayesien danssat^ahe de lassiation
et nous a permisd'obtenir de bons resultats. Nous obtenonsdon une liste de 12 onepts
bien oherents ave notre appliation.Des exemples de es resultats sont donnesau niveau
1 i
I(w : w ) IMM (Cd)1 i IMM (Cd)2 i
IMM (Cd)j i
IMM (Cd)M i
IMM (Cg)1 i IMM (Cg)2 i
IMM (Cg)j i
IMM (Cg)M i
Wi=
i
i
I(w : w )2
j
I(w : w )M
I(w : w )
i
Fig.2.RepresentationmatriielledumotW
i .
Tab.2.Quelquesexemplesdeoneptsobtenusenutilisantlarepresentationmatriielle.
Conept Groupe de mots
Favoris Favoris,preferes,hoisi,appreie,adore,aime
Similarite Similaire,semblable,pareil,equivalent,ressemblant,synonyme,
prohe,identique,rapprohe
Demande Souhaite,faut,desire,desirerais,peux,pourrais,veux,voudrais,
possible,aimerais,souhaiterais
Ordre Montrer,indiquer,seletionner,trouver,donner,aÆher,presenter,
prendre,passer,herher
4
Etiquetage et post-traitement
LaderniereetapeonsisteafournirlesommandesSQLassoieesauxrequ^etestextuelles
emisesen entree. C'est au ours de ette phase que nous entamons l'etape d'interpretation
desrequ^etes. En eet, disposant de l'ensemble desonepts qui regissent notre appliation,
nouspouvonsattribuerahaquerequ^etesesoneptsappropries.Poure faire,ilnoussuÆt
d'assoiera haque mot danslaphrasesalasse semantique orrespondante.
Ensuite, nous pouvons passer a la deuxieme omposante de notre modele, le \Conver-
tisseurderepresentation", ou ils'agit de onvertir lesonepts trouves enommandesSQL
permettant d'extraire l'information requise de notre base de donnees. Pour e faire, nous
avons realise un moteur d'inferene qui a haque onept, fait orrespondre une ou plu-
sieurssous-requ^etesgeneriques. Dansunerequ^eteSQLgenerique,les oneptsinterviennent
au niveau des onditions. Ainsi,par exemple, si nous trouvons le onept \Date", nous ne
onnaissonspaslavaleurde ettedatemais, nouspouvonsindiquerdanslarequ^etegeneree
qu'il y a une ondition sur la date. Ce moteur d'inferene prend en ompte bien s^ur les
repetitions, les oublis,les demandes multiples et impliitesainsid'autres phenomenes de la
parolespontanee. Dans laphasesuivante, nousinstanionshaque onept, danslarequ^ete
generique obtenue,parsavaleurquiest deduiteenrevenant alaphraseinitiale.Ainsi,nous
obtenons unevraie ommande SQL que nous pouvons exeuter pour extraire les pages re-
herhees. Danslagure3,nousdonnonsunexempleillustrantles dierentesetapessuivies
an d'aboutira uneommande SQL nalisee. Les resultatsobtenussont enourageants, en
eet, en terme de requ^etes SQL orretes, nous obtenons un taux de 100% ave le orpus
d'apprentissageetuntauxde92:5%aveunorpusdetestontenant400phrasesdierentes.
Montre moi la liste de mes préférés que j’ai consultée avant décembre 2001 Identification des
concepts Ordre, Objet, Favoris, Date
select Objet from table_favoris where condition_date ; Génération d’une requete générique^
Génération d’une requete SQL^ select * from favoris where date < #01/12/2001# ;
Fig.3.Cha^nedetraitementappliqueeaunerequ^eteenlangagenaturel.
5 Conlusion
Dans et artile, nous sommes partis du prinipe que le probleme de la omprehension
automatiqueestunproblemed'assoiationentredeuxlangagesdierents, lelangage naturel
etlelangagedesonepts.Lesoneptssontdesentitessemantiquesregroupantunensemble
demotsquipartagent lesm^emesproprietessemantiques etqui expriment uneertaine idee.
Nousavonsproposeunenouvellemethode pourl'extrationautomatique desonepts, ainsi
qu'une approhe d'etiquetage et de generation automatique des requ^etes SQL orrespon-
dantes aux demandes des utilisateurs. Les t^ahes d'extration de onepts et d'etiquetage
sont d'habituderealiseesmanuellement.Ellesonstituent laphaselaplusdeliateet laplus
o^uteusedansleproessusdeomprehension.Lamethodeproposeedansetartileapermis
d'eviter e reours a l'expertisehumaine et nous a donne 92:5% de bonnes reponses surun
orpusdetest de 400 requ^etesexprimees enlangage naturel.
Nousenvisageonsd'etendrelemoduledepost-traitement defaonaequ'ilpuissereagir
faeadenouveauxmotslesnonprisenompteparlesonepts.Pourefaire,ilfautadap-
ter notre modele a la phase d'exploitation pour que nous puissions ajouter des mots aux
onepts. Nous souhaitons aussi integrer notre module de omprehension dans un systeme
de reonnaissane automatique de la parole an de realiser une appliation interative ex-
ploitable.
Referenes
1. C.Bousquet-VernhettesandN.Vigouroux. Contextusetoimprovethespeehunderstandingproessing.
InInternationalWorkshoponSpeehandComputer,SPECOM'01,Mosow,Otobre2001.
2. P. Cheeseman and J. Stutz. Bayesian lassiation (autolass) : Theory and results. In Advanes in
KnowledgeDisovery andDataMining.U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,R.Uthurusamy,
1996.
3. H.MaynardandF.Lefevre. Apprentissaged'unmodulestohastique deomprehensiondelaparole. In
24emesJournees d'
Etudesurlaparole,Nany,Juin2002.
4. R.Pieraini,E.Levin,andE.Vidal. Learninghowtounderstandlanguage.InProeedings4rdEuropean
ConfereneonSpeeh CommuniationandTehnology,Berlin,1993.
5. R.Rosenfeld.AdaptiveStatistialLanguageModeling:AMaximumEntropyApproah.PhDthesis,Shool
ofComputerSieneCarnegieMellonUniversity,Pittsburgh,PA15213,Avril1994.