HAL Id: tel-00411616
https://tel.archives-ouvertes.fr/tel-00411616
Submitted on 28 Aug 2009
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Frédéric Tantini
To cite this version:
N
o
d'ordre:00000
É ole do toralede Saint-Étienne
Inféren e grammati ale en
situations bruitées
Thèsepréparée
pour obtenir legradede :
Do teur de l'Université Jean Monnet de Saint-Étienne
Mention Informatique
par Frédéri Tantini
LaboratoireHubert Curien
Fa ulté des S ien eset Te hniques
À soutenirle 09juin2009 devant lejury omposéde :
M. : Président du jury Président
MM.: Thierry Le roq Rapporteurs
Laurent Mi let
MM.: Leonor Be erra-Bona he Examinateurs
Mar Tommasi
Mar Sebban
MM.: Colin de la Higuera Dire teur
À l'heureoù j'é ris esremer iements, laréda tiondes hapitres dumanus rits est
terminée.C'estdon le ÷urlégerquejepeuxremer iertous euxquiont ontribuéde
prèsou de loinà l'é riture de ette thèse.
J'aimerais tout d'abord remer ier Colin de la Higuera, mon dire teur de thèse. Je
le remer ie d'avoir proposé e sujet et de m'avoir a epté omme do torant. Sans lui,
ma thèse ne seraitpas e qu'elle està présent. Il a su me diriger et m'en adrer quand
j'en avais besoin, tout en me laissant libre dans mes dé isions. J'ai appré ié travailler
ave lui : les dis ussions que l'on a eues ainsi que ses onseils sont à la fois rigoureux,
onstru tifsetenthousiastes.Deplus,malgrésesmoultfon tions,ilatoujourssurester
disponible.
Jetienségalementàremer iergrandementmon o-dire teurdethèseJean-Christophe
Janodet. Mer i à lui pour sa motivation sans faille, son entrain, son dynamisme ainsi
que sa bonne humeur. Bien que pas toujours d'a ord sur la forme plutt que lefond
de nos arti les(j'ai tenu bon et airéussi à ne pasmettre de blague :þ), son aide dans
montravail de re her he m'aété plusqued'une grandeutilité.
Je les remer ie tous les deux de m'avoir supporté, et e depuis lestage de master,
de m'avoir en ouragé,et de m'avoiroert un adrede travail agréable.
Je tiens ensuiteà remer ier les membres du jury, et en parti ulier les rapporteurs.
Jeremer ie don ThierryLe roqainsiqueLaurentMi letpouravoirbienvouluréaliser
la lourde tâ he de rapporter mon travail de thèse. Je tiens tout spé ialement à les
remer ier pour la qualité des remarques faites sur mon mémoire, ainsi que sur mes
travauxde re her he en général.
Je désireégalementremer ierMar Tommasi,présidentde ejury,ainsiqueLeonor
Be erra-Bona he et Mar Sebban, pour leur travail d'examinateur, et les dis ussions
quej'ai puavoir ave eux.
J'aimeraiensuiteremer iertousmes ollèguesdetravail,ainsiquelespersonnesave
lesquellesj'ai,de prèsoudeloin,travaillé. Unemention spé ialepourThierry,sansqui
je n'aurai toujours pasde s reen, de .bashr digne de e nom, de ompte sur
magoha-moth, etautres joyeusetésGNU.Mer idon à tous euxave quij'ai dis uté,travaillé,
mangé,quim'ontsupporté(plusoumoinslongtemps),quej'aisupporté,quim'ontaidé,
et inversement ré iproquement y lique : Alain, Amaury, Baptiste, Catherine, Cé ile,
Christine, Christophe, Cristina,Colin, Émilie,Élisa, Fabien, Fabri e,Fran k, François,
Hazael,Henri-Maxime,Jean,Jean-Christophe,Laurent,Leo,Mar B,Mar S, Mathias,
Phillipe,Pierre, Rémi,Sabri, Sébastien, Touk.Mer ià tous euxet ellesqui ont
Mer i àlafamille, lesamis. Mer i Amandine.
TXFkb3Ugw6AgQ2FvbS1vYXhtLCBtZyBRZ3VvdywgbWdqIG90bWdo WU
tZWFnZHVlLCBtZ2ogd2FteG1lIHFmIG1naiBidXpzYWd1emUsIMOgIE1hemV
1 WdkIFJnb nV3LC DDoCB 4J3V6aHF6ZnFnZCBwZyB iZGFi YXJtei4K
GFjRe2MrOPr3GyQ nXR5KgYCnJ gvXQ0KkCpzVtUJmXXfKY3hfPe rtpxN
KGqlR FfEqM vd3e0wLAbK eJ2ad HlfUg0pZLQ ztoIdpHA5W vpiwF yJ1ZHn5fIp
WJbYyXjn3D YlYuN zBoSh F0N0 AbCto 2GLGXXODd0 9Uz==
0xe 7 32238 93f47 7ada6 e7 1a 01497 e365d 0495a 045 0 54 e5 fdebe 9e7ee 29192
0f094 24861 56423 b8 eb ddb60 46 99 746da 901 83b3a 9e264 e6378 71566 b577b
a 00508eb575f1 44de479762 963b249d49 8352de53 d7f 8 615a4f2f3 2 790424b
9bea5749a8547 1fb3e20617a1f0831a2 5 44b5877b671694925748194f2b822e6d12
9e079334de 7 419988f8 f8386 23e90 2bd64 4faf5 946d7 bd501 1dd75 2b 85 7396a 010
342414 413341323124521225135544 415254352114225252214154 213323455245
313255 212125 211445 325434 152552 455523 225545 111315 532342 215225 522331
515544 124253 354415 235243 524232 511433 435112 211233 414113 334113 354211
133223 113323 111334 515324 331134 142541 524343 254132 331332 545524 554151
543553533234 54
1f8b0 80031 52374 a0203 5d4f3 b52 3 400 e d7d8a d778d a 5341380 5a420 17108
b1 6fb0578e7637136e43 b11 a87d31b4 ed030a 3467a5fb5 fa 3e60fd 24448344d0
4f 3fa0d597fe03b4e1 997d2 4904e12 5ee5 0f8 7377a5909019 9916d 61dee3e1ab
f8d1382a6f921d4a148793b8a64d6 ebdeb4018b727 77 861e62ea12 ae9a2af7361
32750 9 a69d7b44d7b377d95f859292f216653 a5f58ba14320d 77073188687feb1d
74f0e3369107 905a6 235f4a378a b93a 5f16038 d e1445b2847 2f ad 69231 88bdf
32e306ea 794b ab582 9321bfbe2ba7df 34010 000
Introdu tion 5
1 Dénitions 13
1.1 Motet ordre . . . 13
1.2 Langageset représentationsstandards . . . 14
1.2.1 Dénitions . . . 14
1.2.2 Grammaires . . . 15
1.2.3 Automates . . . 15
1.3 Distan esentre mots . . . 17
1.3.1 Distan ed'édition . . . 18
1.3.2 Programmationde ladistan e d'édition . . . 20
1.3.3 Extensionsde ladistan ed'édition . . . 21
2 Les adres d'apprentissage 23 2.1 Classesde langageset représentations . . . 24
2.2 Identi ation à lalimite . . . 24
2.2.1 Notationspréliminaires . . . 25
2.2.2 Identi ation à lalimite sans ontraintes depolynomialité . . . . 26
2.2.3 Contrainte de temps demise àjour . . . 26
2.2.4 Contrainte de hangement d'avis . . . 27
2.2.5 Contrainte de nombresd'erreurs impli ites . . . 28
2.2.6 Contrainte d'ensemble ara téristique . . . 30
2.3 Apprentissage a tif . . . 31
2.3.1 Lesrequêtes usuelles . . . 31
2.3.2 Lesrequêtes de orre tion . . . 34
2.4 Pa apprenabilité. . . 36
2.5 Étude du asdes afd . . . 37
2.5.1 Identi ation à lalimite . . . 38
2.5.2 Apprentissage a tif . . . 42
3 Le bruit en inféren e grammati ale 47
3.1 Typologie du bruit . . . 47
3.2 Traitement dubruit en apprentissage automatique . . . 48
3.2.1 Le bruitdansl'identi ation àlalimite . . . 49
3.2.2 Le bruiten apprentissage a tif . . . 51
3.3 Apprentissage desafd ensituations bruitées . . . 52
3.3.1 Dansle adre de l'identi ation àlalimite . . . 52
3.3.2 Dansle adre de l'apprentissage a tif . . . 56
3.4 Dis ussion . . . 57
4 Les langages à base de distan e 61 4.1 Langages topologiqueset boules de mots . . . 61
4.1.1 Dénitions de langagestopologiques . . . 62
4.1.2 Représentationsdesboules demots . . . 63
4.2 Avantages et in onvénients desboules de mots . . . 68
4.2.1 Propriétés et ontre-intuitions . . . 69
4.2.2 Utilitéet appli ations . . . 70
4.3 Quandles boules de mots nesont-elles pasapprenables? . . . 72
4.3.1 Identi ationà partir de requêtes . . . 72
4.3.2 Apprentissage Pa . . . 73
4.3.3 Cas dessituationsbruitées. . . 75
5 Identi ation à la limite des boules à partir de données bruitées 77 5.1 Te hniques d'apprentissage . . . 77
5.1.1 Te hnique de rédu tion . . . 78
5.1.2 Te hnique de débruitageà lalimite . . . 81
5.2 Identi ation à lalimite desboules . . . 86
5.2.1 Apprentissage en temps M polynomial . . . 88
5.2.2 Apprentissage en temps Ipepolynomial . . . 93
5.2.3 Apprentissage en temps Cspolynomial. . . 95
6 Apprentissage a tif des boules en situations bruitées 97 6.1 Apprentissage àpartir de q Edit . . . 97
6.1.1 Une ara térisationdes orre tions . . . 98
6.1.2 Lesmots de longueur maximum surlafrontière . . . 99
6.1.3 Trouver le entreà partir d'un mot delafrontière supérieure . . 100
6.1.4 Trouver unmot de lafrontière supérieure . . . 102
6.1.5 Un algorithmed'identi ation desboules à partir de requêtes de orre tion . . . 103
6.2 Apprentissage des boules ave un nombre logarithmique de requêtes de orre tion . . . 106
6.2.1 Lesnouvelles boules et orre tions . . . 107
6.3 Apprentissage fa eàun ora le faillible . . . 111
6.3.1 Fa e à unora le faillible . . . 112
6.3.2 Dénitionde l'ora le approximatif . . . 112
6.3.3 Comportement del'algorithme fa eàun ora le approximatif. . . 113
6.3.4 Amélioration dela pré isiongrâ e à desheuristiquesa posteriori 114
Annexe 125
Bibliographie 144
Table des gures 145
42
42: voilàlaréponseàlagrandequestionsurlavie,l'universetlereste. Toutdu
moins, voilà laréponse que donne Deep Though [Ada79 ℄, ordinateur super puissant
réépar unera e d'hyper-intelligen es pan-dimensionnelles.Deep Though estun des
nombreux ordinateurs des ien e- tion qui possèdent uneintelligen e arti ielle
supé-rieure à elledesêtres humains.Bien qued'aprèsdenombreux romans desordinateurs
aussiintelligents queHal 9000[CK68 ℄ auraient dûexister dès2001, les progrès de la
s ien e informatique font que l'homme reste supérieur à la ma hine sur de nombreux
domaines.Certes,Deep Bluea battuGarryKasparovauxé he s alorsque e dernier
était hampion du monde. Cependant, e n'est pas toujours le as. Par exemple, les
logi iels de jeu de go sont en ore loin du niveau desprofessionnels, voire des meilleurs
amateurs (le programme Crazy Stone [Cou06 ℄ peut battre des amateurs voire des
professionnels,maisuniquement ave despierres dehandi ap).Quedirealors de
trom-per unhumain ave untest deTuring :unepersonnedis uteave
X
et doitdevinerau boutd'un ertaintemps,siX
estunêtrehumainouunema hine.Si esdernièrestâ hes sont loin d'être a omplies, l'intelligen e arti ielle s'emploie à développer te hniquesetthéories pour quelesordinateurs puissent raisonner,planier, per evoir, semouvoir,
dépla er desobjets,apprendre,et .
Parmilesnombreuses atégoriesdel'intelligen earti ielle,l'apprentissage
automa-tiqueviseà permettre à unordinateur d'apprendre: apprendre à raisonner, apprendre
àparler,et .Defaçongénérale,l'ordinateuraa èsàdesdonnéesdites d'apprentissage
et enextrait une onnaissan e,desrègles, an de pouvoir être onfronté àdesdonnées
in onnues [CM08 ℄. Cette extra tion de règles permet alors de pouvoir re onnaître des
données qu'il n'a pas en ore vues. Cela lui permet de généraliser et ainsi d'éviter un
apprentissage par ÷ur. Lesappli ations sont alors multiples : de lare onnaissan e de
ara tères manus rits ou de la parole [Cas90, GSVG94 ℄, aux ltres de spams, en
pas-sant par les jeux (é he s, ba kgammon), la biologie [AM97, DEKM98 ℄, le traitement
de la langue naturelle, le projet DARPA et . Par exemple, on fournit des données à
l'apprenant, omme des ara tères manus rits ou des ourriers indésirables,et la
géné-ralisationluipermet dese onfronteràde nouvellesdonnéesetdon dere onnaître des
ara tères é ritspar unenouvelle personne, ouen ore ltrerdes messagesqu'iln'avait
jamaisreçus.
bonnesselonlatâ heàa omplir.L'uned'entreelless'appellel'inféren egrammati ale.
Comme son nom l'indique, ette te hnique permet d'inférer une grammaire,
'est-à-dire un ensemble de règles basées sur desmots, haque mot étant la on aténation de
symbolesissus d'un même alphabet. Nouspourrons par exemple avoir :
{
Chien,Le, Mange,. . .}
;{a, b, c, . . .}
;
{0, 1}
.Ainsi, àpartir d'un ensemble demots omme :
{
LeChienMange,. . .}
;{abc, abcabc, . . .}
;{00001, 0111, . . .}
.et de toute autre aide extérieure disponible, un algorithme essayera de généraliser en
proposant des grammaires permettant de générer desmots qu'il n'apasvu. Les règles
de grammairespouvant être :
{
Phrase→
SujetVerbe Complement, Arti leDeni→
le | la | les, . . .}
;{S → SS |abc}
;
{S → ZU, Z → ZZ|0, U → U U |1}
.Ces grammaires permettront alors à l'algorithme de trouver le langage asso ié à es
règles
lalanguefrançaise,
lelangage formédesmots omposésde on aténationsdu mot
abc
, lelangage dont les mots débutent par des0
, et seterminent par des1
.De toute éviden e, l'inféren e grammati ale est parti ulièrement adaptée à la
re- her he d'un langage ible. Mais elle l'est également lorsque les données sont desmots
qui n'ont pasété générés par une grammaire. Nous parlons alors d'indu tion de
gram-maires.Par lasuite, leterme inféren egrammati ale regroupera l'inféren e
grammati- ale àproprement parler ainsique l'indu tionde grammaires [dlH05a ℄.
Depuis 1957, une théorie est parti ulièrement utilisée en inféren e grammati ale :
elle deNoam Chomsky [Cho57 ℄. Cettethéorie permet de diéren ier les langagespar
leursrèglesdegrammaires,nousparlonsalorsdelahiérar hiedeChomsky.Leslangages
debasede ettehiérar hiesontappeléslangagesrationnels,ouen orelangagesréguliers.
Ils sont sensés être plus fa iles à apprendre que les langagesde plushaut niveau, plus
omplexes.
La omplexité de l'apprentissage
Revenons maintenant un instant à Deep Though et à la question qui lui a été
posée. La réponse qu'il a donnée a né essité de très longues années de al ul : plus de
septmillions.Par onséquent,lesingénieursenavaientmêmeoubliélaquestioninitiale.
Si nous pouvons omprendre que donner une réponse à la grande question sur la
vie, l'univers et le reste prenne bien plus de temps qu'ee tuer une addition, nous
di ulté de laquestion : faire une addition est plus simple que de al uler une ra ine
arrée. Ensuite la taille des données : faire une addition de
12
ave3
demande moins d'eorts qu'additionner deuxnombres possédant ha un une entaine de hires,ilestalors normal queladeuxième opération requière plusde temps quelapremière.
Lorsdel'apprentissagedelangages, lamêmequestion vaseposer:monprogramme
n'a-t-il pas mis trop longtemps pour apprendre? En ore une fois, pour y répondre, il
faudraprendre en ompte deuxfa teurs.Toutd'abord, latailledelagrammaire ible :
un langage rationnel ne possédant quedeux règles de grammaire doitêtre plus simple
àapprendre qu'unlangage enpossédantune dizaine.Demême, laquantité dedonnées
que le programme a à sa disposition va jouer un rle important : s'il ne dispose que
de peu de données, il ne devra mettre que peu temps pour formuler une hypothèse.
L'algorithme devra alors identier la ible en un temps raisonnable relativement à es
deuxparamètres, plus formellement en untemps polynomial, pour pouvoir direqu'il a
bienappris.
Ce on eptde polynomialité estalorspris en ompte dansles diérentesdénitions
d'apprentissage. En inféren e grammati ale, il existe plusieurs façons distin tes
d'ap-prendre : les données peuvent être subies ou hoisies, l'inféren e peut être exa te ou
statistique. Trois paradigmes sont alors fréquemment utilisés:
1. L'identi ation à la limite [Gol67 , Gol78℄ qui orrespond à un apprentissage dit
exa t : un algorithme identie à la limite une lasse de langages si quelque soit
lelangage, lorsque nouslui donnons assez de données, il retourne exa tement la
ible. Denombreuses variantes sont apparues pour mieux prendre en ompte les
ontraintesdumonderéel:elles omptentlenombre defoisoùl'apprenant hange
d'avis [AS83 ℄, le nombre d'erreurs qu'il fait [Pit89 ℄, ou bien bornent le temps
autorisé en fon tion de la taille de la ible [dlH97℄. Des ontraintes probabilistes
ont également étéajoutées [CO94 ℄.
2. L'apprentissage a tif [Ang87 , Ang88b ℄ qui modélise l'apprentissage de la langue
par un enfant qui interagit ave sa mère : un apprenant peut poser un ertain
nombre de question à un ora le qui onnaît le langage ible. Les variations de
e paradigme sont alors liées aux types de questions qu'il est possible de poser
[Ang01,Tir08℄,ou àlafaçon de dénir l'ora le [GM96,AKST97℄.
3. L'apprentissage Pa [Val84 ℄pourProbablementApproximativement Corre t:un
algorithmePa apprendsilaprobabilitéqu'iladefairelemoinsd'erreurpossible
esttrèsgrande.Ceparadigmesertessentiellementàprouver desrésultatsnégatifs
d'apprenabilité [PV88 , KV89℄, mais ertains travaux montrent qu'il est tout de
même possible d'apprendredans e ontexte[War89, TC04 ℄.
Une lassede langagesapprenable dansun paradigmepeut alorsne pasl'être dans
un autre. Il onvient don de hoisir onvenablement le paradigme en fon tion de la
ta he àee tuer.
Unedes lasseslaplusintensivementétudiéeestsansnuldoutela lassedeslangages
rationnels.Ces langagespeuvent être représentéspar desautomates nisdéterministes
dans esdiérentsparadigmesendestempsraisonnables,que esoitenidenti ationàla
limite [Pit89 ,DMV94,dlH97 ,LPP98℄,enapprentissagea tif[Ang90,BDGW94 ,BB06℄
ou en oreen apprentissage Pa [LV91 , Den01 ℄.
L'apprentissage à partir de données bruitées
Lesdonnéesquevontutiliserlesalgorithmesd'apprentissage ontiennentdeserreurs.
En eet, leur a quisition peut malheureusement être faussée pour plusieurs raisons :
mauvais alibraged'unesonde,défaillan edefabri ationd'un apteur,erreurdere opie,
oubli,et .Nous parlons alors dedonnées bruitées.
Supposonsparexemplequenousvoulions lassernotre olle tiondeCDdemusique
pargenre.Nousallonsutiliserunprogrammepermettantdefaire elaautomatiquement.
Aupréalable, nousdonnonsànotreprogrammequelquesCDenpré isant à haque fois
leur genre. Le programme onstruira alors desrègleslui permettant de généraliser aux
CD qu'iln'apasvu. Ainsi, ilpourra lasser automatiquement lereste desCD.
Plusieurs problèmespeuventalors seposer.Toutd'abord,lorsquenouspré isonsles
genres,nouspouvonsnoustromper :lapo hettenousindiquaitdelamusique lassique,
mais le CD n'était pas dans la bonne po hette; 'était du jazz. Ensuite, lorsque nous
donnonslegenreau programme,nouspouvonsnoustromper dansl'é rituredu genre:
nouspouvonstaperbluseaulieude bluespar exemple.Enn,dansl'é hantillon
que nous donnons au programme, nous pouvons ne pas avoir de CD de hip-hop alors
qu'il enexiste dansnotre olle tion.
Demême,sinousvoulonsextraire ertainesrèglesàpartirdeplusieurspagesHTML,
nousnous rendons très vite ompte que laplupart des sitesinternet ne respe tent pas
lanorme W3C.À haque baliseouvrante, ilfaut une balisefermante ( ommepourles
parenthèses). Cependant beau oup de développeurs omettent, volontairement ou non,
de fermerles balises. De plus, ertains utilisent des balises à des endroits où ils n'ont
pasledroitselonleur DTD(laDTD oudénitionde typededo umentpermetde
spé ier les règlesd'utilisationdesdiérentesbalises dansune page).
Cesdeuxexemplespermettentd'appréhenderle on eptdebruit:quelquesdonnées
sontlàparerreur,d'autressontomisesetenn, ertainesontétémodiées.Enpratique,
quelquessoientlesmoyensderé upérerdesdonnées, elles- isontgénéralementbruitées.
Étudier l'apprentissage à partir detelles données semble alors essentiel.
Beau oupdetravauxessaientderésoudre eproblèmedi ile[SG86 ,Sak93,SN98℄.
La plupart utilisent des statistiques pour déte ter si une donnée n'est pas erronée.
Cependant, trop peu de travaux d'inféren e grammati ale étudient l'apprentissage des
afdlorsque lesdonnéessont bruitées. Deplus, estravauxutilisentpourlaplupart un
modèledebruitstatistique,peuadaptéàleuridenti ation:lesdonnéesd'apprentissage
sont bruitéesselon une ertainedistribution puis fourniesàl'apprenant.
Identier les afd se fait alors généralement de la façon suivante : des algorithmes
lassiquesd'identi ation sont modiéspourêtrerésistantsaubruit.Ave destests
négative parexemple).Il prend alorsun ertainrisqueà haqueétape desonpro essus
d'inféren e [HBS03,SJT04 ℄.
Malheureusement,au unde estravauxn'arriveàgéreruntauxde bruitsigni atif
pour desautomates nontriviaux : à haqueétape,lamoindreerreur faussel'automate
dans son ensemble. De plus, l'introdu tion de bruit fait perdre l'apprentissage exa te
des automates : les algorithmes vont trouver un afd plus ou moins pro he de l'afd
ible,maisiln'existeau unmoyendesavoirsil'algorithmeavraimentidentiéla ible.
D'un autre té, d'autres travaux ont déni des modèles de bruit non statistique.
Cependant, les auteurs montrent que les automates ne sont pas identiables dans es
adres bruités, mais mettent en avant d'autres lasses de langages, transversaux à la
hiérar hiedeChomsky.Par exemple,StephanpuisCase,JainetSharma[Ste97 ,CJS01 ℄
montrent qu'autraversunbruitnonstatistique, ertaines lassesré ursivement
énumé-rablessont identiables.
Une lasse de langages apprenable en situations bruitées :
les boules de mots
La situation est don la suivante : d'un té, il est devenu ru ial de pouvoir
ap-prendreà partir de données bruitées; d'un autre, laplupart destravauxdésirant
iden-tier les langages rationnels, langages de base de la hiérar hie de Chomsky, é houent
dansleurtâ he.
Nous proposons don dans e travail e que pourrait être la base d'une hiérar hie
de lasses de langagesidentiables enprésen ede donnéesbruitées: les langages
topo-logiques.
Supposons que nous voulions lasser des images. S'il est sans au un doute di ile
pour un non-initié de diéren ier une pipistrelle ommune d'une pipistrelle de Kuhl,
il est fa ile de diéren ier un re tangle d'un disque, et e, même si les images sont
outées ou en mosaïque (voir Figure 1). En fait, toutes les images omprenant des
formesgéométriquessimplespeuvent aisément êtreidentiéesave n'importequeltype
demodi ationsapportéesà l'image.
Nouspensonsqu'il enestdemême pourles langages:les langageslesplussimples,
reposant surdesnotions dedistan e etdon detopologie, doivent êtrere onnaissables,
même enprésen e debruit.
Nousnousintéresseronsenparti ulieràla lassedesboulesdemots,unebouleétant
déni omme l'ensemble desmots dont la distan epar rapportau entreest inférieure
à un ertainrayon. Contrairement à l'espa e eu lidien, les boules de mots ne sont pas
des objets sphériques et parfaitement symétriques. Néanmoins, elles peuvent être
apprisesà partir de donnéesbruitées.
De plus, les boules de mots sont en fait utilisées dans plusieurs autres travaux
où elles ne sont que rarement nommées. Elles servent alors à ee tuer des re her hes
approximatives de haînes de ara tères [SK83 , Nav01℄, e qui permet également de
Fig.1 Figures géométriquesbruitées.
Reste du manus rit
Ce mémoire de thèseest omposéde six hapitres. Lepremier hapitre ontient les
dénitions et notations élémentaires que nous utiliserons dans le reste du do ument.
Nous ydénissons entre autres la distan ed'édition qui nousservira à al uler la
dis-tan e entre deux haînes de ara tères, ainsi que la lasse des langages rationnels qui
seranotre pointde omparaison pour l'apprentissage àpartir de données bruitées.
Dans le hapitre 2, nous présentons les adres d'apprentissage standards de
l'inféren e grammati ale. Nous y dénissons en parti ulier la notion de requêtes de
orre tion. Nous montrons alors omment apprendre les langages rationnels dans les
diérents paradigmes introduits.
Le hapitresuivantreprésentele ÷urdelathèse:nousyexpliquonsdansunpremier
temps e qu'apprendre à partir de données bruitées signie. Puis nous montrons que
les langages rationnels, bases de la hiérar hie de Chomsky, ne sont pas résistants au
bruit.S'ensuit alorsunedis ussionsurlané essitéde onsidérer unenouvelle lassede
langage ommepointdedépartpouruneétudedel'apprentissageensituationsbruitées.
Nousdonnonsdansle hapitre 4 ladénitiondeplusieurs lasses delangagesbasés
sur la distan e d'édition dont nous pensons que l'apprentissage à partir de données
bruitées doit être possible. Nous étudions alors plus en détails les propriétés de l'une
d'entre elles,les boulesde mots.
Danslesdeuxderniers hapitres,nousmontronsquela lassedesboulesdemotspeut
être appriseàpartir de donnéesbruitées. Tout d'abord nousexhibonsdeuxte hniques
d'identi ationàlalimiteàpartirdedonnéesbruitéessystématiquementpourlesquelles
et apprentissage est possible. Puis nous terminons en proposant un modèle d'ora le
pouvantrépondreapproximativementàdesrequêtesde orre tion.Nousmontronsalors
Enn,dansla on lusion,nousdis utonsdesdiérentsrésultatsprésentésetdonnons
Dénitions
Le but de e hapitre est d'introduire les diérentes notations et dénitions
né es-sairesàla ompréhensiondurestedumanus rit.Nousrappelonslesdénitionsusuelles
de lathéorie deslangages (parexemple les automates) puisnous nousintéressonsaux
distan es entre haînes de ara tères, et enparti ulier àla distan ed'édition.
1.1 Mot et ordre
Nousallons parler delangagesformels. Danslavie ourante, unlangage estun
ensembledephrasesquisont onstituéesdemotsordonnéssuivant ertainesrègles(an
que la phrase appartienne au langage). Dans la théorie des langages, nous parlons de
lettres et demots pour parler respe tivement de motset de phrases.
Dénition 1 (Alphabet et mot) Un alphabet
Σ
est un ensemble ni non vide desymboles appeléslettres. Noussupposerons par la suite que
|Σ| ≥ 2
, saufpré isé autre-ment. Un motu
(en ore appelé haîne ou séquen e) est une suite nieu = a
1
a
2
. . . a
n
delettres deΣ
. Le motvide (ne ontenant au une lettre) sera désigné parλ
.Exemple 1
ba, bbbbb, λ
eta
sont quatre motsdénis à partir d'un alphabet ontenant au moins deuxlettres, par exempleΣ = {a, b}
.L'ensembledetouslesmots(y omprislemotvide)pouvantêtre onstruitsàpartir
de
Σ
estnotéΣ
∗
.Soitk
unentier,Σ
k
,Σ
≤k
etΣ
>k
désignent respe tivement l'ensemble
desmots de longueur
k
, de longueur inférieure ouégale àk
et de longueur stri tement supérieureàk
.Nousnotons
|u|
lalongueurdumotu
,et|u|
a
désignelenombred'o urren es d'une lettrea
dansu
.Exemple 2 Les mots
u = abba
etv = aaaa = a
4
sont de longueur
|u| = |v| = 4
, et appartiennent tous les deux àΣ
4
,
Σ
≤10
ou en ore
Σ
>2
. Ils vérient
|u|
a
= |u|
b
= 2
,Dénition 2 (Sous-mots et fa teurs) On dit qu'un mot
u
est un sous-mot dev
, notéu v
,siu
estdéniparu = a
1
a
2
. . . a
n
ets'ilexisten+1
motsu
0
, u
1
, . . . , u
n
∈ Σ
∗
tels que
v = u
0
a
1
u
1
. . . a
n
u
n
. est un ordre partiel surΣ
∗
. De plus, s'il existe deux mots
u
1
, u
2
∈ Σ
∗
tels que
u
1
uu
2
= v
, alorsu
est unfa teur dev
.Exemple 3 Soient les mots
u = aba, v = aabaa
etw = ababbaa
.u
est alors un sous-mot dev
qui est lui-même un sous-mot dew
:u v w
. De plus,u
est un fa teur dev
et dew
, maisv
n'est pas unfa teur dew
.Nous noterons
lcs(u, v)
(longest ommon subsequen es) l'ensemble des plus longs sous-mots ommuns àu
etv
.Exemple 4 Soient les mots
u = abba
etv = baab
,alorslcs(u, v) = {aa, ab, ba, bb}
. Enn, l'ordre que nous utiliserons pour trier les mots est l'ordre hiérar hique (ouen ore length-lex) :
Dénition 3 (Ordre hiérar hique) L'ordre hiérar hique
<
est déni par :∀u, v ∈
Σ
∗
, u < v ⇐⇒ (|u| < |v|) ou (|u| = |v| et u <
lex
v)
où<
lex
est la relation d'ordre lexi ographique, 'est-à-dire l'ordre utilisé dans ledi tionnaire. Nous supposerons qu'ilexiste un ordre sur l'alphabet
Σ
: par exemple,a < b < c < . . .
Exemple 5 Soitl'alphabetΣ = {a, b}
.LesmotsdeΣ
∗
, lassésparordre roissantselon
l'ordre hiérar hique, sont
λ
,a
,b
,aa
,ab
,ba
,bb
,aaa
,aab
,aba
,abb
,. . .
1.2 Langages et représentations standards
1.2.1 Dénitions
Dénition 4 (Langage) On appelle langage toute partie
L ⊆ Σ
∗
, 'est-à-dire tout sous-ensemble, ni ou inni,deΣ
∗
.
Exemple 6 Soit
Σ
un alphabet ontenant au moins les lettresa
etb
. Les langagesΣ
≤100
et{ab, ba, aab, baa}
sont des langages nisalors queΣ
>2
et
{w ∈ Σ
∗
: |w|
b
= 0}
(l'ensemble detous les motsne ontenant pas de
b
) sontdes langages innis.Étantdonnéunensemblenidemots
X
,nousnoteronskXk
lasommedeslongueurs desmots deX
. La notation| · |
estutiliséepour la ardinalitédesensembles.Étant donnés
L
1
etL
2
deuxlangagesdénissurunalphabetΣ
, nouspouvonsalors dénir :l'union des deux langages :
L
1
∪ L
2
orrespondant à l'ensemble des mots deΣ
∗
appartenant à
L
1
ouL
2
,l'interse tiondesdeuxlangages:
L
1
∩ L
2
orrespondant àl'ensembledesmotsdela diéren e symétrique desdeux langages:
L
1
⊕ L
2
orrespondant à l'ensemble des mots deΣ
∗
appartenant soit à
L
1
, soit àL
2
(mais pas aux deux en même temps), etla on aténation desdeuxlangages:
L
1
· L
2
orrespondant àl'ensembledesmotsw = uv
deΣ
∗
dont
u
appartient àL
1
etv
appartient àL
2
.1.2.2 Grammaires
Les langagessont représentablesde plusieurs manières. L'une d'entre elles estsous
formede grammaire:
Dénition 5 (Grammaire) Une grammaire formelle est un quadruplet
hΣ, V, P, Si
oùΣ
est l'alphabet des terminaux (ou lettres),V
l'alphabet des non-terminaux,P ⊆
(V ∪ Σ)
∗
× (V ∪ Σ)
∗
unensemble de règles deprodu tion etS ∈ V
l'axiome.Au milieu des années 1950, Noam Chomsky a hiérar hisé quatre grandes lasses
de grammaire [Cho57 ℄. Ces lasses sont dénies par des ontraintes sur les règles de
produ tion :
Dénition 6 (Hiérar hie de Chomsky)
Les grammaires de type 0 n'ontau une ontrainte sur les règles deprodu tion.
Les grammaires de type 1 (ougrammairessensiblesau ontexte,enanglais
ontext-sensitive)ontdes règlesdeprodu tion quine ontiennentqu'unseulnon-terminal
enpartie gau he et une partie droite diérente de
λ
.Les grammaires de type 2 (ou grammaires hors- ontextes, grammaires algébriques,
ou en ore grammaires ontext-free) ont des règles de produ tion dont les parties
gau hes sontformées d'un unique non terminal.
Les grammaires de type 3 (ou grammaires régulières, grammaires rationnelles) ont
des règlesde produ tion formées d'unnonterminalen partiegau he etsoit d'une
unique lettre, soit d'unelettre puisd'un non terminalenpartie droite.
À haque type de grammaire orrespond une lasse de langages (à
λ
près). Claire-ment, un langage représentable par une grammairede type 3 l'est par une grammairedetype 2,et don 1et biensûr0.
Un langage est dit régulier s'il est représentable par une grammaire régulière. De
même, il est dit purement hors- ontexte s'il peut être représenté par une grammaire
hors- ontexte, maispaspar une grammairerégulière.
1.2.3 Automates
Dénition 7 (Automate ni) Un automateni est unquintuplet
A = hΣ, Q, I, F, δi
où :
Σ
est unalphabet ni,
Q
est unensemble ni d'états,
F ⊆ Q
est unensemble d'états dits états nauxou a eptants, etδ
est une fon tion detransition deQ × Σ → 2
Q
.
L'automate est dit ni ar il possède un nombre ni d'états. Ce nombre d'états sert
généralement ommetailledel'automate.Nousdénissonsdon latailled'un automate
A
omme étant|A| = |Q|
.Nous étendons la fon tion de transition à une fon tion de transition sur les mots
δ : Q × Σ
∗
→ 2
Q
. On dit quel'automate
A
a epte le motw ∈ Σ
∗
si
∃q ∈ I, δ(q, w) ∩
F 6= ∅
. Dans le as ontraire, on dit qu'il le rejette. Le langage re onnu parA
estL(A) = {w ∈ Σ
∗
|∃q ∈ I, δ(q, w) ∈ F }
Exemple 7 Soit l'automate
A = hΣ, Q, q
0
, F, δi
(voir Figure 1.1).A
re onnaît le lan-gagea
+
b
+
. La taille del'automate est de
|A| = |Q| = 3
.1 2
0
a
b
a
a
b
Fig. 1.1 Automatere onnaissant lelangage
a
+
b
+
.
Les langagesditréguliers sont re onnus par desautomates nisdéterministes.
Dénition 8 (Automate ni déterministe (afd)) Un automate ni déterministe
est un automate ni tel que :
I = {q
0
}
, 'est-à-dire qu'il n'ya qu'un état initial,et∀q ∈ Q, ∀a ∈ Σ, |{q
′
: δ(q, a) = q
′
}| ≤ 1
, 'est-à-dire que pour haqueétat, ilexiste
au plusune transition sortante par lettre de
Σ
.Autrement dit, un automate ni est déterministe, si quelque soit
w ∈ Σ
∗
, il existe
une unique façon d'a epter ou de rejeter
w
. L'automate donné Figure 1.1 n'est pas déterministe. Eneet,le motaab
peut être a epté (ou parsé) de plusieurs façons:soiten lisant lepremier
a
parlabou lesurq
0
, puislese ond parlatransitiondeq
0
àq
1
,soitenlisantlepremier
a
parlatransitiondeq
0
àq
1
,puislese ondparlabou le surq
1
.Pour haqueautomateni nondéterministe, ilexisteunautomateni déterministe
re onnaissant exa tement lemême langage.
Exemple 8 Si nous supprimons la bou le sur l'état
0
de l'automate de la Figure 1.1, nous obtenonsun automate ni déterministe re onnaissant le même langagea
+
b
+
L'étape pour passerd'un afn(automate ni non déterministe)àun afd est
appe-lée déterminisation. De plus, pour haque langage re onnu par un afd, nous pouvons
onstruire un afd minimal en nombre d'états. Cet afd minimal alors unique est
ap-pelé automate anonique. Minimiser un automate est un problème polynomial. Nous
pouvons don déterminer si deux afd sont équivalents, 'est-à-dire s'ils re onnaissent
lemêmelangage,enles minimisant :ils lesontsilesautomates anoniquessont égaux.
1.3 Distan es entre mots
Une notionimportante quenousallonsutiliserest ellededistan e. Silorsque nous
parlonsdedistan edanslavie ourante,ilestétablique e soitladistan eeu lidienne,
qu'en est-il desdistan es entremots?Par exemple,le mot arré est-il plus pro he du
motrond oudumotre tangle?Toutdépendenfaitdeladistan eutilisée.Aupréalable,
rappelons ladénitionmathématique d'unedistan e :
Dénition 9 Onappelle distan e sur un ensemble
E
une appli ationd : E × E → R
+
vériantles propriétés suivantes:1. Séparation :
d(x, x) = 0
2. Symétrie :d(x, y) = d(y, x)
3. Nonnégativité :d(x, y) ≥ 0
Lorsque la distan e vérie en plus les deux onditions suivantes, elle dénit une
métrique 1
:
1. Identité desindis ernables :
d(x, y) = 0 =⇒ x = y
2. Inégalitétriangulaire :d(x, y) + d(y, z) ≥ d(x, z)
Exemple 9 Soient
x
ety
deux ve teurs tels quex = [x
1
, . . . , x
n
]
ety = [y
1
, . . . , y
n
]
, ave∀i ≤ n
,x
i
∈ N
.Des exemples typiquesde distan e sontalors :la distan e dis rète, dénie par
d(x, y) =
0
si
x = y
1
sinon
la distan e eu lidienne, dénie par
pP
n
i=1
|x
i
− y
i
|
2
la distan e de Minkowski,dénie par
p
pP
n
i=1
|x
i
− y
i
|
p
avep ≥ 1
(oup
-norme). La distan e eu lidienne est alors la2
-norme.Cesdistan essontlargementutiliséssurdesdonnéesnumériques(ve torielles).Elles
sonten revan he laplupart dutemps inutilisablesen l'étatsurdesdonnéesstru turées
omme les arbres,les graphesou les haînes.
Cal uler la distan e entre deux données stru turées revient la plupart du temps à
al ulerladistan eentrelesstru tures.Biensouvent,onsedonneunensemble
d'opéra-tions réalisableset on ompte lenombre minimum d'opérations àee tuerpour passer
1
Enréalité,unemétriqueausensmathématiquedutermedoitvérier(i)
d(x, y) ≥ 0
,(ii)d(x, y) =
0 ⇔ x = y
,(iii)d(x, y) = d(y, x)
et(iv)d(x, z) ≤ d(x, y) + d(y, z)
.Telle qu'on ladénit, 'est-à-dired'unestru tureàune autre.Cependant,pluslastru tureest omplexe,plusladistan e
est di ile à al uler : le al ul de distan e entre deux graphes onsiste simplement à
supprimer et à ajouter des sommets et des arêtes pour passer d'un graphe à l'autre.
Cependant, al uler ettedistan epeutalorsêtreexponentieldanslenombre den÷uds
desgraphes...
En revan he, al uler la distan eentre deux haînes se fait généralement en temps
polynomialdanslalongueur de es haînes.
1.3.1 Distan e d'édition
Unedistan efréquemmentutiliséepour omparerdeux haînesestladistan e
d'édi-tion,introduite en1965parLevenshtein[Lev65 ℄.Cettedistan eutilise troisopérations,
appeléesopérations d'édition (ou opérations atomiques) :
l'opération d'ea ement, ou desuppression : elle transforme un mot
w = uav
enw
′
= uv
aveu, v ∈ Σ
∗
et
a ∈ Σ
;l'opération d'insertion : opération inverse de la suppression, elle transforme un
mot
w = uv
enw
′
= uav
ave
u, v ∈ Σ
∗
et
a ∈ Σ
;l'opération de substitution : pouvant s'apparenter à une suppression suivie d'une
insertion,elle transforme unmot
w = uav
enw
′
= ubv
aveu, v ∈ Σ
∗
,a, b ∈ Σ
. À haque opération d'édition est attribuée un oût. La distan e d'édition est alorsdénie omme lasomme minimaledes oûts des opérations permettant de passerd'un
motà un autre.
Il existeplusieursvariantesàladistan ed'édition.Desvariantesutilisantdes
trans-positionde deuxlettres,voire desdépla ementsde sous-mots[CM07, SS07℄,et des
va-riantes utilisantdiérentspoids, omme par exemple ladistan e deHamming[Ham50 ℄
qui n'utiliseque lesopérations desubstitutions et quiest don un asparti ulier de la
distan ed'éditionave un oûtinnipour lesopérationsd'ea ement etd'insertion, et
un oûtunitairepour l'opération de substitutions.
Dans ertainesappli ations, omme enbiologieparexemple,ilestné essaired'avoir
despoidsd'éditiondiérents, voiredépendantsdu ontexte.Parexemple,uneinsertion
enmilieu demotpeut êtreplus oûteuse qu'en nmot,lerempla ement d'un
a
parunb
être plus her que elui d'unb
par unc
...Certains travaux visent don à apprendre les poids de la distan e d'édition avant de l'utiliser [RY96, BJS06, OS06 ℄. D'autresenri hissent la distan e d'édition en autorisant des opérations plus omplexes omme
substituerdeuxlettres par une seule,par exemple hangerph par f [BM00℄.
Saufindi ations ontraires,nous onsidéreronsdanslasuitedumanus ritquele oût
destrois opérations d'édition est unitaire. Dans e as, nouspouvonsalors redénir la
distan ed'édition omme suit :
Dénition 10 (Distan e d'édition) La distan e d'édition entre deux mots
w
etw
′
,
notée
d(w, w
′
)
, est lenombre minimum d'opérations d'édition né essaires pour réé rire
w
enw
′
.
Exemple 10 Soient
w = babab
etw
′
= abbaa
.
d(w, w
′
) = 3
. En eet, pour passer du
mot
w
àw
′
et de rempla er le dernier
b
par una
. Comme il n'existe au une opération permettant depasserdire tement dew
àw
′
,la distan e d'édition entre lemot
w = babab
etlemotw
′
= abbaa
est don de trois.Une propriété de la distan e d'édition que nous utiliserons souvent stipule que la
distan eentredeux motsest aumoinségale auxnombres d'insertions né essairespour
égaliser leslongueurs de es deuxmots :
Proposition 1 Pour tous mots
w, w
′
∈ Σ
∗
,d(w, w
′
) ≥
|w| − |w
′
|
. De plus,d(w, w
′
)
=
|w| − |w
′
|
siet seulement si (w w
′
ouw
′
w
).Pour al uler la distan e entre deux mots, il existe souvent plusieurs suites
d'opé-rations possibles ayant un oût minimum. Dans l'exemple 10 i-dessus, nous pouvons
également utiliser troissubstitutions pour passerde
w
àw
′
: substituerle premier
b
et le dernierb
par desa
puis le premiera
par unb
. La séquen e d'opérations ee tuées pour passerd'un mot àl'autre estalors appelées ript d'édition.Dénition 11 (S ript d'édition) Le s riptd'édition est une suite de ouples
(a
i
, b
i
)
telsque1. haque ouple représente :
la suppression de la lettre
a
i
sib
j
= λ
, l'insertion dela lettreb
j
sia
i
= λ
et la substitution de la lettrea
i
parb
j
.2. les on aténations
a
0
a
1
a
2
· · ·
etb
0
b
1
b
2
· · ·
sontrespe tivementégalesàw
etw
′
,un
s riptd'édition étantexé uté de gau he à droite :le s ript
(a, b)(a, λ)
transforme don lepremiera
deaa
enb
etsupprime lese onda
.Exemple 11 Pour passer de
w = babab
àw
′
= abbaa
, ilexiste quatre s ripts d'édition
permettant de al uler
d(w, w
′
)
:
(b, a), (a, b), (b, b), (a, a), (b, a)
(b, λ), (a, a), (λ, b), (b, b), (a, a), (b, a)
(λ, a), (b, b), (a, λ), (b, b), (a, a), (b, a)
(b, λ), (a, a), (b, b), (λ, b), (a, a), (b, a)
Une façon plus visuelle mais équivalente permettant de représenter la suite
d'opé-ration utilisée dans le al ul de la distan e d'édition s'appelle l'alignement. On pla e
des espa esà l'intérieur(ainsiqu'auxextrémitéssiné essaire) de
w
etw
′
et onles
pla el'un au-dessusde l'autre anqu'ilss'alignent :
Exemple 12 Le s ript d'édition
(b, λ), (a, a), (λ, b), (b, b), (a, a), (b, a)
est équivalent à l'alignement :b a λ b a b
|
|
|
|
Une autre représentation, elle que nous utiliserons le plus souvent, s'inspire des
dérivations de réé riture. Étant donnés deuxmots
w, w
′
∈ Σ
∗
, on dit que
w
seréé rit enw
′
enun pas, notéw −
→ w
′
siune desopérationsd'édition a étéappliquée. Onnote alorsw
k
−
→ w
′
siw
peut seréé rireenw
′
àl'aidede
k
opérations d'éditionetw
∗
−
→ w
′
la fermeturetransitiveetréexivedeladérivation:∗
−
→=
S
k≥0
k
−
→
.Dans e as 2 ,ladistan ed'édition estleplus petit entier
k ∈ N
tel quew
k
−
→ w
′
.
Exemple 13 Le s ript d'édition
(b, λ), (a, a), (λ, b), (b, b), (a, a), (b, a)
peut être repré-sentéparladérivationbabab −
→ abab −
→ abbab −
→ abbaa
.Ilestànoterqu'unemême déri-vationpeutreprésenterplusieurss riptsd'édition.Ainsibabab −
→ abab −
→ abbab −
→ abbaa
représente également(b, λ), (a, a), (b, b), (λ, b), (a, a), (b, a)
.1.3.2 Programmation de la distan e d'édition
Ilexisteplusieursfaçonsdeprogrammerle al uldeladistan ed'édition.Laplupart
visentàaméliorerla omplexitédel'algorithmegénéralreposantsurlaformulesuivante:
d(ua, vb) = min
d(ua, v) +
cout(insertion)
d(u, v) + cout(substitution)
d(u, vb) +
cout(suppression)
(1.1)où
cout(insertion), cout(substitution), cout(suppression)
représentent respe tivement le oût d'une insertion, d'une substitution et d'une suppression dans le as plusgéné-ral où le oût de haque opération peut être diérent. Les algorithmes que nous
al-lons donner seront généralement dénis pour
cout(insertion) = cout(substitution) =
cout(suppression) = 1
.L'Algorithme 1 est l'algorithme de base du al ul de la distan e d'édition entre
deux mots
u
etv
[WF74℄. Son but est de remplir une matri eM
de telle façon queM
|u| + 1|v| + 1
ontienne la distan e d'éditiond(u, v)
, en al ulant la distan e d'édition entre haquepréxe deu
etv
.Par exemple, le al ul de la distan e d'édition entre
u = babab
etw = abbaa
par l'Algorithme1 permet deremplirM
de lamanière suivante :u
λ(0) a(1) b(2) b(3) a(4) a(5)
v
λ(0)
0
1
2
3
4
5
b(1)
1
1
1
2
3
4
a(2)
2
1
2
2
2
3
b(3)
3
2
1
2
3
3
a(4)
4
3
2
2
2
3
b(5)
5
4
3
2
3
3
On omprend alors lairement pourquoi l'algorithmeest orre t : son invariant est
qu'ilpermetde passerdu mot
u
1
· · · u
i
au motv
1
· · · v
j
enutilisant unnombre minimal deM [i][j]
opérations d'édition(grâ e à l'équation1.1).Algorithme 1 : Algorithmegénéral du al ul de ladistan ed'édition
Données: Deuxmots
u
etv
Résultat :
d(u, v) = M
|u| + 1|v| + 1
M [0][0] ← 0
; 1// Initialisation de la olonne
pour
i ← 0
à|u|
faire 2M [i + 1][0] ← M [i][0] + 1
; 3 npour 4 // Initialisation de la ligne pouri ← 0
à|v|
faire 5M [0][i + 1] ← M [0][i] + 1
; 6 npour 7pour
i ← 0
à|u|
faire 8 pourj ← 0
à|v|
faire 9M [i + 1][j + 1] ← min
M [i][j + 1] + cout(insertion)
M [i][j] + cout(substitution)
M [i][j + 1] + cout(suppression)
; 10 npour 11 npour 121.3.3 Extensions de la distan e d'édition
Bien qu'utilisant la programmation dynamique, l'Algorithme 1 a une omplexité
temporelle et spatialede
(|u| + 1) × (|v| + 1)
(due auremplissage du tableau).Cette omplexité peut alors être trop importante si nous travaillons sur de très
longues haînes.Une première amélioration plutttriviale on ernealors la omplexité
spatiale.Eneet,pluttquedegarderenmémoiretoutletableau,seuleladernièreligne
remplie est utile pour ompléter la suivante. Onpeut alors adapter l'algorithme pour
travaillerave untableauàdeuxlignesetainsiavoirunetaillede
2 × 1 + min(|u|, |v|)
.
Une autre amélioration on erne la omplexité temporelle. Cetteidée vient des
au-teurs Arlazarov, Dini , Kronrod et Faradzev[ADKF70 ℄ et a été adaptéepar Masek et
Paterson [MP80 , MP83 ℄. La te hnique, dite des quatreRusses, onsiste à partitionner
letableau
M
enblo sdetaillem × m
,et àpasserseulement untempsenO (m)
pluttqu'en
O m
2
sur ha undesblo s.Pour ela, ellepartdu onstat que haque asedans
M
nepeutdiérerqu'aumaximumd'unevaleurde1
ave une aseadja ente. L'amélio-ration onsistealors à oder les blo save desve teursdevaleursdans{−1, 0, 1}
dans lespremièreset dernièresligneset olonnesde haqueblo .Un pré- al ulsurtouteslesfaçonsd'obtenir unblo permet d'arriver aurésultat. Aunal, late hnique desquatre
Russespermet de al uler ladistan e d'édition entre deux mots de longueurs
n
en untemps
O
n
2
log n
grâ eà unpré- al ul en
O n(log n)
2
.
O |u| + d(u, v)
2
et de pire omplexité en
O |u| × d(u, v)
. Du oup,lorsque
d << n
, 'est-à-dire lorsque nous savons que les mots auront une faible distan e par rapport àleurlongueur(lorsquenous omparonsune haîned'ADNetsamutationparexemple),
etalgorithmeserabien plusrapidequel'Algorithme 1.Demême, dans[All92 ℄Allison
tireavantagedelaprogrammationfon tionnelle 3
pourdonnerunalgorithmeen
O |u|×
(1+d(u, v))
.Danslesdeux as,aulieuderemplirletableau
M
ligneàligne,lesauteurs s'intéressentà ladiagonaledutableau.La omplexité spatiale estalors enO d(u, v)
2
.
Le le teur désireux d'en savoir plus sur le al ul de la distan e d'édition pourra
onsulter desouvrages omme [Gus97 ,CHL01 ℄.
Il est également intéressant de noter qu'en gardant en mémoire un pointeur sur la
ased'oùprovientlerésultatde
M [i][j]
, onpeutretrouverless riptsd'éditionainsique les alignements entemps polynomial.Outre danslestravaux ités i-dessus,ladistan ed'édition entre haînesestutilisée
dansdiversesappli ations. Ellepeutservir entant qu'aideàlare onnaissan ede
poly-goneslorsqu'elleestutiliséesurdesmots y liques[Mae91 ℄,d'esquissesfaitesà lamain
[LTZ96℄, d'empreintes digitales [JPHP00 ℄ouplus simplement de ara tères manus rits
[CSS99 ℄.
Destravauxdebiologiel'emploient aussipour al ulerdesdistan esentrestru tures
arn [JLMZ02℄ ou pour omparer des génomes [San92 ℄. En linguistique, elle aide à
la dé ouverte de morphèmes [HMGS05℄, à la orre tion orthographique de langages
agglutinatifs [OG94 ℄ et elle permet de dénir des analogies entre séquen es [MBD05℄.
On la trouve également en omparaison ou re her he de musiques [LU00 ℄, de vidéos
[ALK99 ℄,d'ontologies [MS02℄ ou defouille duweb [GG08℄.
Enn, elle peut aussi être étudiée en tant quedistan e. Dans[OR07℄ par exemple,
les auteurs montrent que la distan e d'édition peut être ramenée à une distan e de
Manhattan, lorsqu'elleestutiliséesurdesmotsbinaires,ave une faibledistortion.Des
travauxplus lassiquesseservent de ses propriétés dedistan e pour de lare her he de
pluspro hesvoisins [MOV94, Ind04℄.
Les adres d'apprentissage
Eninféren egrammati ale,apprendrerevientàprésenterunehypothèse onsistante
ave les données qui sont portées à notre onnaissan e. An de savoir si nous avons
bien appris, il onvient de onnaître e que nous voulions apprendre, à partir de
quoi,et ombien detempsa éténé essairepour formuler noshypothèses.
Laqualité durésultatd'apprentissage vafortement dépendredesexemplesque
l'al-gorithmeaura. Par exemple,s'il nevoitqu'un ensembleni de données positives, il va
être di ile de généraliser : si un apprenant ne généralise pas susamment, il risque
unapprentissagepar ÷ur, 'est-à-direre onnaîtreuniquementlesdonnéesdéjà vues,à
l'inverses'ilgénéralisetrop,ilrisquederetournerrapidement deshypothèsesa eptant
pratiquement tousles mots de
Σ
∗
.Danslereste dumanus rit,nousallonsnousintéresser àl'apprentissage dediverses
lasses delangages. Cequi nousintéresse en parti ulierest l'apprentissage de langages
à partir de données bruitées. En eet, en pratique, les données dont nous disposons
sont bruitées, 'est-à-dire que parmi les données d'apprentissage, ertaines ont subi
desmodi ations.An de formaliserl'apprentissage à partir dedonnées bruitées, nous
allonsau préalablenousintéresser à e quesignieapprendre.
L'apprentissage se fait à partir de données et un apprenant peut les obtenir de
deux moyens diérents : soit une séquen e d'informations existe et l'apprenant peut
les prendre une par une, soit il peut demander de l'information à un ora le. Pour es
deuxmoyens,l'évaluationdel'apprentissagepeutsefaired'unpointdevueprobabiliste
(sommes-nousplusoumoinspro hedelaréponse?),oud'unpointdevueasymptotique
(avons-nousouiou nonlabonne réponse?).
Dans e hapitre nous nousintéresserons dans un premier temps aux objets à
ap-prendre. Nous étudierons ensuite les troisparadigmes habituels d'apprentissage
ara -térisant quellessont les bonnesfaçonsd'apprendre :
l'identi ation à lalimite : lesdonnées sont subies et l'apprenant doittrouver la
bonne réponse;
l'apprentissagea tifouapprentissageàpartirderequêtes:l'apprenant hoisitses
données via unora le et l'apprenant doittrouver exa tement laréponse;
l'éva-luation de l'apprentissage sefaitde façon probabiliste.
Enn, nousverrons omment apprendre les afddans esdiérents adres.
2.1 Classes de langages et représentations
Lorsque nousvoulonsidentier unlangage,nousavonsle hoixentreplusieurs
lan-gages. Nous allons don identier la ible parmi une lasse de langages. De plus, les
hypothèsesquenousémettonsnesontpasretournéessousformesdelangagesmaissous
formesde représentations.
Soient
L
une lassede langagesetR(L)
une lasse dereprésentations deslangages deL
.Typiquement,les lassesdelangagesquenous onsidéreronsserontparexempleles langagesréguliersoualgébriques,etles lassesdereprésentationsserontlesgrammairesalgébriques oules automates nisdéterministes.
Les lasses de langages
L
et de représentationsR(L)
sont reliées par une fon tion dite de nommageL
: R(L) → L
qui pour n'importe quelle représentation retourne le langage orrespondant. Cettefon tionestune fon tionqui esttotale, 'est-à-dire∀G ∈
R(L), L(G) ∈ L
. De plus, elle est surje tive :∀L ∈ L, ∃G ∈ R(L)
telqueL
(G) = L
. Il est à noter qu'elle n'est ependant pas né essairement inje tive. En eet, un mêmelangage peut être représenté de plusieurs façonsdiérentes.
Pour n'importe quels mots
w ∈ Σ
∗
et langage
L
, nous é rironsL |= w
siw ∈ L
. Demême, omme lesgrammaires peuventêtrevues ommeunensembled'informationspermettant à unanalyseur, enanglais parser, de re onnaître desmots, pour n'importe
quel mot
w ∈ Σ
∗
et grammaire
G
, nousé rironsG ⊢ w
si l'analyseur re onnaîtw
. La syntaxe et la sémantique sont alors liées par la fon tion de nommage :G ⊢ w ⇐⇒
L
(G) |= w
.Nous allons également nous intéresser par la suite à des problèmes de omplexité :
quels langages sont apprenables en peu de temps? Quels sont eux qui ne le sont pas
même ave beau oup de données? Pour ela il nous faut pouvoir mesurer la taille
des représentations et en parti ulier, les tailles des grammaires. Cette taille doit être
raisonnabledanslesensoùunlangagepossédantpeudedonnéesoupouvantêtredé rit
simplement,doitavoirunetaillepluspetitequ'unlangageexponentiellementplusgrand.
Généralement, lataille d'unegrammaire
G
estpolynomialement liée aunombre debits né essaires pour en oderG
. Nous utiliseronskGk
pour noter ette taille. En e qui on erne les automates,leurtaille seraleur nombre d'états.2.2 Identi ation à la limite
Dansleparadigmestandardd'identi ationàlalimitedeGold,unapprenantreçoit
uneséquen einnied'informations.Cetteséquen edoitl'aideràtrouver exa tement la
2.2.1 Notations préliminaires
Pour l'apprenant, tout se passe omme si une quantité innie de données arrivent
sansdis ontinuer. Cettesuite d'information s'appelle uneprésentation :
Dénition 12 (Présentation) Soit
L
une lasse de langages, une présentation deL ∈ L
est une fon tionN
→ X
oùX
est un ensemble. Étant donnée une présentation f, nous noterons fm
l'ensemble{
f(j) : j < m}
desm + 1
premiers éléments def, et f(n)
sonn
-ème élément.Nous notons Pres
(L)
un ensemble de présentations. Une présentation dénote un langage deL
. En d'autres termes, il existe une fon tionyield :
Pres(L) → L
. SiL = yield(
f)
alors nous dirons que f est une présentation deL
, ou f∈
Pres(L)
.Ave ette dénition, les présentations sont à prendre au sens large : e sont des
séquen es de n'importe quel type d'informations pouvant aider à l'apprentissage du
langage.
Typiquement,lesdonnéesquiarriventsontdesmotsétiquetésdulangage ible,mais
e n'est pastoujoursle as.
Exemple 14 Considérons lelangage
L = a
+
b
+
.
Si les mots de la présentation sont uniquement des mots appartenant au langage
ible,
X
vautΣ
∗
. Si en outre,
yield(
f) =
f(N)
, alors la présentation est appelée untexte. Dans e as, nousnoteronsalors Pres=
Texte .Parexemple, f
= {aab, abbbb, ab, aab, . . .}
n'est omposée que demotsappartenant àL
. Si tousles mots deL
sont présentés alors f est aussi untexte.Lorsque la présentation est omposée de paires étiquetées
(w, l)
où(w ∈ L ⇒
l = +)
et(w 6∈ L ⇒ l = −)
, 'est-à-dire à lafoisd'exemples positifsetd'exemples négatifs, nousparleronsd'un informateur.NousavonsalorsX = Σ
∗
× {+, −}
et
sif
(N) = L(G) × {+} ∪ L(G) × {−}
, nous noterons Pres=
Informateur. Soit f′
= {(aab, +), (bab, −), (aa, −), (abb, +), (aaba, −), . . .}
. f
′
est une
présen-tation de
L
qui est onsidérée omme un informateur si tous les mots deΣ
∗
apparaissent.
TexteetInformateur sonthabituellementles deuxtypesdeprésentations
uti-lisées. Toutefois,
X
peut aussi être plus restreint : ela peut être une suite de préxes des mots du langages, des indi ations sur la pla e des lettres dans lesmots,leur nombre et .
NousnoteronsPres
=
Presentation lorsquenousvoudronsparlerindiéremmentd'un Texteou d'un Informateur.
Ensuite,pourapprendre,nousauronsbesoind'unalgorithme d'apprentissage,
'est-à-dire d'un programme qui utilisera une présentation an de retournerdes hypothèses
représenta-Dénition 13 (Algorithme d'apprentissage) Un algorithme d'apprentissage Alg
estunprogramme prenant les
n
premiersélémentsd'uneprésentation etretournantune représentation : Alg:
[
f∈
Pres(L),i∈N
{
fi
} → R(L)
Notez qu'étant données deux présentations
f
etg
, sif (N) = g(N)
alorsyield(f ) =
yield(g)
. En eet, si tel n'était pas le as,L
ne serait pas apprenable à partir de Pres(L)
: deux langages partageant à l'inni une même présentation ne peuvent pas êtredistinguésl'undel'autre. Ilendé oule quesif ∈
Pres(L)
etg : N → X
telles queg(N) = f (N)
alorsg ∈
Pres(L)
.2.2.2 Identi ation à la limite sans ontraintes de polynomialité
L'identi ationàlalimiteréussitsiàun ertainrangdelaprésentation,l'algorithme
arriveàretournertoujourslamême hypothèse, elle orrespondantaulangage ible.La
dénitionsuivante estune modi ationde ellede [Gol78℄:
Dénition 14 On ditque
G
est identiable à la limite à partir de Pres s'il existe un algorithme Alg tel que pour toutG ∈ G
et pour toute présentation f deL
(G)
, il existe un rangn
tel que pourtoutm ≥ n
, Alg(
fm
) =
Alg(
fn
)
etL
(
Alg(
fm
)) = L(G)
.L'identi ation à lalimite onduit parfoisàdesrésultats négatifs.En parti ulier:
Théorème 1 ([Gol67℄) Soit
L
une lasse de langages,siL
ontient tousles langages nis et au moins un langage inni (on dit alors que la lasse est super nie), alorsL
n'est pas apprenable.Toutefois, l'absen e de ontraintes onduit souvent à des résultats d'apprentissage
positifs,mais à des algorithmes inutilisables en pratique. C'est pourquoi plusieurs
au-teurs ont essayé de dénir une identi ation à la limite polynomiale, en introduisant
diérents ritères d'e a itéet en les ombinant.
2.2.3 Contrainte de temps de mise à jour
An de pouvoir utiliser on rètement les algorithmes d'apprentissage, il est
né es-saireque eux- i n'utilisent qu'une petite quantité de temps à haque nouvelle donnée
reçue, sous peine de ne pas pouvoir onnaître le résultat de l'apprentissage avant un
long moment. Il estdon raisonnable de penser quela polynomialité doit on erner la
quantité de temps dont l'algorithme disposepour apprendre :
Dénition 15 (Temps de mise à jour polynomial) On dit qu'un algorithme Alg
a un temps de mise àjour polynomial s'il existe un polynme
p()
tel que, pour haque présentation fet haque entiern
, onstruire Alg(
fn
)
né essiteuntempsenO(p(k
fCette ontrainte de temps de mise à jour polynomial n'est pas ependant pas
sa-tisfaisante. Dans [Pit89 ℄, Pitt montre en eet que même ave ette ontrainte, un
ap-prenant pourraitrésoudre un problème
N P
-di ile : il lui surait en eet d'attendre patiemment tout en re evant desexemples. Lorsqu'il a a umulé un nombreexponen-tield'exemples,ildisposeraitalorsd'unequantité detemps susantepourrésoudreun
problème
N P
-di ile...Plusieurs autres ritères sont alors envisageables en plus de la ontrainte de temps
demiseà jour : laquantité d'exemples reçus,lenombre de foisoùl'apprenant faitune
faussehypothèse ouen ore lenombre defois oùil hange d'avis.
2.2.4 Contrainte de hangement d'avis
Le se ond ritèredepolynomialitéquenousprésentons on erne don lenombre de
foisoù l'apprenant hange d'avis(Mind Changes, notéM ) [AS83 ℄:
Dénition 16 (Changement d'avis (M )) Étant donnésunalgorithmeAlg etune
présentation f, on dit que Alg hange d'avis au temps
n
si Alg(
fn
) 6=
Alg(
fn−1
)
. On ditque Alg est onservatif s'ilne hange jamaisd'avis lorsque son hypothèse ouranteest onsistante ave lenouvel élément présenté.
Dans e as,l'apprentissageseraalorsbonsilenombrede hangementd'hypothèses
n'est pastropgrand :
Dénition 17 (Identi ation M polynomiale) Un algorithme Alg identie une
lasse
G
à la limite entemps M polynomialsi 1. Alg identieG
à la limite,2. Alg a untemps de mise à jour polynomialet
3. Alg fait un nombre polynomial de hangement d'avis : il existe un polynme
p()
tel que, pour haque grammaireG
et haque présentation f deL
(G)
,#
M(
f) ≤
p(kGk)
où#
M(
f)
est le nombre de M :#
M(
f) = |{k ∈ N :
Alg(
fk
) 6=
Alg
(
fk+1
)}|
.Notons queladernière onditionn'implique pasles deuxautres.
Exemple 15 Soient le langage
S
n
= {a
i
: n ≤ i ≤ n + 9}
et la lasse de langages
S
omprenant tous les langagesS
n
, ∀n ∈ N
+
. Chaque langage omprend don
10
motset∀i, j ∈ N, 0 < i < j, S
i
6⊆ S
j
,puisquea
i
n'estpasdans
S
j
eta
j+10
n'appartientpas à
S
i
. Soit l'algorithmesuivant :1. Lire la donnée f
(n)
, soitu
la plus petite des données def etv
la plusgrande. 2. Si|v| = |u| + 9
retournerS
|u|
sinon, retournerS
1
. 3. Aller en1.Cet algorithme identie à la limite