Inférence grammaticale en situations bruitées

(1)

HAL Id: tel-00411616

https://tel.archives-ouvertes.fr/tel-00411616

Submitted on 28 Aug 2009

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Frédéric Tantini

To cite this version:

(2)

N

o

d'ordre:00000

É ole do toralede Saint-Étienne

Inféren e grammati ale en

situations bruitées

Thèsepréparée

pour obtenir legradede :

Do teur de l'Université Jean Monnet de Saint-Étienne

Mention Informatique

par Frédéri Tantini

LaboratoireHubert Curien

Fa ulté des S ien eset Te hniques

À soutenirle 09juin2009 devant lejury omposéde :

M. : Président du jury Président

MM.: Thierry Le roq Rapporteurs

Laurent Mi let

MM.: Leonor Be erra-Bona he Examinateurs

Mar Tommasi

Mar Sebban

MM.: Colin de la Higuera Dire teur

(3)

(4)

À l'heureoù j'é ris esremer iements, laréda tiondes hapitres dumanus rits est

terminée.C'estdon le ÷urlégerquejepeuxremer iertous euxquiont ontribuéde

prèsou de loinà l'é riture de ette thèse.

J'aimerais tout d'abord remer ier Colin de la Higuera, mon dire teur de thèse. Je

le remer ie d'avoir proposé e sujet et de m'avoir a epté omme do torant. Sans lui,

ma thèse ne seraitpas e qu'elle està présent. Il a su me diriger et m'en adrer quand

j'en avais besoin, tout en me laissant libre dans mes dé isions. J'ai appré ié travailler

ave lui : les dis ussions que l'on a eues ainsi que ses onseils sont à la fois rigoureux,

onstru tifsetenthousiastes.Deplus,malgrésesmoultfon tions,ilatoujourssurester

disponible.

Jetienségalementàremer iergrandementmon o-dire teurdethèseJean-Christophe

Janodet. Mer i à lui pour sa motivation sans faille, son entrain, son dynamisme ainsi

que sa bonne humeur. Bien que pas toujours d'a ord sur la forme plutt que lefond

de nos arti les(j'ai tenu bon et airéussi à ne pasmettre de blague :þ), son aide dans

montravail de re her he m'aété plusqued'une grandeutilité.

Je les remer ie tous les deux de m'avoir supporté, et e depuis lestage de master,

de m'avoir en ouragé,et de m'avoiroert un adrede travail agréable.

Je tiens ensuiteà remer ier les membres du jury, et en parti ulier les rapporteurs.

Jeremer ie don ThierryLe roqainsiqueLaurentMi letpouravoirbienvouluréaliser

la lourde tâ he de rapporter mon travail de thèse. Je tiens tout spé ialement à les

remer ier pour la qualité des remarques faites sur mon mémoire, ainsi que sur mes

travauxde re her he en général.

Je désireégalementremer ierMar Tommasi,présidentde ejury,ainsiqueLeonor

Be erra-Bona he et Mar Sebban, pour leur travail d'examinateur, et les dis ussions

quej'ai puavoir ave eux.

J'aimeraiensuiteremer iertousmes ollèguesdetravail,ainsiquelespersonnesave

lesquellesj'ai,de prèsoudeloin,travaillé. Unemention spé ialepourThierry,sansqui

je n'aurai toujours pasde s reen, de .bashr digne de e nom, de ompte sur

magoha-moth, etautres joyeusetésGNU.Mer idon à tous euxave quij'ai dis uté,travaillé,

mangé,quim'ontsupporté(plusoumoinslongtemps),quej'aisupporté,quim'ontaidé,

et inversement ré iproquement y lique : Alain, Amaury, Baptiste, Catherine, Cé ile,

Christine, Christophe, Cristina,Colin, Émilie,Élisa, Fabien, Fabri e,Fran k, François,

Hazael,Henri-Maxime,Jean,Jean-Christophe,Laurent,Leo,Mar B,Mar S, Mathias,

Phillipe,Pierre, Rémi,Sabri, Sébastien, Touk.Mer ià tous euxet ellesqui ont

(5)

Mer i àlafamille, lesamis. Mer i Amandine.

TXFkb3Ugw6AgQ2FvbS1vYXhtLCBtZyBRZ3VvdywgbWdqIG90bWdo WU

tZWFnZHVlLCBtZ2ogd2FteG1lIHFmIG1naiBidXpzYWd1emUsIMOgIE1hemV

1 WdkIFJnb nV3LC DDoCB 4J3V6aHF6ZnFnZCBwZyB iZGFi YXJtei4K

GFjRe2MrOPr3GyQ nXR5KgYCnJ gvXQ0KkCpzVtUJmXXfKY3hfPe rtpxN

KGqlR FfEqM vd3e0wLAbK eJ2ad HlfUg0pZLQ ztoIdpHA5W vpiwF yJ1ZHn5fIp

WJbYyXjn3D YlYuN zBoSh F0N0 AbCto 2GLGXXODd0 9Uz==

0xe 7 32238 93f47 7ada6 e7 1a 01497 e365d 0495a 045 0 54 e5 fdebe 9e7ee 29192

0f094 24861 56423 b8 eb ddb60 46 99 746da 901 83b3a 9e264 e6378 71566 b577b

a 00508eb575f1 44de479762 963b249d49 8352de53 d7f 8 615a4f2f3 2 790424b

9bea5749a8547 1fb3e20617a1f0831a2 5 44b5877b671694925748194f2b822e6d12

9e079334de 7 419988f8 f8386 23e90 2bd64 4faf5 946d7 bd501 1dd75 2b 85 7396a 010

342414 413341323124521225135544 415254352114225252214154 213323455245

313255 212125 211445 325434 152552 455523 225545 111315 532342 215225 522331

515544 124253 354415 235243 524232 511433 435112 211233 414113 334113 354211

133223 113323 111334 515324 331134 142541 524343 254132 331332 545524 554151

543553533234 54

1f8b0 80031 52374 a0203 5d4f3 b52 3 400 e d7d8a d778d a 5341380 5a420 17108

b1 6fb0578e7637136e43 b11 a87d31b4 ed030a 3467a5fb5 fa 3e60fd 24448344d0

4f 3fa0d597fe03b4e1 997d2 4904e12 5ee5 0f8 7377a5909019 9916d 61dee3e1ab

f8d1382a6f921d4a148793b8a64d6 ebdeb4018b727 77 861e62ea12 ae9a2af7361

32750 9 a69d7b44d7b377d95f859292f216653 a5f58ba14320d 77073188687feb1d

74f0e3369107 905a6 235f4a378a b93a 5f16038 d e1445b2847 2f ad 69231 88bdf

32e306ea 794b ab582 9321bfbe2ba7df 34010 000

(6)

Introdu tion 5

1 Dénitions 13

1.1 Motet ordre . . . 13

1.2 Langageset représentationsstandards . . . 14

1.2.1 Dénitions . . . 14

1.2.2 Grammaires . . . 15

1.2.3 Automates . . . 15

1.3 Distan esentre mots . . . 17

1.3.1 Distan ed'édition . . . 18

1.3.2 Programmationde ladistan e d'édition . . . 20

1.3.3 Extensionsde ladistan ed'édition . . . 21

2 Les adres d'apprentissage 23 2.1 Classesde langageset représentations . . . 24

2.2 Identi ation à lalimite . . . 24

2.2.1 Notationspréliminaires . . . 25

2.2.2 Identi ation à lalimite sans ontraintes depolynomialité . . . . 26

2.2.3 Contrainte de temps demise àjour . . . 26

2.2.4 Contrainte de hangement d'avis . . . 27

2.2.5 Contrainte de nombresd'erreurs impli ites . . . 28

2.2.6 Contrainte d'ensemble ara téristique . . . 30

2.3 Apprentissage a tif . . . 31

2.3.1 Lesrequêtes usuelles . . . 31

2.3.2 Lesrequêtes de orre tion . . . 34

2.4 Pa apprenabilité. . . 36

2.5 Étude du asdes afd . . . 37

2.5.1 Identi ation à lalimite . . . 38

2.5.2 Apprentissage a tif . . . 42

(7)

3 Le bruit en inféren e grammati ale 47

3.1 Typologie du bruit . . . 47

3.2 Traitement dubruit en apprentissage automatique . . . 48

3.2.1 Le bruitdansl'identi ation àlalimite . . . 49

3.2.2 Le bruiten apprentissage a tif . . . 51

3.3 Apprentissage desafd ensituations bruitées . . . 52

3.3.1 Dansle adre de l'identi ation àlalimite . . . 52

3.3.2 Dansle adre de l'apprentissage a tif . . . 56

3.4 Dis ussion . . . 57

4 Les langages à base de distan e 61 4.1 Langages topologiqueset boules de mots . . . 61

4.1.1 Dénitions de langagestopologiques . . . 62

4.1.2 Représentationsdesboules demots . . . 63

4.2 Avantages et in onvénients desboules de mots . . . 68

4.2.1 Propriétés et ontre-intuitions . . . 69

4.2.2 Utilitéet appli ations . . . 70

4.3 Quandles boules de mots nesont-elles pasapprenables? . . . 72

4.3.1 Identi ationà partir de requêtes . . . 72

4.3.2 Apprentissage Pa . . . 73

4.3.3 Cas dessituationsbruitées. . . 75

5 Identi ation à la limite des boules à partir de données bruitées 77 5.1 Te hniques d'apprentissage . . . 77

5.1.1 Te hnique de rédu tion . . . 78

5.1.2 Te hnique de débruitageà lalimite . . . 81

5.2 Identi ation à lalimite desboules . . . 86

5.2.1 Apprentissage en temps M polynomial . . . 88

5.2.2 Apprentissage en temps Ipepolynomial . . . 93

5.2.3 Apprentissage en temps Cspolynomial. . . 95

6 Apprentissage a tif des boules en situations bruitées 97 6.1 Apprentissage àpartir de q Edit . . . 97

6.1.1 Une ara térisationdes orre tions . . . 98

6.1.2 Lesmots de longueur maximum surlafrontière . . . 99

6.1.3 Trouver le entreà partir d'un mot delafrontière supérieure . . 100

6.1.4 Trouver unmot de lafrontière supérieure . . . 102

6.1.5 Un algorithmed'identi ation desboules à partir de requêtes de orre tion . . . 103

6.2 Apprentissage des boules ave un nombre logarithmique de requêtes de orre tion . . . 106

6.2.1 Lesnouvelles boules et orre tions . . . 107

(8)

6.3 Apprentissage fa eàun ora le faillible . . . 111

6.3.1 Fa e à unora le faillible . . . 112

6.3.2 Dénitionde l'ora le approximatif . . . 112

6.3.3 Comportement del'algorithme fa eàun ora le approximatif. . . 113

6.3.4 Amélioration dela pré isiongrâ e à desheuristiquesa posteriori 114

Annexe 125

Bibliographie 144

Table des gures 145

(9)

(10)

42

42: voilàlaréponseàlagrandequestionsurlavie,l'universetlereste. Toutdu

moins, voilà laréponse que donne Deep Though [Ada79 ℄, ordinateur super puissant

réépar unera e d'hyper-intelligen es pan-dimensionnelles.Deep Though estun des

nombreux ordinateurs des ien e- tion qui possèdent uneintelligen e arti ielle

supé-rieure à elledesêtres humains.Bien qued'aprèsdenombreux romans desordinateurs

aussiintelligents queHal 9000[CK68 ℄ auraient dûexister dès2001, les progrès de la

s ien e informatique font que l'homme reste supérieur à la ma hine sur de nombreux

domaines.Certes,Deep Bluea battuGarryKasparovauxé he s alorsque e dernier

était hampion du monde. Cependant, e n'est pas toujours le as. Par exemple, les

logi iels de jeu de go sont en ore loin du niveau desprofessionnels, voire des meilleurs

amateurs (le programme Crazy Stone [Cou06 ℄ peut battre des amateurs voire des

professionnels,maisuniquement ave despierres dehandi ap).Quedirealors de

trom-per unhumain ave untest deTuring :unepersonnedis uteave

X

et doitdevinerau boutd'un ertaintemps,si

X

estunêtrehumainouunema hine.Si esdernièrestâ hes sont loin d'être a omplies, l'intelligen e arti ielle s'emploie à développer te hniques

etthéories pour quelesordinateurs puissent raisonner,planier, per evoir, semouvoir,

dépla er desobjets,apprendre,et .

Parmilesnombreuses atégoriesdel'intelligen earti ielle,l'apprentissage

automa-tiqueviseà permettre à unordinateur d'apprendre: apprendre à raisonner, apprendre

àparler,et .Defaçongénérale,l'ordinateuraa èsàdesdonnéesdites d'apprentissage

et enextrait une onnaissan e,desrègles, an de pouvoir être onfronté àdesdonnées

in onnues [CM08 ℄. Cette extra tion de règles permet alors de pouvoir re onnaître des

données qu'il n'a pas en ore vues. Cela lui permet de généraliser et ainsi d'éviter un

apprentissage par ÷ur. Lesappli ations sont alors multiples : de lare onnaissan e de

ara tères manus rits ou de la parole [Cas90, GSVG94 ℄, aux ltres de spams, en

pas-sant par les jeux (é he s, ba kgammon), la biologie [AM97, DEKM98 ℄, le traitement

de la langue naturelle, le projet DARPA et . Par exemple, on fournit des données à

l'apprenant, omme des ara tères manus rits ou des ourriers indésirables,et la

géné-ralisationluipermet dese onfronteràde nouvellesdonnéesetdon dere onnaître des

ara tères é ritspar unenouvelle personne, ouen ore ltrerdes messagesqu'iln'avait

jamaisreçus.

(11)

bonnesselonlatâ heàa omplir.L'uned'entreelless'appellel'inféren egrammati ale.

Comme son nom l'indique, ette te hnique permet d'inférer une grammaire,

'est-à-dire un ensemble de règles basées sur desmots, haque mot étant la on aténation de

symbolesissus d'un même alphabet. Nouspourrons par exemple avoir :

{

Chien,Le, Mange,

. . .}

;

{a, b, c, . . .}

;

{0, 1}

.

Ainsi, àpartir d'un ensemble demots omme :

{

LeChienMange,

. . .}

;

{abc, abcabc, . . .}

;

{00001, 0111, . . .}

.

et de toute autre aide extérieure disponible, un algorithme essayera de généraliser en

proposant des grammaires permettant de générer desmots qu'il n'apasvu. Les règles

de grammairespouvant être :

{

Phrase

→

SujetVerbe Complement, Arti leDeni

→

le | la | les

, . . .}

;

{S → SS |abc}

;

{S → ZU, Z → ZZ|0, U → U U |1}

.

Ces grammaires permettront alors à l'algorithme de trouver le langage asso ié à es

règles

lalanguefrançaise,

lelangage formédesmots omposésde on aténationsdu mot

abc

, lelangage dont les mots débutent par des

0

, et seterminent par des

1

.

De toute éviden e, l'inféren e grammati ale est parti ulièrement adaptée à la

re- her he d'un langage ible. Mais elle l'est également lorsque les données sont desmots

qui n'ont pasété générés par une grammaire. Nous parlons alors d'indu tion de

gram-maires.Par lasuite, leterme inféren egrammati ale regroupera l'inféren e

grammati- ale àproprement parler ainsique l'indu tionde grammaires [dlH05a ℄.

Depuis 1957, une théorie est parti ulièrement utilisée en inféren e grammati ale :

elle deNoam Chomsky [Cho57 ℄. Cettethéorie permet de diéren ier les langagespar

leursrèglesdegrammaires,nousparlonsalorsdelahiérar hiedeChomsky.Leslangages

debasede ettehiérar hiesontappeléslangagesrationnels,ouen orelangagesréguliers.

Ils sont sensés être plus fa iles à apprendre que les langagesde plushaut niveau, plus

omplexes.

La omplexité de l'apprentissage

Revenons maintenant un instant à Deep Though et à la question qui lui a été

posée. La réponse qu'il a donnée a né essité de très longues années de al ul : plus de

septmillions.Par onséquent,lesingénieursenavaientmêmeoubliélaquestioninitiale.

Si nous pouvons omprendre que donner une réponse à la grande question sur la

vie, l'univers et le reste prenne bien plus de temps qu'ee tuer une addition, nous

(12)

di ulté de laquestion : faire une addition est plus simple que de al uler une ra ine

arrée. Ensuite la taille des données : faire une addition de

12

ave

3

demande moins d'eorts qu'additionner deuxnombres possédant ha un une entaine de hires,ilest

alors normal queladeuxième opération requière plusde temps quelapremière.

Lorsdel'apprentissagedelangages, lamêmequestion vaseposer:monprogramme

n'a-t-il pas mis trop longtemps pour apprendre? En ore une fois, pour y répondre, il

faudraprendre en ompte deuxfa teurs.Toutd'abord, latailledelagrammaire ible :

un langage rationnel ne possédant quedeux règles de grammaire doitêtre plus simple

àapprendre qu'unlangage enpossédantune dizaine.Demême, laquantité dedonnées

que le programme a à sa disposition va jouer un rle important : s'il ne dispose que

de peu de données, il ne devra mettre que peu temps pour formuler une hypothèse.

L'algorithme devra alors identier la ible en un temps raisonnable relativement à es

deuxparamètres, plus formellement en untemps polynomial, pour pouvoir direqu'il a

bienappris.

Ce on eptde polynomialité estalorspris en ompte dansles diérentesdénitions

d'apprentissage. En inféren e grammati ale, il existe plusieurs façons distin tes

d'ap-prendre : les données peuvent être subies ou hoisies, l'inféren e peut être exa te ou

statistique. Trois paradigmes sont alors fréquemment utilisés:

1. L'identi ation à la limite [Gol67 , Gol78℄ qui orrespond à un apprentissage dit

exa t : un algorithme identie à la limite une lasse de langages si quelque soit

lelangage, lorsque nouslui donnons assez de données, il retourne exa tement la

ible. Denombreuses variantes sont apparues pour mieux prendre en ompte les

ontraintesdumonderéel:elles omptentlenombre defoisoùl'apprenant hange

d'avis [AS83 ℄, le nombre d'erreurs qu'il fait [Pit89 ℄, ou bien bornent le temps

autorisé en fon tion de la taille de la ible [dlH97℄. Des ontraintes probabilistes

ont également étéajoutées [CO94 ℄.

2. L'apprentissage a tif [Ang87 , Ang88b ℄ qui modélise l'apprentissage de la langue

par un enfant qui interagit ave sa mère : un apprenant peut poser un ertain

nombre de question à un ora le qui onnaît le langage ible. Les variations de

e paradigme sont alors liées aux types de questions qu'il est possible de poser

[Ang01,Tir08℄,ou àlafaçon de dénir l'ora le [GM96,AKST97℄.

3. L'apprentissage Pa [Val84 ℄pourProbablementApproximativement Corre t:un

algorithmePa apprendsilaprobabilitéqu'iladefairelemoinsd'erreurpossible

esttrèsgrande.Ceparadigmesertessentiellementàprouver desrésultatsnégatifs

d'apprenabilité [PV88 , KV89℄, mais ertains travaux montrent qu'il est tout de

même possible d'apprendredans e ontexte[War89, TC04 ℄.

Une lassede langagesapprenable dansun paradigmepeut alorsne pasl'être dans

un autre. Il onvient don de hoisir onvenablement le paradigme en fon tion de la

ta he àee tuer.

Unedes lasseslaplusintensivementétudiéeestsansnuldoutela lassedeslangages

rationnels.Ces langagespeuvent être représentéspar desautomates nisdéterministes

(13)

dans esdiérentsparadigmesendestempsraisonnables,que esoitenidenti ationàla

limite [Pit89 ,DMV94,dlH97 ,LPP98℄,enapprentissagea tif[Ang90,BDGW94 ,BB06℄

ou en oreen apprentissage Pa [LV91 , Den01 ℄.

L'apprentissage à partir de données bruitées

Lesdonnéesquevontutiliserlesalgorithmesd'apprentissage ontiennentdeserreurs.

En eet, leur a quisition peut malheureusement être faussée pour plusieurs raisons :

mauvais alibraged'unesonde,défaillan edefabri ationd'un apteur,erreurdere opie,

oubli,et .Nous parlons alors dedonnées bruitées.

Supposonsparexemplequenousvoulions lassernotre olle tiondeCDdemusique

pargenre.Nousallonsutiliserunprogrammepermettantdefaire elaautomatiquement.

Aupréalable, nousdonnonsànotreprogrammequelquesCDenpré isant à haque fois

leur genre. Le programme onstruira alors desrègleslui permettant de généraliser aux

CD qu'iln'apasvu. Ainsi, ilpourra lasser automatiquement lereste desCD.

Plusieurs problèmespeuventalors seposer.Toutd'abord,lorsquenouspré isonsles

genres,nouspouvonsnoustromper :lapo hettenousindiquaitdelamusique lassique,

mais le CD n'était pas dans la bonne po hette; 'était du jazz. Ensuite, lorsque nous

donnonslegenreau programme,nouspouvonsnoustromper dansl'é rituredu genre:

nouspouvonstaperbluseaulieude bluespar exemple.Enn,dansl'é hantillon

que nous donnons au programme, nous pouvons ne pas avoir de CD de hip-hop alors

qu'il enexiste dansnotre olle tion.

Demême,sinousvoulonsextraire ertainesrèglesàpartirdeplusieurspagesHTML,

nousnous rendons très vite ompte que laplupart des sitesinternet ne respe tent pas

lanorme W3C.À haque baliseouvrante, ilfaut une balisefermante ( ommepourles

parenthèses). Cependant beau oup de développeurs omettent, volontairement ou non,

de fermerles balises. De plus, ertains utilisent des balises à des endroits où ils n'ont

pasledroitselonleur DTD(laDTD oudénitionde typededo umentpermetde

spé ier les règlesd'utilisationdesdiérentesbalises dansune page).

Cesdeuxexemplespermettentd'appréhenderle on eptdebruit:quelquesdonnées

sontlàparerreur,d'autressontomisesetenn, ertainesontétémodiées.Enpratique,

quelquessoientlesmoyensderé upérerdesdonnées, elles- isontgénéralementbruitées.

Étudier l'apprentissage à partir detelles données semble alors essentiel.

Beau oupdetravauxessaientderésoudre eproblèmedi ile[SG86 ,Sak93,SN98℄.

La plupart utilisent des statistiques pour déte ter si une donnée n'est pas erronée.

Cependant, trop peu de travaux d'inféren e grammati ale étudient l'apprentissage des

afdlorsque lesdonnéessont bruitées. Deplus, estravauxutilisentpourlaplupart un

modèledebruitstatistique,peuadaptéàleuridenti ation:lesdonnéesd'apprentissage

sont bruitéesselon une ertainedistribution puis fourniesàl'apprenant.

Identier les afd se fait alors généralement de la façon suivante : des algorithmes

lassiquesd'identi ation sont modiéspourêtrerésistantsaubruit.Ave destests

(14)

négative parexemple).Il prend alorsun ertainrisqueà haqueétape desonpro essus

d'inféren e [HBS03,SJT04 ℄.

Malheureusement,au unde estravauxn'arriveàgéreruntauxde bruitsigni atif

pour desautomates nontriviaux : à haqueétape,lamoindreerreur faussel'automate

dans son ensemble. De plus, l'introdu tion de bruit fait perdre l'apprentissage exa te

des automates : les algorithmes vont trouver un afd plus ou moins pro he de l'afd

ible,maisiln'existeau unmoyendesavoirsil'algorithmeavraimentidentiéla ible.

D'un autre té, d'autres travaux ont déni des modèles de bruit non statistique.

Cependant, les auteurs montrent que les automates ne sont pas identiables dans es

adres bruités, mais mettent en avant d'autres lasses de langages, transversaux à la

hiérar hiedeChomsky.Par exemple,StephanpuisCase,JainetSharma[Ste97 ,CJS01 ℄

montrent qu'autraversunbruitnonstatistique, ertaines lassesré ursivement

énumé-rablessont identiables.

Une lasse de langages apprenable en situations bruitées :

les boules de mots

La situation est don la suivante : d'un té, il est devenu ru ial de pouvoir

ap-prendreà partir de données bruitées; d'un autre, laplupart destravauxdésirant

iden-tier les langages rationnels, langages de base de la hiérar hie de Chomsky, é houent

dansleurtâ he.

Nous proposons don dans e travail e que pourrait être la base d'une hiérar hie

de lasses de langagesidentiables enprésen ede donnéesbruitées: les langages

topo-logiques.

Supposons que nous voulions lasser des images. S'il est sans au un doute di ile

pour un non-initié de diéren ier une pipistrelle ommune d'une pipistrelle de Kuhl,

il est fa ile de diéren ier un re tangle d'un disque, et e, même si les images sont

outées ou en mosaïque (voir Figure 1). En fait, toutes les images omprenant des

formesgéométriquessimplespeuvent aisément êtreidentiéesave n'importequeltype

demodi ationsapportéesà l'image.

Nouspensonsqu'il enestdemême pourles langages:les langageslesplussimples,

reposant surdesnotions dedistan e etdon detopologie, doivent êtrere onnaissables,

même enprésen e debruit.

Nousnousintéresseronsenparti ulieràla lassedesboulesdemots,unebouleétant

déni omme l'ensemble desmots dont la distan epar rapportau entreest inférieure

à un ertainrayon. Contrairement à l'espa e eu lidien, les boules de mots ne sont pas

des objets sphériques et parfaitement symétriques. Néanmoins, elles peuvent être

apprisesà partir de donnéesbruitées.

De plus, les boules de mots sont en fait utilisées dans plusieurs autres travaux

où elles ne sont que rarement nommées. Elles servent alors à ee tuer des re her hes

approximatives de haînes de ara tères [SK83 , Nav01℄, e qui permet également de

(15)

Fig.1 Figures géométriquesbruitées.

Reste du manus rit

Ce mémoire de thèseest omposéde six hapitres. Lepremier hapitre ontient les

dénitions et notations élémentaires que nous utiliserons dans le reste du do ument.

Nous ydénissons entre autres la distan ed'édition qui nousservira à al uler la

dis-tan e entre deux haînes de ara tères, ainsi que la lasse des langages rationnels qui

seranotre pointde omparaison pour l'apprentissage àpartir de données bruitées.

Dans le hapitre 2, nous présentons les adres d'apprentissage standards de

l'inféren e grammati ale. Nous y dénissons en parti ulier la notion de requêtes de

orre tion. Nous montrons alors omment apprendre les langages rationnels dans les

diérents paradigmes introduits.

Le hapitresuivantreprésentele ÷urdelathèse:nousyexpliquonsdansunpremier

temps e qu'apprendre à partir de données bruitées signie. Puis nous montrons que

les langages rationnels, bases de la hiérar hie de Chomsky, ne sont pas résistants au

bruit.S'ensuit alorsunedis ussionsurlané essitéde onsidérer unenouvelle lassede

langage ommepointdedépartpouruneétudedel'apprentissageensituationsbruitées.

Nousdonnonsdansle hapitre 4 ladénitiondeplusieurs lasses delangagesbasés

sur la distan e d'édition dont nous pensons que l'apprentissage à partir de données

bruitées doit être possible. Nous étudions alors plus en détails les propriétés de l'une

d'entre elles,les boulesde mots.

Danslesdeuxderniers hapitres,nousmontronsquela lassedesboulesdemotspeut

être appriseàpartir de donnéesbruitées. Tout d'abord nousexhibonsdeuxte hniques

d'identi ationàlalimiteàpartirdedonnéesbruitéessystématiquementpourlesquelles

et apprentissage est possible. Puis nous terminons en proposant un modèle d'ora le

pouvantrépondreapproximativementàdesrequêtesde orre tion.Nousmontronsalors

(16)

Enn,dansla on lusion,nousdis utonsdesdiérentsrésultatsprésentésetdonnons

(17)

(18)

Dénitions

Le but de e hapitre est d'introduire les diérentes notations et dénitions

né es-sairesàla ompréhensiondurestedumanus rit.Nousrappelonslesdénitionsusuelles

de lathéorie deslangages (parexemple les automates) puisnous nousintéressonsaux

distan es entre haînes de ara tères, et enparti ulier àla distan ed'édition.

1.1 Mot et ordre

Nousallons parler delangagesformels. Danslavie ourante, unlangage estun

ensembledephrasesquisont onstituéesdemotsordonnéssuivant ertainesrègles(an

que la phrase appartienne au langage). Dans la théorie des langages, nous parlons de

lettres et demots pour parler respe tivement de motset de phrases.

Dénition 1 (Alphabet et mot) Un alphabet

Σ

est un ensemble ni non vide de

symboles appeléslettres. Noussupposerons par la suite que

|Σ| ≥ 2

, saufpré isé autre-ment. Un mot

u

(en ore appelé haîne ou séquen e) est une suite nie

u = a

1 a

2 . . . a

n

delettres de

Σ

. Le motvide (ne ontenant au une lettre) sera désigné par

λ

.

Exemple 1

ba, bbbbb, λ

et

a

sont quatre motsdénis à partir d'un alphabet ontenant au moins deuxlettres, par exemple

Σ = {a, b}

.

L'ensembledetouslesmots(y omprislemotvide)pouvantêtre onstruitsàpartir

de

Σ

estnoté

Σ

∗

.Soit

k

unentier,

Σ

k

,

Σ

≤k

et

Σ

>k

désignent respe tivement l'ensemble

desmots de longueur

k

, de longueur inférieure ouégale à

k

et de longueur stri tement supérieureà

k

.

Nousnotons

|u|

lalongueurdumot

u

,et

|u|

a

désignelenombred'o urren es d'une lettre

a

dans

u

.

Exemple 2 Les mots

u = abba

et

v = aaaa = a

4

sont de longueur

|u| = |v| = 4

, et appartiennent tous les deux à

Σ

4

,

Σ

≤10

ou en ore

Σ

>2

. Ils vérient

|u|

a

= |u|

b

= 2

,

(19)

Dénition 2 (Sous-mots et fa teurs) On dit qu'un mot

u

est un sous-mot de

v

, noté

u v

,si

u

estdénipar

u = a

1 a

2 . . . a

n

ets'ilexiste

n+1

mots

u

0 , u

1 , . . . , u

n

∈ Σ

∗

tels que

v = u

0 a

1 u

1 . . . a

n

u

n

.

est un ordre partiel sur

Σ

∗

. De plus, s'il existe deux mots

u

1 , u

2 ∈ Σ

∗

tels que

u

1 uu

2 = v

, alors

u

est unfa teur de

v

.

Exemple 3 Soient les mots

u = aba, v = aabaa

et

w = ababbaa

.

u

est alors un sous-mot de

v

qui est lui-même un sous-mot de

w

:

u v w

. De plus,

u

est un fa teur de

v

et de

w

, mais

v

n'est pas unfa teur de

w

.

Nous noterons

lcs(u, v)

(longest ommon subsequen es) l'ensemble des plus longs sous-mots ommuns à

u

et

v

.

Exemple 4 Soient les mots

u = abba

et

v = baab

,alors

lcs(u, v) = {aa, ab, ba, bb}

. Enn, l'ordre que nous utiliserons pour trier les mots est l'ordre hiérar hique (ou

en ore length-lex) :

Dénition 3 (Ordre hiérar hique) L'ordre hiérar hique

<

est déni par :

∀u, v ∈

Σ

∗

_{, u < v ⇐⇒ (|u| < |v|) ou (|u| = |v| et u <}

_lex

_v)

où

<

lex

est la relation d'ordre lexi ographique, 'est-à-dire l'ordre utilisé dans ledi tionnaire. Nous supposerons qu'il

existe un ordre sur l'alphabet

Σ

: par exemple,

a < b < c < . . .

Exemple 5 Soitl'alphabet

Σ = {a, b}

.Lesmotsde

Σ

∗

, lassésparordre roissantselon

l'ordre hiérar hique, sont

λ

,

a

,

b

,

aa

,

ab

,

ba

,

bb

,

aaa

,

aab

,

aba

,

abb

,

. . .

1.2 Langages et représentations standards

1.2.1 Dénitions

Dénition 4 (Langage) On appelle langage toute partie

L ⊆ Σ

∗

, 'est-à-dire tout sous-ensemble, ni ou inni,de

Σ

∗

.

Exemple 6 Soit

Σ

un alphabet ontenant au moins les lettres

a

et

b

. Les langages

Σ

≤100

et

{ab, ba, aab, baa}

sont des langages nisalors que

Σ

>2

et

{w ∈ Σ

∗

_{: |w|}

b

= 0}

(l'ensemble detous les motsne ontenant pas de

b

) sontdes langages innis.

Étantdonnéunensemblenidemots

X

,nousnoterons

kXk

lasommedeslongueurs desmots de

X

. La notation

| · |

estutiliséepour la ardinalitédesensembles.

Étant donnés

L

1

et

L

2

deuxlangagesdénissurunalphabet

Σ

, nouspouvonsalors dénir :

l'union des deux langages :

L

1 ∪ L

2

orrespondant à l'ensemble des mots de

Σ

∗

appartenant à

L

1

ou

L

2

,

l'interse tiondesdeuxlangages:

L

1 ∩ L

2

orrespondant àl'ensembledesmotsde

(20)

la diéren e symétrique desdeux langages:

L

1 ⊕ L

2

orrespondant à l'ensemble des mots de

Σ

∗

appartenant soit à

L

1

, soit à

L

2

(mais pas aux deux en même temps), et

la on aténation desdeuxlangages:

L

1 · L

2

orrespondant àl'ensembledesmots

w = uv

de

Σ

∗

dont

u

appartient à

L

1

et

v

appartient à

L

2

.

1.2.2 Grammaires

Les langagessont représentablesde plusieurs manières. L'une d'entre elles estsous

formede grammaire:

Dénition 5 (Grammaire) Une grammaire formelle est un quadruplet

hΣ, V, P, Si

où

Σ

est l'alphabet des terminaux (ou lettres),

V

l'alphabet des non-terminaux,

P ⊆

(V ∪ Σ)

∗

× (V ∪ Σ)

∗

unensemble de règles deprodu tion et

S ∈ V

l'axiome.

Au milieu des années 1950, Noam Chomsky a hiérar hisé quatre grandes lasses

de grammaire [Cho57 ℄. Ces lasses sont dénies par des ontraintes sur les règles de

produ tion :

Dénition 6 (Hiérar hie de Chomsky)

Les grammaires de type 0 n'ontau une ontrainte sur les règles deprodu tion.

Les grammaires de type 1 (ougrammairessensiblesau ontexte,enanglais

ontext-sensitive)ontdes règlesdeprodu tion quine ontiennentqu'unseulnon-terminal

enpartie gau he et une partie droite diérente de

λ

.

Les grammaires de type 2 (ou grammaires hors- ontextes, grammaires algébriques,

ou en ore grammaires ontext-free) ont des règles de produ tion dont les parties

gau hes sontformées d'un unique non terminal.

Les grammaires de type 3 (ou grammaires régulières, grammaires rationnelles) ont

des règlesde produ tion formées d'unnonterminalen partiegau he etsoit d'une

unique lettre, soit d'unelettre puisd'un non terminalenpartie droite.

À haque type de grammaire orrespond une lasse de langages (à

λ

près). Claire-ment, un langage représentable par une grammairede type 3 l'est par une grammaire

detype 2,et don 1et biensûr0.

Un langage est dit régulier s'il est représentable par une grammaire régulière. De

même, il est dit purement hors- ontexte s'il peut être représenté par une grammaire

hors- ontexte, maispaspar une grammairerégulière.

1.2.3 Automates

Dénition 7 (Automate ni) Un automateni est unquintuplet

A = hΣ, Q, I, F, δi

où :

Σ

est unalphabet ni,

Q

est unensemble ni d'états,

(21)

F ⊆ Q

est unensemble d'états dits états nauxou a eptants, et

δ

est une fon tion detransition de

Q × Σ → 2

Q

.

L'automate est dit ni ar il possède un nombre ni d'états. Ce nombre d'états sert

généralement ommetailledel'automate.Nousdénissonsdon latailled'un automate

A

omme étant

|A| = |Q|

.

Nous étendons la fon tion de transition à une fon tion de transition sur les mots

δ : Q × Σ

∗

→ 2

Q

. On dit quel'automate

A

a epte le mot

w ∈ Σ

∗

si

∃q ∈ I, δ(q, w) ∩

F 6= ∅

. Dans le as ontraire, on dit qu'il le rejette. Le langage re onnu par

A

est

L(A) = {w ∈ Σ

∗

_{|∃q ∈ I, δ(q, w) ∈ F }}

Exemple 7 Soit l'automate

A = hΣ, Q, q

0 , F, δi

(voir Figure 1.1).

A

re onnaît le lan-gage

a

+

_b

+

. La taille del'automate est de

|A| = |Q| = 3

.

1 2

0

a

b

a

b

Fig. 1.1 Automatere onnaissant lelangage

a

+

_b

+

.

Les langagesditréguliers sont re onnus par desautomates nisdéterministes.

Dénition 8 (Automate ni déterministe (afd)) Un automate ni déterministe

est un automate ni tel que :

I = {q

0 }

, 'est-à-dire qu'il n'ya qu'un état initial,et

∀q ∈ Q, ∀a ∈ Σ, |{q

′

_{: δ(q, a) = q}

′

_{}| ≤ 1}

, 'est-à-dire que pour haqueétat, ilexiste

au plusune transition sortante par lettre de

Σ

.

Autrement dit, un automate ni est déterministe, si quelque soit

w ∈ Σ

∗

, il existe

une unique façon d'a epter ou de rejeter

w

. L'automate donné Figure 1.1 n'est pas déterministe. Eneet,le mot

aab

peut être a epté (ou parsé) de plusieurs façons:

soiten lisant lepremier

a

parlabou lesur

q

0

, puislese ond parlatransitionde

q

0

à

q

1

,

soitenlisantlepremier

a

parlatransitionde

q

0

à

q

1

,puislese ondparlabou le sur

q

1

.

Pour haqueautomateni nondéterministe, ilexisteunautomateni déterministe

re onnaissant exa tement lemême langage.

Exemple 8 Si nous supprimons la bou le sur l'état

0

de l'automate de la Figure 1.1, nous obtenonsun automate ni déterministe re onnaissant le même langage

a

+

_b

+

(22)

L'étape pour passerd'un afn(automate ni non déterministe)àun afd est

appe-lée déterminisation. De plus, pour haque langage re onnu par un afd, nous pouvons

onstruire un afd minimal en nombre d'états. Cet afd minimal alors unique est

ap-pelé automate anonique. Minimiser un automate est un problème polynomial. Nous

pouvons don déterminer si deux afd sont équivalents, 'est-à-dire s'ils re onnaissent

lemêmelangage,enles minimisant :ils lesontsilesautomates anoniquessont égaux.

1.3 Distan es entre mots

Une notionimportante quenousallonsutiliserest ellededistan e. Silorsque nous

parlonsdedistan edanslavie ourante,ilestétablique e soitladistan eeu lidienne,

qu'en est-il desdistan es entremots?Par exemple,le mot arré est-il plus pro he du

motrond oudumotre tangle?Toutdépendenfaitdeladistan eutilisée.Aupréalable,

rappelons ladénitionmathématique d'unedistan e :

Dénition 9 Onappelle distan e sur un ensemble

E

une appli ation

d : E × E → R

+

vériantles propriétés suivantes:

1. Séparation :

d(x, x) = 0

2. Symétrie :

d(x, y) = d(y, x)

3. Nonnégativité :

d(x, y) ≥ 0

Lorsque la distan e vérie en plus les deux onditions suivantes, elle dénit une

métrique 1

:

1. Identité desindis ernables :

d(x, y) = 0 =⇒ x = y

2. Inégalitétriangulaire :

d(x, y) + d(y, z) ≥ d(x, z)

Exemple 9 Soient

x

et

y

deux ve teurs tels que

x = [x

1 , . . . , x

n

]

et

y = [y

1 , . . . , y

n

]

, ave

∀i ≤ n

,

x

i

∈ N

.Des exemples typiquesde distan e sontalors :

la distan e dis rète, dénie par

d(x, y) =

0 si

x = y

1 sinon

la distan e eu lidienne, dénie par

pP

n

i=1

|x

i

− y

i

|

2

la distan e de Minkowski,dénie par

p

pP

n

i=1

|x

i

− y

i

|

p

ave

p ≥ 1

(ou

p

-norme). La distan e eu lidienne est alors la

2

-norme.

Cesdistan essontlargementutiliséssurdesdonnéesnumériques(ve torielles).Elles

sonten revan he laplupart dutemps inutilisablesen l'étatsurdesdonnéesstru turées

omme les arbres,les graphesou les haînes.

Cal uler la distan e entre deux données stru turées revient la plupart du temps à

al ulerladistan eentrelesstru tures.Biensouvent,onsedonneunensemble

d'opéra-tions réalisableset on ompte lenombre minimum d'opérations àee tuerpour passer

1

Enréalité,unemétriqueausensmathématiquedutermedoitvérier(i)

d(x, y) ≥ 0

,(ii)

d(x, y) =

0 ⇔ x = y

,(iii)

d(x, y) = d(y, x)

et(iv)

d(x, z) ≤ d(x, y) + d(y, z)

.Telle qu'on ladénit, 'est-à-dire

(23)

d'unestru tureàune autre.Cependant,pluslastru tureest omplexe,plusladistan e

est di ile à al uler : le al ul de distan e entre deux graphes onsiste simplement à

supprimer et à ajouter des sommets et des arêtes pour passer d'un graphe à l'autre.

Cependant, al uler ettedistan epeutalorsêtreexponentieldanslenombre den÷uds

desgraphes...

En revan he, al uler la distan eentre deux haînes se fait généralement en temps

polynomialdanslalongueur de es haînes.

1.3.1 Distan e d'édition

Unedistan efréquemmentutiliséepour omparerdeux haînesestladistan e

d'édi-tion,introduite en1965parLevenshtein[Lev65 ℄.Cettedistan eutilise troisopérations,

appeléesopérations d'édition (ou opérations atomiques) :

l'opération d'ea ement, ou desuppression : elle transforme un mot

w = uav

en

w

′

= uv

ave

u, v ∈ Σ

∗

et

a ∈ Σ

;

l'opération d'insertion : opération inverse de la suppression, elle transforme un

mot

w = uv

en

w

′

_{= uav}

ave

u, v ∈ Σ

∗

et

a ∈ Σ

;

l'opération de substitution : pouvant s'apparenter à une suppression suivie d'une

insertion,elle transforme unmot

w = uav

en

w

′

= ubv

ave

u, v ∈ Σ

∗

,

a, b ∈ Σ

. À haque opération d'édition est attribuée un oût. La distan e d'édition est alors

dénie omme lasomme minimaledes oûts des opérations permettant de passerd'un

motà un autre.

Il existeplusieursvariantesàladistan ed'édition.Desvariantesutilisantdes

trans-positionde deuxlettres,voire desdépla ementsde sous-mots[CM07, SS07℄,et des

va-riantes utilisantdiérentspoids, omme par exemple ladistan e deHamming[Ham50 ℄

qui n'utiliseque lesopérations desubstitutions et quiest don un asparti ulier de la

distan ed'éditionave un oûtinnipour lesopérationsd'ea ement etd'insertion, et

un oûtunitairepour l'opération de substitutions.

Dans ertainesappli ations, omme enbiologieparexemple,ilestné essaired'avoir

despoidsd'éditiondiérents, voiredépendantsdu ontexte.Parexemple,uneinsertion

enmilieu demotpeut êtreplus oûteuse qu'en nmot,lerempla ement d'un

a

parun

b

être plus her que elui d'un

b

par un

c

...Certains travaux visent don à apprendre les poids de la distan e d'édition avant de l'utiliser [RY96, BJS06, OS06 ℄. D'autres

enri hissent la distan e d'édition en autorisant des opérations plus omplexes omme

substituerdeuxlettres par une seule,par exemple hangerph par f [BM00℄.

Saufindi ations ontraires,nous onsidéreronsdanslasuitedumanus ritquele oût

destrois opérations d'édition est unitaire. Dans e as, nouspouvonsalors redénir la

distan ed'édition omme suit :

Dénition 10 (Distan e d'édition) La distan e d'édition entre deux mots

w

et

w

′

,

notée

d(w, w

′

₎

, est lenombre minimum d'opérations d'édition né essaires pour réé rire

w

en

w

′

.

Exemple 10 Soient

w = babab

et

w

′

_{= abbaa}

.

d(w, w

′

_{) = 3}

. En eet, pour passer du

mot

w

à

w

′

(24)

et de rempla er le dernier

b

par un

a

. Comme il n'existe au une opération permettant depasserdire tement de

w

à

w

′

,la distan e d'édition entre lemot

w = babab

etlemot

w

′

_{= abbaa}

est don de trois.

Une propriété de la distan e d'édition que nous utiliserons souvent stipule que la

distan eentredeux motsest aumoinségale auxnombres d'insertions né essairespour

égaliser leslongueurs de es deuxmots :

Proposition 1 Pour tous mots

w, w

′

_{∈ Σ}

∗

,

d(w, w

′

_{) ≥}

|w| − |w

′

|

. De plus,

d(w, w

′

₎

=

|w| − |w

′

|

siet seulement si (

w w

′

ou

w

′

_w

).

Pour al uler la distan e entre deux mots, il existe souvent plusieurs suites

d'opé-rations possibles ayant un oût minimum. Dans l'exemple 10 i-dessus, nous pouvons

également utiliser troissubstitutions pour passerde

w

à

w

′

: substituerle premier

b

et le dernier

b

par des

a

puis le premier

a

par un

b

. La séquen e d'opérations ee tuées pour passerd'un mot àl'autre estalors appelées ript d'édition.

Dénition 11 (S ript d'édition) Le s riptd'édition est une suite de ouples

(a

i

, b

i

)

telsque

1. haque ouple représente :

la suppression de la lettre

a

i

si

b

j

= λ

, l'insertion dela lettre

b

j

si

a

i

= λ

et la substitution de la lettre

a

i

par

b

j

.

2. les on aténations

a

0 a

1 a

2 · · ·

et

b

0 b

1 b

2 · · ·

sontrespe tivementégalesà

w

et

w

′

,un

s riptd'édition étantexé uté de gau he à droite :le s ript

(a, b)(a, λ)

transforme don lepremier

a

de

aa

en

b

etsupprime lese ond

a

.

Exemple 11 Pour passer de

w = babab

à

w

′

_{= abbaa}

, ilexiste quatre s ripts d'édition

permettant de al uler

d(w, w

′

₎

:

(b, a), (a, b), (b, b), (a, a), (b, a)

(b, λ), (a, a), (λ, b), (b, b), (a, a), (b, a)

(λ, a), (b, b), (a, λ), (b, b), (a, a), (b, a)

(b, λ), (a, a), (b, b), (λ, b), (a, a), (b, a)

Une façon plus visuelle mais équivalente permettant de représenter la suite

d'opé-ration utilisée dans le al ul de la distan e d'édition s'appelle l'alignement. On pla e

des espa esà l'intérieur(ainsiqu'auxextrémitéssiné essaire) de

w

et

w

′

et onles

pla el'un au-dessusde l'autre anqu'ilss'alignent :

Exemple 12 Le s ript d'édition

(b, λ), (a, a), (λ, b), (b, b), (a, a), (b, a)

est équivalent à l'alignement :

b a λ b a b

|

(25)

Une autre représentation, elle que nous utiliserons le plus souvent, s'inspire des

dérivations de réé riture. Étant donnés deuxmots

w, w

′

_{∈ Σ}

∗

, on dit que

w

seréé rit en

w

′

enun pas, noté

w −

→ w

′

siune desopérationsd'édition a étéappliquée. Onnote alors

w

k

−

→ w

′

si

w

peut seréé rireen

w

′

àl'aidede

k

opérations d'éditionet

w

∗

−

→ w

′

la fermeturetransitiveetréexivedeladérivation:

∗

−

→=

S

k≥0

k

−

→

.Dans e as 2 ,ladistan e

d'édition estleplus petit entier

k ∈ N

tel que

w

k

−

→ w

′

.

Exemple 13 Le s ript d'édition

(b, λ), (a, a), (λ, b), (b, b), (a, a), (b, a)

peut être repré-sentéparladérivation

babab −

→ abab −

→ abbab −

→ abbaa

.Ilestànoterqu'unemême déri-vationpeutreprésenterplusieurss riptsd'édition.Ainsi

babab −

→ abab −

→ abbab −

→ abbaa

représente également

(b, λ), (a, a), (b, b), (λ, b), (a, a), (b, a)

.

1.3.2 Programmation de la distan e d'édition

Ilexisteplusieursfaçonsdeprogrammerle al uldeladistan ed'édition.Laplupart

visentàaméliorerla omplexitédel'algorithmegénéralreposantsurlaformulesuivante:

d(ua, vb) = min







d(ua, v) +

cout(insertion)

d(u, v) + cout(substitution)

d(u, vb) +

cout(suppression)

(1.1)

où

cout(insertion), cout(substitution), cout(suppression)

représentent respe tivement le oût d'une insertion, d'une substitution et d'une suppression dans le as plus

géné-ral où le oût de haque opération peut être diérent. Les algorithmes que nous

al-lons donner seront généralement dénis pour

cout(insertion) = cout(substitution) =

cout(suppression) = 1

.

L'Algorithme 1 est l'algorithme de base du al ul de la distan e d'édition entre

deux mots

u

et

v

[WF74℄. Son but est de remplir une matri e

M

de telle façon que

M

|u| + 1|v| + 1

ontienne la distan e d'édition

d(u, v)

, en al ulant la distan e d'édition entre haquepréxe de

u

et

v

.

Par exemple, le al ul de la distan e d'édition entre

u = babab

et

w = abbaa

par l'Algorithme1 permet deremplir

M

de lamanière suivante :

u

λ(0) a(1) b(2) b(3) a(4) a(5)

v

λ(0)

0

1

2

3

4

5 b(1)

1

2

3

4 a(2)

2

1

2

3 b(3)

3

2

1

2

3

3 a(4)

4

3

2

3 b(5)

5

4

3

2

3

On omprend alors lairement pourquoi l'algorithmeest orre t : son invariant est

qu'ilpermetde passerdu mot

u

1 · · · u

i

au mot

v

1 · · · v

j

enutilisant unnombre minimal de

M [i][j]

opérations d'édition(grâ e à l'équation1.1).

(26)

Algorithme 1 : Algorithmegénéral du al ul de ladistan ed'édition

Données: Deuxmots

u

et

v

Résultat :

d(u, v) = M

|u| + 1|v| + 1

M [0][0] ← 0

; 1

// Initialisation de la olonne

pour

i ← 0

à

|u|

faire 2

M [i + 1][0] ← M [i][0] + 1

; 3 npour 4 // Initialisation de la ligne pour

i ← 0

à

|v|

faire 5

M [0][i + 1] ← M [0][i] + 1

; 6 npour 7

pour

i ← 0

à

|u|

faire 8 pour

j ← 0

à

|v|

faire 9

M [i + 1][j + 1] ← min







M [i][j + 1] + cout(insertion)

M [i][j] + cout(substitution)

M [i][j + 1] + cout(suppression)

; 10 npour 11 npour 12

1.3.3 Extensions de la distan e d'édition

Bien qu'utilisant la programmation dynamique, l'Algorithme 1 a une omplexité

temporelle et spatialede

(|u| + 1) × (|v| + 1)

(due auremplissage du tableau).

Cette omplexité peut alors être trop importante si nous travaillons sur de très

longues haînes.Une première amélioration plutttriviale on ernealors la omplexité

spatiale.Eneet,pluttquedegarderenmémoiretoutletableau,seuleladernièreligne

remplie est utile pour ompléter la suivante. Onpeut alors adapter l'algorithme pour

travaillerave untableauàdeuxlignesetainsiavoirunetaillede

2 × 1 + min(|u|, |v|)

.

Une autre amélioration on erne la omplexité temporelle. Cetteidée vient des

au-teurs Arlazarov, Dini , Kronrod et Faradzev[ADKF70 ℄ et a été adaptéepar Masek et

Paterson [MP80 , MP83 ℄. La te hnique, dite des quatreRusses, onsiste à partitionner

letableau

M

enblo sdetaille

m × m

,et àpasserseulement untempsen

O (m)

plutt

qu'en

O m

2

sur ha undesblo s.Pour ela, ellepartdu onstat que haque asedans

M

nepeutdiérerqu'aumaximumd'unevaleurde

1

ave une aseadja ente. L'amélio-ration onsistealors à oder les blo save desve teursdevaleursdans

{−1, 0, 1}

dans lespremièreset dernièresligneset olonnesde haqueblo .Un pré- al ulsurtoutesles

façonsd'obtenir unblo permet d'arriver aurésultat. Aunal, late hnique desquatre

Russespermet de al uler ladistan e d'édition entre deux mots de longueurs

n

en un

temps

O

n

2 log n

grâ eà unpré- al ul en

O n(log n)

2

.

(27)

O |u| + d(u, v)

2

et de pire omplexité en

O |u| × d(u, v)

. Du oup,lorsque

d << n

, 'est-à-dire lorsque nous savons que les mots auront une faible distan e par rapport à

leurlongueur(lorsquenous omparonsune haîned'ADNetsamutationparexemple),

etalgorithmeserabien plusrapidequel'Algorithme 1.Demême, dans[All92 ℄Allison

tireavantagedelaprogrammationfon tionnelle 3

pourdonnerunalgorithmeen

O |u|×

(1+d(u, v))

.Danslesdeux as,aulieuderemplirletableau

M

ligneàligne,lesauteurs s'intéressentà ladiagonaledutableau.La omplexité spatiale estalors en

O d(u, v)

2

.

Le le teur désireux d'en savoir plus sur le al ul de la distan e d'édition pourra

onsulter desouvrages omme [Gus97 ,CHL01 ℄.

Il est également intéressant de noter qu'en gardant en mémoire un pointeur sur la

ased'oùprovientlerésultatde

M [i][j]

, onpeutretrouverless riptsd'éditionainsique les alignements entemps polynomial.

Outre danslestravaux ités i-dessus,ladistan ed'édition entre haînesestutilisée

dansdiversesappli ations. Ellepeutservir entant qu'aideàlare onnaissan ede

poly-goneslorsqu'elleestutiliséesurdesmots y liques[Mae91 ℄,d'esquissesfaitesà lamain

[LTZ96℄, d'empreintes digitales [JPHP00 ℄ouplus simplement de ara tères manus rits

[CSS99 ℄.

Destravauxdebiologiel'emploient aussipour al ulerdesdistan esentrestru tures

arn [JLMZ02℄ ou pour omparer des génomes [San92 ℄. En linguistique, elle aide à

la dé ouverte de morphèmes [HMGS05℄, à la orre tion orthographique de langages

agglutinatifs [OG94 ℄ et elle permet de dénir des analogies entre séquen es [MBD05℄.

On la trouve également en omparaison ou re her he de musiques [LU00 ℄, de vidéos

[ALK99 ℄,d'ontologies [MS02℄ ou defouille duweb [GG08℄.

Enn, elle peut aussi être étudiée en tant quedistan e. Dans[OR07℄ par exemple,

les auteurs montrent que la distan e d'édition peut être ramenée à une distan e de

Manhattan, lorsqu'elleestutiliséesurdesmotsbinaires,ave une faibledistortion.Des

travauxplus lassiquesseservent de ses propriétés dedistan e pour de lare her he de

pluspro hesvoisins [MOV94, Ind04℄.

(28)

Les adres d'apprentissage

Eninféren egrammati ale,apprendrerevientàprésenterunehypothèse onsistante

ave les données qui sont portées à notre onnaissan e. An de savoir si nous avons

bien appris, il onvient de onnaître e que nous voulions apprendre, à partir de

quoi,et ombien detempsa éténé essairepour formuler noshypothèses.

Laqualité durésultatd'apprentissage vafortement dépendredesexemplesque

l'al-gorithmeaura. Par exemple,s'il nevoitqu'un ensembleni de données positives, il va

être di ile de généraliser : si un apprenant ne généralise pas susamment, il risque

unapprentissagepar ÷ur, 'est-à-direre onnaîtreuniquementlesdonnéesdéjà vues,à

l'inverses'ilgénéralisetrop,ilrisquederetournerrapidement deshypothèsesa eptant

pratiquement tousles mots de

Σ

∗

.

Danslereste dumanus rit,nousallonsnousintéresser àl'apprentissage dediverses

lasses delangages. Cequi nousintéresse en parti ulierest l'apprentissage de langages

à partir de données bruitées. En eet, en pratique, les données dont nous disposons

sont bruitées, 'est-à-dire que parmi les données d'apprentissage, ertaines ont subi

desmodi ations.An de formaliserl'apprentissage à partir dedonnées bruitées, nous

allonsau préalablenousintéresser à e quesignieapprendre.

L'apprentissage se fait à partir de données et un apprenant peut les obtenir de

deux moyens diérents : soit une séquen e d'informations existe et l'apprenant peut

les prendre une par une, soit il peut demander de l'information à un ora le. Pour es

deuxmoyens,l'évaluationdel'apprentissagepeutsefaired'unpointdevueprobabiliste

(sommes-nousplusoumoinspro hedelaréponse?),oud'unpointdevueasymptotique

(avons-nousouiou nonlabonne réponse?).

Dans e hapitre nous nousintéresserons dans un premier temps aux objets à

ap-prendre. Nous étudierons ensuite les troisparadigmes habituels d'apprentissage

ara -térisant quellessont les bonnesfaçonsd'apprendre :

l'identi ation à lalimite : lesdonnées sont subies et l'apprenant doittrouver la

bonne réponse;

l'apprentissagea tifouapprentissageàpartirderequêtes:l'apprenant hoisitses

données via unora le et l'apprenant doittrouver exa tement laréponse;

(29)

l'éva-luation de l'apprentissage sefaitde façon probabiliste.

Enn, nousverrons omment apprendre les afddans esdiérents adres.

2.1 Classes de langages et représentations

Lorsque nousvoulonsidentier unlangage,nousavonsle hoixentreplusieurs

lan-gages. Nous allons don identier la ible parmi une lasse de langages. De plus, les

hypothèsesquenousémettonsnesontpasretournéessousformesdelangagesmaissous

formesde représentations.

Soient

L

une lassede langageset

R(L)

une lasse dereprésentations deslangages de

L

.Typiquement,les lassesdelangagesquenous onsidéreronsserontparexempleles langagesréguliersoualgébriques,etles lassesdereprésentationsserontlesgrammaires

algébriques oules automates nisdéterministes.

Les lasses de langages

L

et de représentations

R(L)

sont reliées par une fon tion dite de nommage

L

: R(L) → L

qui pour n'importe quelle représentation retourne le langage orrespondant. Cettefon tionestune fon tionqui esttotale, 'est-à-dire

∀G ∈

R(L), L(G) ∈ L

. De plus, elle est surje tive :

∀L ∈ L, ∃G ∈ R(L)

telque

L

(G) = L

. Il est à noter qu'elle n'est ependant pas né essairement inje tive. En eet, un même

langage peut être représenté de plusieurs façonsdiérentes.

Pour n'importe quels mots

w ∈ Σ

∗

et langage

L

, nous é rirons

L |= w

si

w ∈ L

. Demême, omme lesgrammaires peuventêtrevues ommeunensembled'informations

permettant à unanalyseur, enanglais parser, de re onnaître desmots, pour n'importe

quel mot

w ∈ Σ

∗

et grammaire

G

, nousé rirons

G ⊢ w

si l'analyseur re onnaît

w

. La syntaxe et la sémantique sont alors liées par la fon tion de nommage :

G ⊢ w ⇐⇒

L

_{(G) |= w}

.

Nous allons également nous intéresser par la suite à des problèmes de omplexité :

quels langages sont apprenables en peu de temps? Quels sont eux qui ne le sont pas

même ave beau oup de données? Pour ela il nous faut pouvoir mesurer la taille

des représentations et en parti ulier, les tailles des grammaires. Cette taille doit être

raisonnabledanslesensoùunlangagepossédantpeudedonnéesoupouvantêtredé rit

simplement,doitavoirunetaillepluspetitequ'unlangageexponentiellementplusgrand.

Généralement, lataille d'unegrammaire

G

estpolynomialement liée aunombre debits né essaires pour en oder

G

. Nous utiliserons

kGk

pour noter ette taille. En e qui on erne les automates,leurtaille seraleur nombre d'états.

2.2 Identi ation à la limite

Dansleparadigmestandardd'identi ationàlalimitedeGold,unapprenantreçoit

uneséquen einnied'informations.Cetteséquen edoitl'aideràtrouver exa tement la

(30)

2.2.1 Notations préliminaires

Pour l'apprenant, tout se passe omme si une quantité innie de données arrivent

sansdis ontinuer. Cettesuite d'information s'appelle uneprésentation :

Dénition 12 (Présentation) Soit

L

une lasse de langages, une présentation de

L ∈ L

est une fon tion

N

→ X

où

X

est un ensemble. Étant donnée une présentation f, nous noterons f

m

l'ensemble

{

f

(j) : j < m}

des

m + 1

premiers éléments def, et f

(n)

son

n

-ème élément.

Nous notons Pres

(L)

un ensemble de présentations. Une présentation dénote un langage de

L

. En d'autres termes, il existe une fon tion

yield :

Pres

(L) → L

. Si

L = yield(

f

)

alors nous dirons que f est une présentation de

L

, ou f

∈

Pres

(L)

.

Ave ette dénition, les présentations sont à prendre au sens large : e sont des

séquen es de n'importe quel type d'informations pouvant aider à l'apprentissage du

langage.

Typiquement,lesdonnéesquiarriventsontdesmotsétiquetésdulangage ible,mais

e n'est pastoujoursle as.

Exemple 14 Considérons lelangage

L = a

+

_b

+

.

Si les mots de la présentation sont uniquement des mots appartenant au langage

ible,

X

vaut

Σ

∗

. Si en outre,

yield(

f

) =

f

(N)

, alors la présentation est appelée untexte. Dans e as, nousnoteronsalors Pres

=

Texte .

Parexemple, f

= {aab, abbbb, ab, aab, . . .}

n'est omposée que demotsappartenant à

L

. Si tousles mots de

L

sont présentés alors f est aussi untexte.

Lorsque la présentation est omposée de paires étiquetées

(w, l)

où

(w ∈ L ⇒

l = +)

et

(w 6∈ L ⇒ l = −)

, 'est-à-dire à lafoisd'exemples positifsetd'exemples négatifs, nousparleronsd'un informateur.Nousavonsalors

X = Σ

∗

_{× {+, −}}

et

sif

(N) = L(G) × {+} ∪ L(G) × {−}

, nous noterons Pres

=

Informateur. Soit f

′

_{= {(aab, +), (bab, −), (aa, −), (abb, +), (aaba, −), . . .}}

. f

′

est une

présen-tation de

L

qui est onsidérée omme un informateur si tous les mots de

Σ

∗

apparaissent.

TexteetInformateur sonthabituellementles deuxtypesdeprésentations

uti-lisées. Toutefois,

X

peut aussi être plus restreint : ela peut être une suite de préxes des mots du langages, des indi ations sur la pla e des lettres dans les

mots,leur nombre et .

NousnoteronsPres

=

Presentation lorsquenousvoudronsparlerindiéremment

d'un Texteou d'un Informateur.

Ensuite,pourapprendre,nousauronsbesoind'unalgorithme d'apprentissage,

'est-à-dire d'un programme qui utilisera une présentation an de retournerdes hypothèses

(31)

représenta-Dénition 13 (Algorithme d'apprentissage) Un algorithme d'apprentissage Alg

estunprogramme prenant les

n

premiersélémentsd'uneprésentation etretournantune représentation : Alg

:

[

f

∈

Pres

(L),i∈N

{

f

i

} → R(L)

Notez qu'étant données deux présentations

f

et

g

, si

f (N) = g(N)

alors

yield(f ) =

yield(g)

. En eet, si tel n'était pas le as,

L

ne serait pas apprenable à partir de Pres

(L)

: deux langages partageant à l'inni une même présentation ne peuvent pas êtredistinguésl'undel'autre. Ilendé oule quesi

f ∈

Pres

(L)

et

g : N → X

telles que

g(N) = f (N)

alors

g ∈

Pres

(L)

.

2.2.2 Identi ation à la limite sans ontraintes de polynomialité

L'identi ationàlalimiteréussitsiàun ertainrangdelaprésentation,l'algorithme

arriveàretournertoujourslamême hypothèse, elle orrespondantaulangage ible.La

dénitionsuivante estune modi ationde ellede [Gol78℄:

Dénition 14 On ditque

G

est identiable à la limite à partir de Pres s'il existe un algorithme Alg tel que pour tout

G ∈ G

et pour toute présentation f de

L

(G)

, il existe un rang

n

tel que pourtout

m ≥ n

, Alg

(

f

m

) =

Alg

(

f

n

)

et

L

(

Alg

(

f

m

)) = L(G)

.

L'identi ation à lalimite onduit parfoisàdesrésultats négatifs.En parti ulier:

Théorème 1 ([Gol67℄) Soit

L

une lasse de langages,si

L

ontient tousles langages nis et au moins un langage inni (on dit alors que la lasse est super nie), alors

L

n'est pas apprenable.

Toutefois, l'absen e de ontraintes onduit souvent à des résultats d'apprentissage

positifs,mais à des algorithmes inutilisables en pratique. C'est pourquoi plusieurs

au-teurs ont essayé de dénir une identi ation à la limite polynomiale, en introduisant

diérents ritères d'e a itéet en les ombinant.

2.2.3 Contrainte de temps de mise à jour

An de pouvoir utiliser on rètement les algorithmes d'apprentissage, il est

né es-saireque eux- i n'utilisent qu'une petite quantité de temps à haque nouvelle donnée

reçue, sous peine de ne pas pouvoir onnaître le résultat de l'apprentissage avant un

long moment. Il estdon raisonnable de penser quela polynomialité doit on erner la

quantité de temps dont l'algorithme disposepour apprendre :

Dénition 15 (Temps de mise à jour polynomial) On dit qu'un algorithme Alg

a un temps de mise àjour polynomial s'il existe un polynme

p()

tel que, pour haque présentation fet haque entier

n

, onstruire Alg

(

f

n

)

né essiteuntempsen

O(p(k

f

(32)

Cette ontrainte de temps de mise à jour polynomial n'est pas ependant pas

sa-tisfaisante. Dans [Pit89 ℄, Pitt montre en eet que même ave ette ontrainte, un

ap-prenant pourraitrésoudre un problème

N P

-di ile : il lui surait en eet d'attendre patiemment tout en re evant desexemples. Lorsqu'il a a umulé un nombre

exponen-tield'exemples,ildisposeraitalorsd'unequantité detemps susantepourrésoudreun

problème

N P

-di ile...

Plusieurs autres ritères sont alors envisageables en plus de la ontrainte de temps

demiseà jour : laquantité d'exemples reçus,lenombre de foisoùl'apprenant faitune

faussehypothèse ouen ore lenombre defois oùil hange d'avis.

2.2.4 Contrainte de hangement d'avis

Le se ond ritèredepolynomialitéquenousprésentons on erne don lenombre de

foisoù l'apprenant hange d'avis(Mind Changes, notéM ) [AS83 ℄:

Dénition 16 (Changement d'avis (M )) Étant donnésunalgorithmeAlg etune

présentation f, on dit que Alg hange d'avis au temps

n

si Alg

(

f

n

) 6=

Alg

(

f

n−1

)

. On ditque Alg est onservatif s'ilne hange jamaisd'avis lorsque son hypothèse ourante

est onsistante ave lenouvel élément présenté.

Dans e as,l'apprentissageseraalorsbonsilenombrede hangementd'hypothèses

n'est pastropgrand :

Dénition 17 (Identi ation M polynomiale) Un algorithme Alg identie une

lasse

G

à la limite entemps M polynomialsi 1. Alg identie

G

à la limite,

2. Alg a untemps de mise à jour polynomialet

3. Alg fait un nombre polynomial de hangement d'avis : il existe un polynme

p()

tel que, pour haque grammaire

G

et haque présentation f de

L

(G)

,

#

M

(

f

) ≤

p(kGk)

où

#

M

(

f

)

est le nombre de M :

#

M

(

f

) = |{k ∈ N :

Alg

(

f

k

) 6=

Alg

(

f

k+1

)}|

.

Notons queladernière onditionn'implique pasles deuxautres.

Exemple 15 Soient le langage

S

n

= {a

i

_{: n ≤ i ≤ n + 9}}

et la lasse de langages

S

omprenant tous les langages

S

n

, ∀n ∈ N

+

. Chaque langage omprend don

10

motset

∀i, j ∈ N, 0 < i < j, S

i

6⊆ S

j

,puisque

a

i

n'estpasdans

S

j

et

a

j+10

n'appartientpas à

S

i

. Soit l'algorithmesuivant :

1. Lire la donnée f

(n)

, soit

u

la plus petite des données def et

v

la plusgrande. 2. Si

|v| = |u| + 9

retourner

S

|u|

sinon, retourner

S

1

. 3. Aller en1.

Cet algorithme identie à la limite

S

en faisant un seul hangement d'hypothèse. En eet, l'algorithme n'a pas besoin d'être onsistant. Il peut don attendre d'avoir les

11

motsdu langages(tout dumoinsles deuxbornes)pourformulerson hypothèse. Deplus,