don-d'exemples d'apprentissage [BL97 ℄. La première onsiste à nettoyer ou ltrer les
don-nées d'apprentissage. Nous parlons alors d'algorithme de type lter : par exemple, si
un mot n'a pasd'étiquette, s'il est étiqueté à la fois positif et négatif, ou en ore s'il a
une lettre qui n'appartient pasà l'alphabet, il peut être judi ieux de l'enlever de
l'en-semble d'apprentissage ou de le orriger. Une fois les données puriées, nous pouvons
alors utiliserun algorithmed'apprentissage lassique.Cetteméthode aen revan he un
in onvénient majeur : sinousne disposonsque depeu ded'exemples ou siles données
étaient trèsbruitées, lenombre d'exemplesrestant peut devenirtropfaiblepourréussir
àidentier la ible.
Lase ondeappro heviseàapprendretoutensa hantquelesdonnéessontbruitées,
et don à onstruire des algorithmes résistants au bruit pendant l'inféren e. C'est la
stratégieutiliséeparlesalgorithmesdetypewrapper.Sidetouteéviden e,unalgorithme
qui apprend à partir de données pures ne peut pas servir en l'état à l'apprentissage
à partir de données bruitées, il est parfois possible de le modier sans faire trop de
hangements ande lerendre résistantau bruit.
Quelque soitlastratégie employée,lebutde l'apprentissage onsistealors àessayer
d'apprendretoutensa hantquelesdonnéessontbruitéesetdon àessayerdedistinguer
lesvraies données desdonnéesbruitées, que e soitavant ou pendant l'inféren e.
Supposons maintenant quenousayons onstruit un algorithme quisoit ensé
iden-tier à partir de données bruitées. Comment tester et algorithme? En eet,les
para-digmesquenousavonsprésentésauChapitre2sonta priori inadaptésàl'apprentissage
ensituationsbruitées.Nousallonsvoirmaintenant ommentgérerlebruitlorsde
l'iden-ti ationà lalimite et en apprentissage a tif.
3.2.1 Le bruit dans l'identi ation à la limite
An de modéliser des données bruitées, la plupart destravaux d'identi ation à la
limite sebasent surune distribution de bruit statistique. Ainsi, le but estd'apprendre
àpartird'un ensemblede données,oud'uneprésentation, ontenant un ertainnombre
de mots bruités suivant ette distribution. De e fait, ertains travaux utilisent des
automatessto hastiquespourgérerles donnéesbruitées, 'est-à-dire,desautomatesoù
nousasso ionsàlafon tiondetransitionune ertaineprobabilité[Ang88a ℄.Demêmeles
étatsseronttousnauxselonune ertaineprobabilité.L'automate apprisestalors bien
souvent seulement uneapproximationde l'automate ible, danslesensoù ladiéren e
symétriqueentrelesmots pouvant êtregénérés par l'automateappris et euxre onnus
par l'automate ible est faible, mais rarement nulle. L'identi ation n'est alors plus
exa te.
Mesurer siunalgorithmeestrésistantau bruitsefaitalorsen al ulant le
pour en-tagedemots orre tement identiésparl'hypothèseapprise.Nousparlonsalors detaux
desu ès engénéralisation.Letauxdesu èsengénéralisationmesureainsila apa ité
de l'automate à lassier orre tement les données appartenant au langage mais qu'il
n'apasvues, 'est-à-diresa apa ité àgénéraliser.
expéri-matesto hastique, e quiestunproblèmeloind'êtretrivial.D'autrepart,sil'automate
a un taux de su èsde
95%
, pouvons-nous dire que nous avons appris orre tement? Lorsque le bruit repose sur une distribution statistique, l'apprentissage ne peut plusêtre onsidéréréellement ommedel'identi ation àlalimitesinousdisonsquela ible
estidentiéelorsqueletauxd'apprentissagen'est pasde
100%
.L'inféren e n'étant plus exa te, le adremis en pla erelève alors plusdu modèlePa .Néanmoins, il est à noter qu'un ertain nombre de travaux ont proposé d'autres
modèles de bruit plus adaptés à l'identi ation à lalimite àpartir de présentation ar
nereposantpassurdesstatistiques.Eneet,iln'existegénéralementpasdedistribution
sur les données. L'introdu tion de fon tions de bruit reposant sur des probabilités est
alors inadéquat.
Parmi es travaux, eux de Stephan[Ste97 ℄ utilisent lefait qu'une présentation est
innie pour dénir lebruit :
Un Texte bruité pour un langage
L
est tel que haque motw ∈ L
apparaît inniment souvent alorsqueseul unnombre ni demots delaprésentationn'ap-partiennent pasau langage.
UnTexte très bruitépour unlangage
L
est telque haque motw ∈ L
apparaît inniment souvent dansla présentation.Contrairement au Textebruité,unnombre innid'erreurspeut don apparaître dans
un Texte très bruité, mais haque erreur n'apparaîtra qu'un nombre ni de fois. Les
ritèresd'identi ationsontalorsnotésNoisyTxt etVeryNoisyTxt.Surlemêmeprin ipe
StephandénitlesInformateurbruitésettrèsbruités.Cetypedebruitestreprisdans
destravauxtelsque[CJS01℄oùune onditionsupplémentaireapparaît:lesprésentations
bruitées doivent être al ulables.
Un autreexemple de bruit nonstatistiquepermettant une identi ation à lalimite
exa te est elui introduit dans [TdlHJ06℄, le bruit dit systématique 1
. Ave e type de
bruit,laprésentation omportetouslesmotsdulangageainsiquetouslesmotspro hes
du langage, 'est-à-dire tous les mots de
Σ∗
à distan e au plusk
de haque mot du langage :Dénition 29 (Bruité d'un langage) Soit
L
unlangagedeΣ∗
.Lek
-bruitédeL
estNk(L) = {w ∈ Σ∗: ∃v ∈ L, d(v, w) ≤ k}
.Exemple 26 Soient les langages
L1 = Σ≤n
,L2 =S
k≤n/2Σ2k
,L3 = a(a|b)∗
etL4 =
{w ∈ Σ∗ : |w|a6= |w|b}
,les1
-bruitésdeslangages orrespondantssontN1(L1) = Σ≤n+1
,N1(L2) = Σ≤n+1
,N1(L3) = Σ∗
etN1(L4) = Σ∗
.Le
1
-bruité deL = {abbab}
estN1(L) = {abab
,abba
,abbb
,bbab
,aabab
,abaab
,abbaa
,abbab
,abbbb
,bbbab
,aabbab
,ababab
,abbaab
,abbaba
,abbabb
,abbbab
,babbab}
.Une présentation bruitée d'unlangage estalorsdénie omme étant laprésentation
du langagebruité :
1
Dans[SG86 ℄,unbruitsystématiqueestaussiproposé.Lebruitestsystématiquedanslesensoùle
bruitsefait toujours delamêmefaçon:un apteur detempérature indiquerapar exempletoujours
Dénition 30 (Présentation
k
-bruitée) SoitL
unlangagedeΣ∗
.Uneprésentation
k
-bruitée deL
est une présentation deNk(L)
.Il est à noter que notre bruit systématique dière de elui de Stephan dans le sens
où seulsles éléments de
Nk(L) \ L
bruitent la présentation, et quemême eséléments peuvent apparaître unnombre innide fois.3.2.2 Le bruit en apprentissage a tif
Intéressons-nous maintenant au adre de l'apprentissage a tif. La perfe tion de
l'ora le est di ile à obtenir; par onséquent, le bruit est introduit par le biais de
l'ora le. Si généralement le problème d'appartenan e d'un mot à un langage est fa ile
à résoudre, e n'est pas toujours le as. En eet, en pratique l'ora le est typiquement
rempla épar un humain; 'estpar exemple le asdu systèmeSquirrel [CGLN07 ℄.Il
peut don lui arriver dene pasarriver à dé ider sitel hiremanus rit estun
0
ouun6
, ou si telle lettre manus rite est una
ou unu
. Il peut ainsi se tromper, voire dire qu'il ne sait pas si un exemple appartient au langage ou non. De même, la réponseà une requête de orre tion n'est pas toujours évidente : quelle est la orre tion du
mot
(ab(bba)11b)7
relativement au langageL = Σ≤113\ {w : (ab)31 w}
? Si dans e aslaréponseà une requêted'appartenan e mqest (presque) instantanée, donneruneorre tion, 'est-à-dire répondreàune q Edit
, estplus ardu.
Plusieurs modèles d'ora les peuvent alors être onsidérés an de simuler un ora le
humain :
les mq peuvent être limitées an que l'ora le puisse répondre je ne sais pas
à ertains mots (appelées omissions ou lmq pour limited membership queries
[GM92, AS94,FGMP94 ℄), un nombre ni
ℓ
d'omissions étant xéàl'avan e, la réponsede l'ora le àM Q(w)
peut êtrefausse pour ertains mots (les requêtessontalors appeléesmmqpourmali ious membership queries [AK94 ℄),unnombre
ni
ℓ
d'erreurs étant xéà l'avan e 2,
la réponse à
CQ(w)
peut être Oui siw
appartient au langage ible, et sinon, une orre tion appartenant au langage, plus ou moins pro he dew
suivant une ertaine probabilité [BBdlHJT08 ℄.Dans les travaux i-dessus, les réponsesaux requêtes sont dites persistantes :
dié-rentes requêtes ave le même mot
w
re evront toujours la même réponse, qu'elle soit juste ou fausse. Dans [Sak91 ℄, Sakakibara présente un modèle dans lequel haqueré-ponse àune requêted'appartenan e peut êtrefausse suivante une ertaine probabilité.
Toutefois, dans son modèle, haque requête onstitue un événement indépendant. En
d'autrestermes,l'ora lepeutdonnerdeuxréponsesdiérentesàunemêmerequête
sui-vant lemoment où laquestionestposée.Il sut don de répéterlarequêteunnombre
de fois susant pour savoir si l'ora le a menti ou non. Sakakibara montre alors que
toute lassequiestapprenablesansbruitestapprenable (ave grandeprobabilité)dans
sonmodèle, equin'estpasvraimentpertinant.Nousn'étudieronsainsiquelesmodèles
debruit où lesréponses auxrequêtes sont persistantes.
2
Maintenant queles adres théoriquessont formellement posés,nousallonsnous
in-téresser à l'apprentissage des langages les plus étudiés en inféren e grammati ale : les
langagesréguliers.En eet,leurapprentissage ensituations nonbruitéesestlargement
étudié.Ces études permettent de mieux omprendreet aborder l'apprentissage de
lan-gages deplus haut niveau danslahiérar hie deChomsky.
Ainsi, pour mieuxappréhender l'étudede l'apprenabilité deslangagesde la
hiérar- hie de Chomsky à partir de données bruitées, nous nous attaquons en premier aux
langagesrationnels.