T raitement du bruit en apprentissage automatique

don-d'exemples d'apprentissage [BL97 ℄. La première onsiste à nettoyer ou ltrer les

don-nées d'apprentissage. Nous parlons alors d'algorithme de type lter : par exemple, si

un mot n'a pasd'étiquette, s'il est étiqueté à la fois positif et négatif, ou en ore s'il a

une lettre qui n'appartient pasà l'alphabet, il peut être judi ieux de l'enlever de

l'en-semble d'apprentissage ou de le orriger. Une fois les données puriées, nous pouvons

alors utiliserun algorithmed'apprentissage lassique.Cetteméthode aen revan he un

in onvénient majeur : sinousne disposonsque depeu ded'exemples ou siles données

étaient trèsbruitées, lenombre d'exemplesrestant peut devenirtropfaiblepourréussir

àidentier la ible.

Lase ondeappro heviseàapprendretoutensa hantquelesdonnéessontbruitées,

et don à onstruire des algorithmes résistants au bruit pendant l'inféren e. C'est la

stratégieutiliséeparlesalgorithmesdetypewrapper.Sidetouteéviden e,unalgorithme

qui apprend à partir de données pures ne peut pas servir en l'état à l'apprentissage

à partir de données bruitées, il est parfois possible de le modier sans faire trop de

hangements ande lerendre résistantau bruit.

Quelque soitlastratégie employée,lebutde l'apprentissage onsistealors àessayer

d'apprendretoutensa hantquelesdonnéessontbruitéesetdon àessayerdedistinguer

lesvraies données desdonnéesbruitées, que e soitavant ou pendant l'inféren e.

Supposons maintenant quenousayons onstruit un algorithme quisoit ensé

iden-tier à partir de données bruitées. Comment tester et algorithme? En eet,les

para-digmesquenousavonsprésentésauChapitre2sonta priori inadaptésàl'apprentissage

ensituationsbruitées.Nousallonsvoirmaintenant ommentgérerlebruitlorsde

l'iden-ti ationà lalimite et en apprentissage a tif.

3.2.1 Le bruit dans l'identi ation à la limite

An de modéliser des données bruitées, la plupart destravaux d'identi ation à la

limite sebasent surune distribution de bruit statistique. Ainsi, le but estd'apprendre

àpartird'un ensemblede données,oud'uneprésentation, ontenant un ertainnombre

de mots bruités suivant ette distribution. De e fait, ertains travaux utilisent des

automatessto hastiquespourgérerles donnéesbruitées, 'est-à-dire,desautomatesoù

nousasso ionsàlafon tiondetransitionune ertaineprobabilité[Ang88a ℄.Demêmeles

étatsseronttousnauxselonune ertaineprobabilité.L'automate apprisestalors bien

souvent seulement uneapproximationde l'automate ible, danslesensoù ladiéren e

symétriqueentrelesmots pouvant êtregénérés par l'automateappris et euxre onnus

par l'automate ible est faible, mais rarement nulle. L'identi ation n'est alors plus

exa te.

Mesurer siunalgorithmeestrésistantau bruitsefaitalorsen al ulant le

pour en-tagedemots orre tement identiésparl'hypothèseapprise.Nousparlonsalors detaux

desu ès engénéralisation.Letauxdesu èsengénéralisationmesureainsila apa ité

de l'automate à lassier orre tement les données appartenant au langage mais qu'il

n'apasvues, 'est-à-diresa apa ité àgénéraliser.

expéri-matesto hastique, e quiestunproblèmeloind'êtretrivial.D'autrepart,sil'automate

a un taux de su èsde

95%

, pouvons-nous dire que nous avons appris orre tement? Lorsque le bruit repose sur une distribution statistique, l'apprentissage ne peut plus

être onsidéréréellement ommedel'identi ation àlalimitesinousdisonsquela ible

estidentiéelorsqueletauxd'apprentissagen'est pasde

100%

.L'inféren e n'étant plus exa te, le adremis en pla erelève alors plusdu modèlePa .

Néanmoins, il est à noter qu'un ertain nombre de travaux ont proposé d'autres

modèles de bruit plus adaptés à l'identi ation à lalimite àpartir de présentation ar

nereposantpassurdesstatistiques.Eneet,iln'existegénéralementpasdedistribution

sur les données. L'introdu tion de fon tions de bruit reposant sur des probabilités est

alors inadéquat.

Parmi es travaux, eux de Stephan[Ste97 ℄ utilisent lefait qu'une présentation est

innie pour dénir lebruit :

Un Texte bruité pour un langage

L

est tel que haque mot

w ∈ L

apparaît inniment souvent alorsqueseul unnombre ni demots delaprésentation

n'ap-partiennent pasau langage.

UnTexte très bruitépour unlangage

L

est telque haque mot

w ∈ L

apparaît inniment souvent dansla présentation.

Contrairement au Textebruité,unnombre innid'erreurspeut don apparaître dans

un Texte très bruité, mais haque erreur n'apparaîtra qu'un nombre ni de fois. Les

ritèresd'identi ationsontalorsnotésNoisyTxt etVeryNoisyTxt.Surlemêmeprin ipe

StephandénitlesInformateurbruitésettrèsbruités.Cetypedebruitestreprisdans

destravauxtelsque[CJS01℄oùune onditionsupplémentaireapparaît:lesprésentations

bruitées doivent être al ulables.

Un autreexemple de bruit nonstatistiquepermettant une identi ation à lalimite

exa te est elui introduit dans [TdlHJ06℄, le bruit dit systématique 1

. Ave e type de

bruit,laprésentation omportetouslesmotsdulangageainsiquetouslesmotspro hes

du langage, 'est-à-dire tous les mots de

Σ∗

à distan e au plus

k

de haque mot du langage :

Dénition 29 (Bruité d'un langage) Soit

L

unlangagede

Σ^∗

.Le

k

-bruitéde

L

est

N_k(L) = {w ∈ Σ^∗: ∃v ∈ L, d(v, w) ≤ k}

Exemple 26 Soient les langages

L₁ = Σ^≤n

L₂ =S

k≤n/2Σ^2k

L₃ = a(a|b)^∗

L₄ =

{w ∈ Σ^∗ : |w|_a6= |w|b}

,les

1

-bruitésdeslangages orrespondantssont

N₁(L₁) = Σ^≤n+1

N₁(L₂) = Σ≤n+1

N₁(L₃) = Σ∗

N₁(L₄) = Σ∗

1

-bruité de

L = {abbab}

est

N₁(L) = {abab

abba

abbb

bbab

aabab

abaab

abbaa

abbab

abbbb

bbbab

aabbab

ababab

abbaab

abbaba

abbabb

abbbab

babbab}

Une présentation bruitée d'unlangage estalorsdénie omme étant laprésentation

du langagebruité :

Dans[SG86 ℄,unbruitsystématiqueestaussiproposé.Lebruitestsystématiquedanslesensoùle

bruitsefait toujours delamêmefaçon:un apteur detempérature indiquerapar exempletoujours

Dénition 30 (Présentation

k

-bruitée) Soit

L

unlangagede

Σ∗

.Uneprésentation

k

-bruitée de

L

est une présentation de

N_k(L)

Il est à noter que notre bruit systématique dière de elui de Stephan dans le sens

où seulsles éléments de

N_k(L) \ L

bruitent la présentation, et quemême eséléments peuvent apparaître unnombre innide fois.

3.2.2 Le bruit en apprentissage a tif

Intéressons-nous maintenant au adre de l'apprentissage a tif. La perfe tion de

l'ora le est di ile à obtenir; par onséquent, le bruit est introduit par le biais de

l'ora le. Si généralement le problème d'appartenan e d'un mot à un langage est fa ile

à résoudre, e n'est pas toujours le as. En eet, en pratique l'ora le est typiquement

rempla épar un humain; 'estpar exemple le asdu systèmeSquirrel [CGLN07 ℄.Il

peut don lui arriver dene pasarriver à dé ider sitel hiremanus rit estun

0

ouun

6

, ou si telle lettre manus rite est un

a

ou un

u

. Il peut ainsi se tromper, voire dire qu'il ne sait pas si un exemple appartient au langage ou non. De même, la réponse

à une requête de orre tion n'est pas toujours évidente : quelle est la orre tion du

mot

(ab(bba)¹¹b)⁷

relativement au langage

L = Σ^≤113\ {w : (ab)31 w}

? Si dans e aslaréponseà une requêted'appartenan e mqest (presque) instantanée, donnerune

orre tion, 'est-à-dire répondreàune q Edit

, estplus ardu.

Plusieurs modèles d'ora les peuvent alors être onsidérés an de simuler un ora le

humain :

les mq peuvent être limitées an que l'ora le puisse répondre je ne sais pas

à ertains mots (appelées omissions ou lmq pour limited membership queries

[GM92, AS94,FGMP94 ℄), un nombre ni

ℓ

d'omissions étant xéàl'avan e, la réponsede l'ora le à

M Q(w)

peut êtrefausse pour ertains mots (les requêtes

sontalors appeléesmmqpourmali ious membership queries [AK94 ℄),unnombre

ℓ

d'erreurs étant xéà l'avan e 2

la réponse à

CQ(w)

peut être Oui si

w

appartient au langage ible, et sinon, une orre tion appartenant au langage, plus ou moins pro he de

w

suivant une ertaine probabilité [BBdlHJT08 ℄.

Dans les travaux i-dessus, les réponsesaux requêtes sont dites persistantes :

dié-rentes requêtes ave le même mot

w

re evront toujours la même réponse, qu'elle soit juste ou fausse. Dans [Sak91 ℄, Sakakibara présente un modèle dans lequel haque

ré-ponse àune requêted'appartenan e peut êtrefausse suivante une ertaine probabilité.

Toutefois, dans son modèle, haque requête onstitue un événement indépendant. En

d'autrestermes,l'ora lepeutdonnerdeuxréponsesdiérentesàunemêmerequête

sui-vant lemoment où laquestionestposée.Il sut don de répéterlarequêteunnombre

de fois susant pour savoir si l'ora le a menti ou non. Sakakibara montre alors que

toute lassequiestapprenablesansbruitestapprenable (ave grandeprobabilité)dans

sonmodèle, equin'estpasvraimentpertinant.Nousn'étudieronsainsiquelesmodèles

debruit où lesréponses auxrequêtes sont persistantes.

Maintenant queles adres théoriquessont formellement posés,nousallonsnous

in-téresser à l'apprentissage des langages les plus étudiés en inféren e grammati ale : les

langagesréguliers.En eet,leurapprentissage ensituations nonbruitéesestlargement

étudié.Ces études permettent de mieux omprendreet aborder l'apprentissage de

lan-gages deplus haut niveau danslahiérar hie deChomsky.

Ainsi, pour mieuxappréhender l'étudede l'apprenabilité deslangagesde la

hiérar- hie de Chomsky à partir de données bruitées, nous nous attaquons en premier aux

langagesrationnels.

Dans le document Inférence grammaticale en situations bruitées (Page 53-57)

T raitement du bruit en apprentissage automatique

95%

100%

L

w ∈ L

L

w ∈ L

Σ∗

k

L

Σ∗

k

L

Nk(L) = {w ∈ Σ∗: ∃v ∈ L, d(v, w) ≤ k}

L1 = Σ≤n

L2 =S

k≤n/2Σ2k

L3 = a(a|b)∗

L4 =

{w ∈ Σ∗ : |w|a6= |w|b}

1

N1(L1) = Σ≤n+1

N1(L2) = Σ≤n+1

N1(L3) = Σ∗

N1(L4) = Σ∗

1

L = {abbab}

N1(L) = {abab

abba

abbb

bbab

aabab

abaab

abbaa

abbab

abbbb

bbbab

aabbab

ababab

abbaab

abbaba

abbabb

abbbab

babbab}

k

L

Σ∗

k

L

Nk(L)

Nk(L) \ L

0

6

a

u

(ab(bba)11b)7

L = Σ≤113\ {w : (ab)31  w}

ℓ

M Q(w)

ℓ

CQ(w)

w

w

w

Σ^∗

N_k(L) = {w ∈ Σ^∗: ∃v ∈ L, d(v, w) ≤ k}

L₁ = Σ^≤n

L₂ =S

k≤n/2Σ^2k

L₃ = a(a|b)^∗

L₄ =

{w ∈ Σ^∗ : |w|_a6= |w|b}

N₁(L₁) = Σ^≤n+1

N₁(L₂) = Σ≤n+1

N₁(L₃) = Σ∗

N₁(L₄) = Σ∗

N₁(L) = {abab

N_k(L)

N_k(L) \ L

(ab(bba)¹¹b)⁷

L = Σ^≤113\ {w : (ab)31 w}