5.2 Identi ation à la limite des boules
5.2.1 Apprentissage en temps M polynomial
Algorithme 5 : Identi ation desbonnesboules àpartir de texte
Données: Untextef
= {x1, x2, . . .}
Résultat : Une séquen ede boules
(o, r)
lire(
x1
); 1c ← x1
; 2 renvoyer(x1, 0)
; 3tant quevrai faire 4
lire(
xi
); 5sif
i
est untémoin deminimalité pourBr(o)
alors 6renvoyer
(o, r)
// boule valide7 sinon 8 si
c 6∈ Xmax
alors 9c ←
unmot deXmax
; 10 nsi 11renvoyer
(c, |c|)
// boule de sé urité12
nsi 13
ntq 14
Théorème 24
BB(Σ)
est identiable à la limite à partir de Texte en temps Mpolynomial.
Démonstration :
L'Algorithme 5 estun algorithmeidentiant à la limite
BB(Σ)
à partir de Texte en temps M polynomial.Eneet, nousavonsdéjà vuquel'Algorithme5identieàlalimite
BB(Σ)
à partir de Texte . Il ne reste don qu'à ompter le nombre de hangements d'hypothèse quefaitl'algorithme.
L'algorithme peut hangerd'avisde plusieurs façons: en faveur d'uneboulevalide,
ouenfaveur d'unebouledesé urité. Le hangement d'hypothèseen faveur d'uneboule
valide ne se fait que vers une boule valide de rayon plus grand que elui de la boule
valide pré édente. Ilen est demême pour lesboules desé urité.
Plus pré isément, soit
T = (x1, s1)(x2, s2)(x3, s3) . . .
la tra e d'une exé ution de l'algorithmesuruneprésentation f.Supposonsdeplusquelaboule iblesoitBr(o)
. La tra edel'algorithmeestunesu essiondereprésentationsde boule. Chaque(xi, si)
est don soit la représentation d'une boule(o, r)
venant d'un témoin de minimalité, soit elled'uneboulede sé urité(c, |c|)
.Intéressons-nous tout d'abord aux boules valides. Soient
(oi, ri)
une représentation issued'untémoindeminimalité,etj
lepluspetitrangtelquej > i
et(oj, rj)
provienne aussid'un témoinde minimalité. Deux as sont alorspossibles:1. f
(i + 1) ∈ Bri(oi)
: le témoin de minimalité(ui, vi, wi, oi, ri)
ayant permis de onstruireBri(oi)
esttoujours un témoinde minimalitépour fi+1
(pardénition du témoin). Don , par la Proposition 4, nous en déduisons quej = i + 1
et que2. f
(i + 1) 6∈ Bri(oi)
: par onstru tion fi
est in lus dansBrj(oj)
. La Proposition 4 nouspermet dedéduirequesoitri < rj
,soit(oj = oi
etrj = ri)
. Lesdeuxboules étantdiérentes(puisquef(i+1) ∈ (Bri(oi)⊕Brj(oj))
),nousavonsné essairementri < rj
.Par onséquent, haquefoisqueAlg hanged'hypothèseenfaveurd'unenouvelleboule
valide, lerayon est in rémenté d'au moins
1
par rapport à la boulevalide pré édente. Le nombre de représentations de boules validesdiérentes retournées par l'algorithmeseradon au plus
r
, 'est-à-direlerayon delaboule ible.Lenombre deM deAlgen faveur d'uneboulevalide estdon inférieur àr
.Si nous nous intéressons maintenant au nombre de hangements d'avis en faveur
d'une boule de sé urité,l'étude de la tra e de l'exé ution de l'algorithme nouspermet
à nouveau de borner e nombre. Soient deux boules de sé urité
(ci, |ci|)
et(cj, |cj|)
. Supposons quei < j
. Alors,|ci| ≤ |cj|
puisqueci
etcj
sont des mots de longueur maximale dans,respe tivement,fi
et fj
. Deplus, si|ci| = |cj|
alorsci = cj
. Le nombre de boules de sé urité diérentes le long deT
est alors borné par2r
(puisque∀x ∈
Br(o), |o| − r ≤ |x| ≤ |o| + r
). De plus, le nombre de M en faveur d'une boule de sé uritéestinférieurà3r
, 'est-à-dire,r
M pourpasserd'uneboulevalideàuneboule desé urité,et2r
M pour passerd'unebouledesé uritéàuneautrebouledesé urité. Le nombre total de M est don borné par4r
. Enn, le temps de miseà jour est polynomialpuisquelaseule hosequefaitl'algorithmeestdevériersiouiounonfi
est untémoindeminimalité.Ornousavonsvuau hapitre pré édent que ettevéri ationpouvait sefaireen temps polynomial.
✷
La Figure 5.2 montre un exemple de e que vaut le rayon des boules issus d'un
témoin, eluidesboulesdesé urité,et eluidesbouleshypothèses.La ourbedesrayons
desboulesissusd'un témoinsera don bornépar
r
, elledesboules de sé uritépar2r
, et la ourbe durayon desboules hypothèsessera omprise entre esdeux ourbes.Lorsquel'algorithmeaura onvergé,la ourbedesrayonsdesbouleshypothèsessera
onfondueave elledesboules témoins.Lenombre deM peutégalementêtre al ulé
en omptantlenombredevariationsdela ourbehypothèse.Parexemple,à haquefois
qu'elledé roît,unnouveautémoinaététrouvé,etl'algorithmeaee tuéun hangement
d'hypothèses.
Il est à noter que l'algorithme n'a en fait pas besoin d'être onsistant et don de
hanger d'avis pour des boules de sé urité. Toutefois, nous allons le réutiliser pour
l'apprentissage en temps Ipepolynomial.
L'apprentissage en temps M polynomial pourrait don très bien se faire
unique-ment ave
r
hangements d'hypothèse au maximum : si la boule hypothèse n'est plus onsistanteave lesnouvellesdonnées,ilsutd'attendred'avoirunnouveau témoindeminimalitépourunebouleplusgrande.End'autrestermes, ilsutde resterlelongde
la ourbe témoin.
Le fait de n'avoir pas besoin d'être onsistant nous permet également de montrer
rayon
présentation
hypothèse
témoin
poubelle
Fig. 5.2 Rayon desboules hypothèses, desboules de sé urité et desboules issus des
Théorème 25
BB(Σ)
est identiable à la limite à partir de Informateur entemps M polynomial.Démonstration :
L'Algorithme 5 identie à la limite
BB(Σ)
à partir de Texte en temps M polyno-mial (Théorème 25).Or l'algorithme n'a pas besoin d'être onsistant ave les donnéespour pouvoir identier polynomialement. Pour haque exemple négatif qu'il reçoit, il
lui sut don de retourner la dernière hypothèse qu'il vient de faire.Ainsi, il identie
toujours àlalimite, ila untemps de miseajour qui restepolynomial, et lenombre de
hangementsd'hypothèseesttoujoursbornéparquatrefoislerayondelaboule ible.
✷
Lavéri ation del'existen edutémoindeminimalitéd'un ensemblededonnées
po-sitivespour une bouleen tempspolynomialpermet don d'identier àlalimite
BB(Σ)
en temps M polynomial. Il est à noter que et algorithme peut être adapté à
l'iden-ti ation de n'importe quel lasse de langage, si tant est que nous puissions vérier
l'existen ed'un témoin deminimalité 4
.
Con ernant les mauvaisesboules,nouspouvonsmontrerque
BOU LE(Σ)
n'est pas identiableà partirde Texte .En eet,ilexistedesprésentationstellesquen'importequel algorithme doit faire un nombre de hangements d'hypothèse supérieur au rayon
de laboule :
Théorème 26
BOU LE(Σ)
n'est pas identiable à la limite en temps M polynomial à partir deTexte .Démonstration :
Raisonnons par l'absurde et supposons que nous ayons un apprenant Alg et un
polynme
p()
tels que∀G ∈ G, ∀
f∈
Pres, #
M(
f) ≤ p(kGk)
.Soit
n
unentier susamment grand, et onsidérons la sous- lasse ibleBk(λ)
avek ≤ n
. Pour haque ible, nous onstruisons une présentation fk
en utilisant Alg de
façon intera tive.
À haqueétape
i
,AlgproduitunehypothèseHi
,etnousdevons al ulerunnouveau motfk(i + 1)
. Pour ela, sii = 0
nousretournonsλ
. Sinon, ilya deux as:1. Si
Hi−1= Bk(λ)
, alors nousretournons le pluspetit mot deBk(λ)
qui n'est pas apparu dans fk
i−1
(si au un mot ne vérie ette ontrainte, nous retournonsλ
). End'autres termes, sil'hypothèseest orre te, nousretournonslepluspetit motde la boule qui n'a pas été vu (
λ
sinon) an que la présentation soit orre te ( 'est-à-dire qu'elle ontienne tous lesmots de laboule).2. Si
Hi−16= Bk(λ)
, alors nousretournonsaj+1
siHi−1= Bj(λ)
avej = max{|u| :
u ∈
fk
i−1}
, etλ
sinon.En d'autres termes, sil'hypothèse n'est paslabonne,mais qu'elle ouvre tous les éléments de la présentation, nous présentons un mot pluslongquetous euxqui ont été vusjusqu'àprésent,
λ
sinon. 4Chaque présentation f
k
est alors une présentation (Texte ) orre te de la ible
Bk(λ)
. En d'autrestermes, nousavonsbienfk(N) = Bk(λ)
. Posonsm(k) = min{i ∈ N :
fk(i) = ak}
. Pour haquek
, fk
et f
k+1
oïn ident sur
lesmêmes
m(k)
valeursinitiales.Alorsfn
peut êtreréé riten:
λ
,...,λ
,a
,...,aj
,...,
an
,... ave :∀0 < j ≤ n, ∀i ∈ {m(j−1), .., m(j)−1},
fn(i) =
fj(m(j−1)) =
fj(i) = aj−1
, et Alg hange d'avisjusteavant de re evoirle nouvelexempleai
et fait don au
mini-mum
n
hangements d'hypothèses. Cela prouve que pour tout polynmep()
, il existe unentiern
tel que#
M(
fn) > p(log n)
.✷
Enrevan he,
BOU LE(Σ)
devient identiablesi laprésentation ontient des exem-plesnégatifs. Eneet, grâ eauxexemplesnégatifs, nouspouvonsvérier qu'iln'existepasdeboules possédant un rayon plus grand que elui de laboule hypothèse :
Théorème 27
BOU LE(Σ)
estidentiableàlalimiteentempsM polynomialàpartir d'Informateur.Démonstration :
Nousmontronsqu'ilexisteunapprenant quivérielesdonnéesjusqu'àêtresûrqu'il
n'existe qu'une boule onsistante ave les données et fait don un unique hangement
d'avis.
Soient
Br(o)
laboule ibleethX+, X−i
desexemplestels qu'ilexisteunmotu
pour lequel:1.
aku, bku ∈ X+
,2. tousles sur-motsde
aku
et debku
delongueur|u| + 1 + k
sont dansX−
et 3. siu 6= λ
, pour haque sous-motv
deu
de longueur|u| − 1
, il existe un sur-motde
v
de longueur|u| + k
dansX−
.Il n'existe alors qu'une seule boule vériant es onditions. En eet, étant donnée
uneboule
Br(o)
, esexemplesexistenttoujours,et vérier siun telmotestdansX
est enO(kXk)
.Enoutre, toutes lesopérationsd'édition dansun heminminimalpourtransformer
o
enaku
etbku
sontdesinsertions. Eneet,la ondition2
nouspermet dedéduirequeaku
etbku
sont desmots de lafrontière supérieure de laboule. Nous endéduisons par laProposition5 queo aku
eto bku
. Ainsi,o u
.Enn, puisquepour haquesous-mot
w
deu
ilexiste unsur-motdelongueur|u| + k
dans
X−
, au un sous-mot propredeu
ne peut être le entre.Nous en déduisons alors que
u = o
et don quek = r
. Évidemment, les onditionsrequisesseront vraiesà un ertainmoment de laprésentation.