HAL Id: tel-00573224
https://tel.archives-ouvertes.fr/tel-00573224
Submitted on 3 Mar 2011
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
volumes par l’approche probabiliste et statistique
Olivier Alata
To cite this version:
Olivier Alata. Contributions à la description de signaux, d’images et de volumes par l’approche
probabiliste et statistique. Traitement du signal et de l’image [eess.SP]. Université de Poitiers, 2010.
�tel-00573224�
Habilitation à diriger des re her hes
présentée et soutenue publiquement
par
Olivier Alata
le4 O tobre 2010
Titre:
Contributions à la des ription de signaux, d'images et de
volumes par l'appro he probabiliste et statistique
Jury
Y. Delignon Professeurà TELECOM Lille1 Président
G.Celeux Dire teur de re her he INRIA Sa lay-Île-de-Fran e Rapporteur
X. Des ombes Dire teur de re her he INRIA SophiaAntipolis Rapporteur
Ph. Réfrégier Professeurà l'E ole Centrale de Marseille Rapporteur
Y. Berthoumieu Professeurà l'InstitutPolyte hnique de Bordeaux Examinateur
C. Fernandez-Maloigne Professeurà l'Universitéde Poitiers Examinatri e
Les éléments prin ipaux apparaissant dans e do ument de synthèse sont les
suivants:
La mise en exergue de la pertinen e du ritère d'information
ϕ
β
qui ore la possibilitéd'êtreréglé parapprentissagedeβ
et elaquelquesoitleproblème deséle tiondemodèlespourlequel ilestpossibled'é rireun ritèred'informa-tion, possibilité qui a été illustrée dans divers ontextes appli atifs (supports
de prédi tion linéaire et dimension du modèle utilisé pour les inétiques de
˙
V O
2
, signal physiologique dé rit àl'aide d'un modèle linéairegénéralisé). Uneméthoded'estimationd'histogrammespourdé riredemanièrenon-paramé-triqueladistributiond'é hantillonsetsonutilisationen re onnaissan e delois
supervisée dans un ontexte de anaux de transmission.
Uneméthodedite omparativedes endantepermettantdetrouverlameilleure
ombinaisondesparamètrespourdé rirelesdonnées étudiéessans avoirà
tes-ter toutesles ombinaisons, illustréesur l'obtention de supports de prédi tion
linéaire1-D et 2-D.
Lamise enpla ede stratégiesde hoixde modèlesparrapportàdes ontextes
variés ommel'imagerieTEP (Tomographiepar Emissionde Positrons)etles
lois de mélange de Gauss et de Poisson ou les espa es ouleur et les lois de
mélangegaussiennes multidimensionnelles.
L'exploration des modèles de prédi tion linéaire ve torielle omplexe sur les
images représentées dans des espa es ouleur séparant l'intensité lumineuse
de la partie hromatique etl'usage qui peut en être fait en ara térisation de
textures an de les lassieroude segmenter les imagestexturées ouleur.
Desapportsensegmentationd'imagestexturées:optimisationd'uneméthode
de segmentation non-supervisée d'images texturées en niveaux de gris; une
nouvelle méthode supervisée de segmentation d'images texturées ouleur
ex-ploitant les espa es ouleur psy hovisuels et les erreurs de prédi tion linéaire
ve torielle omplexe.
Uneméthode de segmentation 3-Dhaut-niveau exploitantleformalismedes
pro essus pon tuels qui permet de prendre en ompte des informations
géo-métriques et topologiques sur le hamp des régions introduites dans l'énergie
de Gibbs du pro essus.
L'illustrationdesméthodesMCMC dansdes ontextes divers omme
l'estima-tion de paramètres,l'obtention de segmentations2-D ou3-D oulasimulation
de pro essus.
The main elementsdes ribed inthis do ument are :
The use of information riterion
ϕ
β
whi h allows the learningof parameterβ
for any model sele tion problem possible to solve with the informationrite-rion. This is illustrated in the ontext of dierent appli ations in luding the
estimation of linear predi tion neighborhood support and model dimension
for
V O
˙
2
ineti swhi hisaphysiologi alsignaldes ribed withalineargeneral model.An non-parametri method for the approximation of the data distributions
based on an information riterion based novel te hnique for the histogram
estimation. Asupervised frameworkfor lawre ognitionbased onthis method
is alsodis ussed.
The omparative des end method for the estimation of optimal parameter
ombinationin the data des ription problems withouttesting all the possible
parameter ombinations. This method is used for the optimal neighborhood
support estimation in1-D and 2-D linearpredi tion models.
Theimplementationofdierentmodelsele tionmethodologiesinvarious ontexts
in luding Poisson and Gauss mixture laws for PET (Positron Emission T
o-mography) volumes, and optimal olor spa es for multidimensional gaussian
mixture models.
Study of omplex multi hannel linear predi tion models for olor image
re-presentation in luminan e- hrominan e type olor spa es. The pertinen e of
thesemodelsfor olortexture hara terization, lassi ationandsegmentation
is alsodis ussed.
Some ontributions for textured image segmentation : the optimization of an
unsupervised methodforthesegmentationofgrayleveltexturedimages;a
su-pervised methodforthesegmentationof olortexturedimagesinpsy hovisual
olor spa es based on omplex multi hannellinear predi tion error.
Apointpro ess basedhighlevel3-Dsegmentationmethodtakingintoa ount
thegeometri alandtopologi alinformationofthe lasslabeleldintheGibbs
energy.
The use of MCMC methods for parameter estimation, 2-D and 3-D
segmen-tation methods, and the simulationof pro esses.
Résumé . . . i
Abstra t . . . ii
Table des matières . . . iii
1 Introdu tion 1 2 Séle tion de modèles par ritères d'information 5 2.1 Notions fondamentales en lienave l'entropie . . . 7
2.1.1 Entropie . . . 7
2.1.2 Entropie roisée . . . 7
2.1.3 Codage entropiqueet arithmétique adaptatif . . . 8
2.2 Les diérents ritères d'information . . . 9
2.2.1 Minimisationd'unrisque . . . 9
2.2.2 Appro he bayésienne . . . 12
2.2.3 Séle tion par la longueur minimum de ode. . . 12
2.2.4 Critère
ϕ
β
etdis ussion . . . 132.3 Modèles autorégressifs . . . 15
2.3.1 Prédi tion linéairebidimensionnelle . . . 15
2.3.2 Méthodes omparatives. . . 19
2.4 Des ription d'une distribution par histogramme . . . 25
3 Des distributions en signal et image 29 3.1 Appli ation des méthodes d'estimationd'histogrammes . . . 30
3.1.1 Appli ation aux images dans le adre des méthodes de om-pression . . . 30
3.1.2 Appli ationaux anaux de transmissionsnumériquessans l . 35 3.2 Modèle linéairegénéralisé . . . 42
3.2.1 Dénitionet méthode d'estimation . . . 42
3.2.2 Appli ationaux inétiques de
V O
˙
2
. . . 453.3 Lois de mélange . . . 49
3.3.1 Segmentation3-D de TEP érébrales . . . 50
3.3.2 Unespa e ouleur mieux adapté? . . . 58
4 Des ription de stru tures spatiales 67 4.1 Prédi tion linéaire2-D ve torielle omplexe. . . 68
4.1.1 Analyse spe trale 2-D multi analeetespa es ouleur . . . 68
4.1.2 Classi ationde textures ouleur . . . 74
4.2 Segmentation d'imagestexturées . . . 78
4.2.2 Segmentation non-supervisée d'images texturées et ritères
d'information . . . 82
4.3 Géométrie ettopologie du hampde régions . . . 88
4.3.1 Le GDPP (Grouping-DegroupingPoint Pro ess) . . . 90
4.3.2 Simulation du GDPP . . . 97
4.3.3 Résultats . . . 100
5 Bilan et perspe tives 111
Annexes 115
A Algorithmes EM et SEM 117
B Trois espa es ouleur 121
C Curri ulum vitae 125
D Liste des publi ations 135
E Listes des a ronymes 141
Introdu tion
L'objet de l'étude dans de nombreuses appli ations en traitement du signal et
de l'image est un ensemble de dimension nie d'é hantillons
x =
{x
s
}
s∈∆
ou deve teurs
x =
{
xs
}
s∈∆
.∆
dont le ardinalsera noté|∆|
ouN
est lassiquement un sous-ensemble deZ
d
.Cequidonneà es donnéesune ertainespé i itéparrapport
à d'autres types de données, 'est l'existen e d'une organisation temporelle (série
temporelle lorsque
d = 1
), d'une organisation spatiale (image ou volume,d = 2
ou3
) ou d'une organisation spatio-temporelle (séquen e d'images ou de volumes,d = 3
ou4
). Depuis une quarantaine d'années, les problèmes posés par es donnéesomme l'analyse et la synthèse, le odage et la ompression, la restauration et la
séparationde sour es, ...sontabordés àl'aide de théoriesmathématiquestelles que
l'analyse harmonique, les équations aux diéren es partielles (EDP), les méthodes
variationnelles,lesstatistiquesetlesprobabilités,...Evidemment,pourlarésolution
de esproblèmes,uneappro hepurement mathématiquenepourraitsureetilne
fautpas oublierlané essité de prendre en omptetoutes les onnaissan es
physi o- himiquessurlespro essusétudiéslorsque elaestpossibleainsiquel'importan edu
savoir-faire expérimental, de l'implantation informatique des algorithmes mettant
en ÷uvre les méthodes envisagées et de la réalisation éle tronique dans ertaines
appli ations. C'est en ela que le traiteur de signaux et d'imagesse doit d'être un
être polymorphe s ientiquement parlant et être apable de dis uter si possible
ave les biologistes, lesméde ins, les géologues, ...
L'appro he probabiliste onsiste à faire l'hypothèse que
x
est une réalisation d'un pro essus aléatoire1
X =
{X
s
}
s∈∆
qui est une famille de variables aléatoires ou de ve teurs aléatoires2
. De e fait, à haque indi e
s
, est déni un espa e pro-babiliséΩ
X
s
,
A
Ω
Xs
, P
X
s
dont l'espa e d'état
Ω
X
s
et la tribu asso iéeA
Ω
Xs
dé-pendent du typede donnée étudiée.Pour lepro essus, l'espa e probabiliséest alors(Ω
X
,
A
Ω
X
, P
X
)
oùΩ
X
=
Q
s∈∆
Ω
X
s
, ave i iQ
désignantle produit artésien.
Faisons maintenantune hypothèsetrès forte: tousles
Ω
X
s
ettouteslesprobabi-1
Apriori, ettehypothèsepeuttoujoursêtreformuléemême si,nalement,
x
serévèleêtreun pro essus déterministe : d'aprèsla dé omposition de Wold [CAR01℄, un pro essus aléatoire est,d'unpointdevuedensitéspe trale,lasommed'unpro essuspurementaléatoireetd'unpro essus
déterministe(ou qui présente desaspe ts déterministes). Cettehypothèsesignie tout demême
quelehasardexisteaumoinsd'unpointdevuemathématique equiestun on eptd'unegrande
modernitéauregarddel'histoiredel'humanité.Celadit,débattresurl'existen eounonduhasard
estunsujetpassionnantmaisquitrouvepluttsa pla edansunouvragedephilosophie. 2
lités
P
X
s
sont identiques. Dans e as, onpourra notertous les espa es probabilisés(Ω,
A
Ω
, P )
et il s'agit d'un pro essus aléatoire stationnaire au sens stri t. De plus,si la probabilité
P
se révèle absolument ontinue par rapport à une autre mesure, il sera alors possible de dénir une densité de probabilité (d.d.p.) qui sera notéef (x
s
)
.La théoriedes probabilitéspermetalors de diéren ier deux prin ipaux as : les variables aléatoires de la famille sont indépendantes et la d.d.p. dex
s'é ritf (x) =
Q
s∈∆
f (x
s
)
(voir Chapitre 3); les variables aléatoires ne sont pasindépen-dantes (voirChapitre 4)et ette hypothèseparaîtappropriée lorsqu'onveut dé rire
des pro essuspossédantdes stru turestemporellesouspatiales.Il seraaussi abordé
par la suite le as où la famille possède des lois de probabilités qui hangent en
fon tion de leur lo alisation, 'est à dire le as non-stationnaire oudu moins le as
stationnaire par mor eaux.
L'intérêt des traiteurs de signaux et d'images pour l'appro he probabiliste
pro-vientnon seulement de sarigueur mathématique mais aussi de la variété oerte en
terme de modèles de pro essus. Ces modèles 3
sont d'autant plus intéressants que,
souvent,ilspeuvent êtresimulés e quipermetdelesutiliserensynthèseouen
opti-misationsto hastique(voirChapitres3et4).Deux as,làen ore,sedistinguent:le
modèle paramétré qui est souvent déni omme une fon tion dont la formedépend
d'un ensemble de paramètres (voirChapitres 2,3 et 4)etle modèle non paramétré
(voirChapitres 2 et3).
Prenons pour l'instant le as paramétré. Un ensemble de
K
paramètres sera notéθ =
{θ
k
}
k∈[[1,K]]
. Comme l'obje tif du s ientique est de dé rire au mieuxles pro essus qu'il étudie, un sérieux problème apparaît lorsqu'il se trouve fa e au
hoix d'un modèle dans une olle tion de modèles
{M
m
}
m∈[[1,M]]
, ha un asso ié àun ensemble de paramètres
θ
m
=
{θ
m,k
}
k∈[[1,K
m
]]
de dimension
K
m
. En eet, il est re onnu que le modèle le plus approprié (ou le plus exploitable) n'est pas toujourselui qui possède le plus de paramètres 'est à dire elui qui est sus eptible de
s'ajusteraumieuxauxdonnéesobservées [Coq08℄.A esujet, ertainsparlentmême
de la malédi tion de la dimensionalité. Le hoix du modèle est ainsi un thème
qui existe dans la ommunauté s ientique depuis de nombreuses années. Il est
néanmoinspossiblede onstaterquelesujetest redevenud'unebrulantea tualitési
on onsidère touslesdéveloppementsréalisésautourde lanotiondereprésentations
par imonieuses qui onsistent à re her her dans un di tionnaire de fon tions, elles
quipermettrontdereprésenteraumieux lesdonnéesétudiéesselonun ritère.Car,
quelque soit l'appro he, le prin ipe de par imonie revient à trouver un ompromis
entrela omplexitédumodèle( equiestd'ailleurs ru ialpourl'usageinformatique)
et lepouvoirde représentation du modèle.
Auniveau des probabilités etdes statistiques, divers outilsexistent en lienave
lathéorie de l'estimation.Undes prin ipauxoutils est lafon tion de vraisemblan e
des paramètresdu modèle
M
m
:g
M
m
: R
K
m
→ R
+
θ
m
7→ g
M
m
(θ
m
) = f (x
|θ
m
, M
m
)
(1.1)
en supposant l'existen e de la d.d.p. et que tous les paramètres sont des réels. La
méthode du Maximum de Vraisemblan e (MV) qui pré onise de hoisir, lorsqu'il
θ
m
est un estimateur onsistant des paramètres du modèle
M
m
. Par ontre, la maxi-misation des valeursg
M
m
θ
M V
m
,
m
∈ [[1, M]]
, an de hoisir un modèle est unepro édure qui se révèle la plupart du temps ine a e lorsqu'il s'agit de hoisir de
manièrepar imonieuseun modèlepuisqu'ellefournirasystématiquement 4
lemodèle
possédant le plus de paramètres. La question qui se pose alors est la suivante :
existe-t-il aujourd'hui une méthode permettant de hoisir le bon modèle en
ad-mettant que elui- i existe? S'ilest di ile de répondre par l'armative tellement
le problème possède d'impli ations,dont elle d'être sûr d'avoir, dans sa olle tion
demodèle,lebon modèle,denombreuses pistesontétéexploréesdansun ontexte
probabilisteet statistiquedepuis plus de quarante ans.
Dans le hapitre suivant, la question du hoix (ou de la séle tion) d'un modèle
seradon abordée.Puis, dansles hapitres3et4, ette questionreviendra(ounon)
dans diérents ontextes appli atifs :
la ompression d'images, la ara térisation de anaux de transmission,
l'ana-lyse de signaux physiologiques, la segmentation bas-niveau de volumes 3-D
TEP (Tomographie par Emission de Positrons) et la représentation d'images
ouleur,
à l'aide de modèles supposant l'indépendan e entre les é hantillons auxquels
peut s'adjoindreun modèle depro essus déterministeouun modèle de hamp
de régions;
la ara térisation de textures ouleur, la segmentation d'images texturées et
lasegmentation 3-D haut-niveau de volumes3-D TEP,
àl'aide de modèles de prédi tionlinéaire etde modèlespossédantsdes
distri-butionsde Gibbs,permettant de dé rire diérentes propriétés spatiales.
Séle tion de modèles par ritères
d'information
Dansle ontexted'uneappro heprobabilisteduproblèmedeséle tiondemodèle,
il paraît naturel de voir
M
m
omme la réalisation d'une expérien e aléatoire. Et il en sera de même ave un ensemble de paramètresθ
m
, dont l'espa e de réalisation sera notéΘ
m
et la d.d.p.π
m
(θ
m
) = f (θ
m
|M
m
)
si elle existe. Il est alors possible d'é rirela loi onditionnelledex
quand lemodèleM
m
est observé:f (x
|M
m
) =
Z
Θ
m
f (x, θ
m
|M
m
) dθ
m
=
Z
Θ
m
f (x
|θ
m
, M
m
) π
m
(θ
m
) dθ
m
(2.1) qui peut être onsidérée omme la fon tion de vraisemblan e marginale du modèleappeléeeviden e danslalittératureanglaise.L'obtention,parlebiaisde méthodes
d'optimisationsto hastique exploitant lasimulationde variablesaléatoires( omme
lesméthodes de Monte Carlo),des valeurs
f (x
|M
m
)
an de trouver le modèle qui renvoie la probabilité maximum a fait l'objet d'une vaste littérature en parti uliersous la dénomination du hoix bayésien de modèles (voir [Gre95℄ par exemple).
il sera question dans e do ument de l'appro he onnue sous le nom de ritère
d'information (IC pour Information Criterion). Nous reviendrons néanmoins sur
lesujet de l'optimisation sto hastique dans lesChapitres 3 et4.
Poursuivons maintenant la dis ussion ommen ée dans l'introdu tion au sujet
de la fon tion de vraisemblan e et supposons que nous avons aaire pour l'instant
à un ensemble de modèles emboités :
K
1
< K
2
<
· · · < K
M
. En observant les valeursg
M
m
θ
M V
m
,
m
∈ [[1, M]]
, un ertainnombre de her heurs ont onstaté queleur roissan e nissait par s'iné hir et que, de fait, la ourbe qu'elles forment
en fon tion de la dimension du modèle possède un oude. Ils ont don her hé à
identier la dimension du modèle asso ié à la lo alisation de e oude. La ourbe
intitulée terme MV (en fait, un terme proportionnelà l'opposé du logarithme du
MV) sur la gure 2.1b illustre bien es propos. Il est néanmoins di ile de dire
pré isément où se situe l'iné hissement de ette ourbe juste en l'observant. Il
pourrait être situé au niveau des ordres de valeurs omprises entre 7 et 12. D'une
ertainemanière,les ritèresd'informationréalisel'opérationdé ritepré édemment
tout en mettant en ÷uvre le prin ipede par imonie et possédant des justi ations
enlienave lathéoriedel'information.Eneet, leurformegénéraleest unefon tion
de la dimension du modèle onstituée de deux termes :
IC (m) = l
M
m
θ
M V
m
Le premier terme est le terme proportionnel à l'opposé de la log-vraisemblan e
(terme MV, voir g. 2.1b) en lien ave le pouvoir de représentation du modèle,
qui dé roît en fon tion de
m
ontrairement à la fon tion de vraisemblan e, et le se ond terme roît en fon tion de la omplexité du modèle. Ce deuxième terme estappelé lassiquementlapénalitéetilpermetd'iné hirla ourbedes valeursen lien
ave la vraisemblan e de manière àfaire apparaître une valeur minimum 1
. Souvent
p (K
m
, N) = K
m
α (N)
etlapénalitédépendlinéairementdu nombre deparamètres,pour
N
xé. Dans ertains ritères, un troisièmetermeapparaît voire plus ( f. par-tie 3.3.2). Quelque soit son é riture, le modèle est hoisi en minimisant le ritère :m
IC
= arg min
m
IC (m)
.Dans e hapitre,unrappelsurlesoriginesdes ritèresd'informationestproposé
ainsi que la présentation de quelques apports plutt théoriques, essentiellement en
lien ave lestravaux de Do torat de GuilhemCoq [Coq08℄, on ernant la séle tion
de modèles.
P
∗
ou
θ
∗
désigneront par la suite respe tivement la vraie loide probabilité ou
le vrai modèle dont sont issus les é hantillons
x
. La question de l'appartenan e éventuelle deθ
∗
à l'ensemble des modèles onsidérés n'entre pas dans le adre des
travauxprésentés i i.On trouve dans lalittérature des référen es traitantdes deux
as [Nis84, Nis88℄ ouen ore [LMh04℄ pour la notion de quasi-vrai modèle.
2.1 Notions fondamentales en lien ave l'entropie
2.1.1 Entropie
L'entropie est une grandeur léasso iée àune distribution de probabilité. Nous
en donnons brièvement unedénition et lelienqu'elle entretient ave l'information
de Kullba k qui a été utilisée pour développer et étudier les propriétés des ritères
d'information.
L'entropie prendra les formes suivantes selon que l'espa e
Ω
sera dis ret ou s'il sera possible de dénir une d.d.p.f
:H(P ) =
−
X
x
s
∈Ω
P (x
s
) log P (x
s
)
H(f ) =
−
Z
R
f (x
s
) log f (x
s
)dx
s
(2.3)On sous-entendra toujours que
0 log 0 = 0
. La base du logarithme a peu d'impor-tan e.L'entropieestlargementutiliséedansdesdomainestelsquelathermodynamique
ou l'astrophysique. Sa prin ipale utilité est de mesurer le désordre apporté par la
distribution. Pour illustration, sur un espa e dis ret de ardinal
m
, la distribution uniforme a la plus forte entropie. Parmi toutes les distributions à densité ontinuesur
[0, 1]
, 'est ladistributionuniformequi alaplus forteentropie. Parmi touteslesdistributions à densité ontinue sur
R
de moyenne et varian e xéesµ
etσ
2
, 'est
ladistribution normale
N (µ, σ
2
)
qui a laplus grande entropie.
C'esten e sens que,fa eàune observationd'unedistributiondontilne onnait
rien, un utilisateur devrait faire en premier lieu l'hypothèse que ette distribution
est d'un de es types. Dans le as ontraire il diminuerait sans raison le désordre
apporté par sadistribution.
2.1.2 Entropie roisée
Considérons maintenant deux distributions déniessur un même espa e
proba-bilisé. Une grandeur non symétrique entre es deux distributions, appelée entropie
roisée,peut être déniepar
H(P, Q) =
−
X
x
s
∈Ω
P (x
s
) log Q(x
s
)
H(f, g) =
−
Z
R
f (x
s
) log g(x
s
)dx
s
(2.4)Par ommodité de notation,ilarriveraque ladistin tionentre les adres dis ret
et ontinu ne sera pas faite et, dans e as, les distributions seront appelées
P
etQ
.L'inégalitéde onvexité de Jensen donnele résultatsuivant :l'entropieH(P )
et l'entropie roiséeH(P, Q)
vérientH(P )
≤ H(P, Q)
.Ce résultat,également appelé inégalitéd'information de Shannon, onstitue les
fondements de la théorie de l'information dans [Sha48℄. Elle permet également de
dénirl'informationnon symétrique de Kullba k entre
P
etQ
ommeCettequantitépositivemesuredon ledéfautd'entropiequeprésenteladistribution
Q
par rapport àP
. Dans le as de deux lois de probabilité absolument ontinues par rapport à la mesure de Lebesgue, de d.d.p. paramétrées respe tivesf
θ
etf
θ
′
, elle s'é rit:K (θ, θ
′
) =
−
Z
R
f
θ
(x
s
) log
f
θ
′
(x
s
)
f
θ
(x
s
)
dx
s
(2.6)C'est l'une des nombreuses divergen es permettant de mesurer l'é art entre deux
lois de probabilité [Bas96℄. Ces notions d'entropie et d'entropie roisée ont permis
le développement d'outilspour le odage binaire de séries de symboles.
2.1.3 Codage entropique et arithmétique adaptatif
Soit
E
un ensemble deψ
symboles. Un ode binaire surE
est une appli ation inje tiveC : E
→ ∪
i∈N
∗
{0, 1}
i
. La longueur deC(x)
,x
∈ E
, est notéeL(x)
. Onode ainsi haque symbolepar une haîne. Si
L
vérie l'inégalitéde Kraft[Gru05℄, onsaitqu'elle estla longueurd'un ertain ode quisatisfait la onditiondu préxe,indispensable au dé odage. Prenant
P
une probabilité surE
etL =
⌈− log P ⌉
, oùlog
est lelogarithme àbase 2,L
vérie ette inégalitéet est don la longueur d'un ode binairequenous onfondronsaveP
.Ainsi,siP (x)
est grand,L(x)
est faible. SurdesdonnéesprovenantdeP
in onnue,l'obje tifdu odagedeHumanestde trouver un odageQ
dont l'entropie roiséeH(P, Q)
se rappro he leplus deH(P )
. Cependant le odage arithmétique2
[Ris76℄, onsistant à oder plusieurs symboles
simultanément,donnede meilleursrésultats. Finalement,des onsidérationsautour
du odage arithmétique adaptatif ont amené Rissanen à dénir la omplexité
sto- hastiquequiestàlasour ede lathéoriede laséle tiond'unmodèleparlalongueur
minimaledu ode (le MDL - Minimum Des riptionLength) [Ris86℄. Dans lapartie
2.2.3, il sera fait les rappels né essaires pour présenter le lien entre la théorie du
MDL etla séle tionde modèle.
2.2 Les diérents ritères d'information
2.2.1 Minimisation d'un risque
Les travaux d'Akaike [Aka74℄ autour de l'obtention de l'ordre d'un modèle
Au-toRegressif mono-dimensionnel (AR 1-D) sont à l'origine des ICs. Comme il sera
souvent question de modèles AR dans e do ument (voir les parties 2.3.1, 4.1 et
4.2), rappelons tout de suite son é riture générale :
X
s
=
−
X
r∈D
a
r
X
s−r
+ E
s
(2.7)où
D
est appelé le support de prédi tion.E =
{E
s
}
s∈∆
, le pro essus innovation ou ex itation, est un bruit blan de varian eσ
2
e
. Pour le as 1-D et ausal,D
s'é ritD
m
=
{1, · · · , m}
,m
∈ N
∗
étant l'ordre du modèle. Si
m = 0
,D
0
=
∅
. Les modèles dénis par es supports peuvent être emboités ou non omme nousle verrons ultérieurement (voir partie 2.3.2). Pour l'instant, étudions les modèles
AR 1-D dénis par des supports de taille roissante d'ordre 0 jusqu'à un ordre
maximum
M
. A haque modèle est alors asso ié un ensemble de paramètresθ
m
=
{a
m,r
}
r∈D
m
, σ
m,e
2
,
m = 0,
· · · , M
,de ardinalK
m
= m+1
etils'agitd'unefamillede
M + 1
modèles emboités{M
0
,
· · · , M
M
}
.Comme le montre l'équation 2.7, un pro essus AR
X
n'est pas un pro essus indépendemment et identiquement distribué (i.i.d.) pourm > 0
. Par ontre, sous hypothèse gaussienne, le pro essus innovation l'est. Dans le as ausal et à l'aided'un hangementde variable aléatoire,lesfon tions de vraisemblan e (voir éq.1.1)
pour
m = 0,
· · · , M
,peuvent s'exprimerainsi :g
M
m
: R
m+1
→ R
+
θ
m
7→ g
M
m
(θ
m
) = f (e
m
|θ
m
, M
m
) =
Q
s∈∆
f
θ
m
(e
m,s
)
(2.8) avee
m
=
{e
m,s
}
s∈∆
,l'ensembledeserreursdeprédi tion onnaissantx
etθ
m
,e
m,s
=
x
s
+
P
r∈D
m
a
r
x
s−r
,etf
θ
m
(e
m,s
) =
1
√
2πσ
2
m,e
exp
e
2
m,s
2σ
2
m,e
. Sousdes onditions lassiques
de régularité sur les fon tions
θ
7→ f (x |θ )
[Kay93℄, la matri e d'information de Fisherenθ
∗
I(θ
⋆
) = [I(θ
⋆
)
i,j
] =
"
−
Eθ
⋆
"
∂
2
log f (x
|θ )
∂θ
i
∂θ
j
|θ=θ
∗
##
dénit un produit s alaire
h., .i
sur l'espa e des paramètres de norme asso iéek.k
. Akaikeadon her hé lapénalitépermettantde minimiserlerisque, asso iéà ettenorme,du hoixd'un modèle
θ
:E
kθ
∗
− θk
2
.
(2.9) Auvoisinage deθ
∗
, ette norme est reliéeà l'informationde Kullba k (voir éq.2.6)
par la formule suivante:
2K (θ
∗
, θ) =
kθ
∗
− θk
2
-20
-15
-10
-5
0
5
10
15
20
0
500
1000
1500
2000
2500
3000
3500
4000
echantillon
EMG
(a)1300
1400
1500
1600
1700
1800
1900
2000
2100
0
5
10
15
20
25
30
Ordre
Courbes IC - EMG
"terme MV"
AIC
BIC
pbmin
(b)Fig. 2.1 Exemple sur un signal d'Ele tromyographie (EMG). (a) Signal EMG
(après retrait de l'inuen e du réseau éle triqueet de la omposante ontinue). (b)
En utilisant les propriétés du produit ve toriel et des approximations en lien ave
des onsidérationsasymptotiques, Akaike aalors obtenu le ritère AIC (Akaike IC)
qui dans le as du modèle AR 1-D ausalgaussien s'é rit,
m = 0,
· · · , M
:AIC(m) =
−2 log g
M
m
θ
M V
m
+ 2K
m
= 2l
M
m
θ
M V
m
+ 2K
m
(2.11)où apparaîtl'opposé de la log-vraisemblan e
l
M
m
(.) =
− log g
M
m
(.)
. L'opposé de lalog-vraisemblan etendasymptotiquementversl'entropie e quiexpliquequeparfois
les ritères d'information sont aussi appelés ritères d'entropie pénalisée. De plus,
d'après l'équation 2.8 et sous hypothèse gaussienne, le ritère peut s'é rire suivant
une formesimpliée, en éliminantles termes onstants :
m
AIC
= arg min
m
2N log σ
M V
m,e
+ 2K
m
(2.12) aveσ
M V
m,e
,l'estimationausens duMV del'é art-typede l'ex itationpour lemodèle d'ordrem
. De part l'é riture de la vraisemblan e en fon tion de l'é art-type de l'ex itation, une méthode d'estimation des paramètres AR ausaux gaussiens ausens des moindres arrés (MC) va don fournir une estimation au sens du MV, e
quientraîne souvent des omplexités de al ulpeu élevées en parti ulierdans le as
des appro hes par oe ients de réexion(voir[Ala98℄).
La ritique prin ipale envers le ritère d'Akaike vient du onstat qu'il est non
onsistantsionseréfèreaux onditionsénon és dans [Nis88℄:un ritère
d'informa-tion de la forme
IC (m) = l
M
m
θ
M V
m
+ α(N)K
m
estonsistantau sens fort (
lim
+∞
m
IC
= m
∗,
onvergen e presque sûre) si
lim
+∞
α(N)
N
= 0 et lim
+∞
α(N)
log log N
= +
∞,
(2.13)onsistantausensfaible(
lim
+∞
P (m
IC
= m
∗
) = 1
, onvergen eenprobabilité)silim
+∞
α(N)
N
= 0 et lim
+∞
α(N) = +
∞.
(2.14)Comme
α
AIC
(N) = 2
ne dépend pas du nombre d'é hantillons, il apparaît dire -tement que le ritère d'Akaike ne remplit pas les deuxièmes onditions énon éeséquations2.13 et 2.14.
Si l'étude des propriétés asymptotiques a été au entre des réexions des
her- heurs travaillantsur les ICs dans les années 80 et 90, depuis une dizaine d'année,
ertainsauteurs ont plutt abordé laquestion d'un point de vue pratique : dans la
réalité,lenombre d'é hantillons est toujoursni(mêmes'ilpeut êtregrand)et
par-foisdepetitestailles[Bro00℄.Ainsi,l'étudedes bornesdurisque est apparue omme
un hamp d'étude approprié pour proposer de nouvelles pénalisationsqui, en n de
ompte, se sont révélées des généralisationsde lapénalisation du ritère d'AIC ar
ne dépendant pas du nombre d'é hantillons [BBM99, Bar00,Bar02, Bir04, Bir06℄ :
α(N) = C
1 +
p
2L
m
2
où
C > 1
etL
m
≥ 0
estun nouveau poidsasso iéaumodèleM
m
.Ce nouveau poidsestd'ailleurssus eptibledefaireperdrelalinéaritéenfon tionde
K
m
delapénalité. Passons maintenantàladeuxièmeappro he en lienave lafon tioneviden e etle2.2.2 Appro he bayésienne
D'aprèslethèorèmedeBayes,ilestpossibled'é rirelafon tiondevraisemblan e
marginaled'un modèle (voiréq. 2.1) de la manièresuivante :
P (x
|M
m
) =
P (M
m
|x) P (x)
P (M
m
)
.
(2.15)Ainsi, un des premiers ritères proposé, le ritère BIC (pour Bayesian Information
Criterion) [S h78 ℄, est onstruit sur la maximisation de la probabilité a posteriori
du modèle onnaissant l'observation :
m
BIC
= arg max
m
P (M
m
|x)
(2.16)
P (x)
estune onstantedufaitquex
estl'observationet, lassiquement,laloiapriorides modèles est supposée non informative :
P (M
0
) = P (M
1
) =
· · · = P (M
M
)
. La maximisation de la loi a posteriori passe don par l'expression de la fon tionde vraisemblan e marginale des modèles. Cette intégrale peut être appro hée en
utilisantlaméthoded'approximationdeLapla e.Dans[LMh04 ℄, esdéveloppements
sont rappelés. Ils mênent àl'expresion suivante :
BIC (m) = 2l
M
m
θ
M V
m
+ K
m
log(N) +
O(1) + O(N
−1/2
)
(2.17)Sa hantquelesdeuxpremierstermestendentversl'inniquand
N
tendversl'inni, les deux derniers termes sont souvent négligésetα
BIC
(N) = log(N)
e qui faitque e ritèreest onsistant(il onverge presquesûrementd'aprèsles onditionsdonnéeséquation 2.13). Dans le terme
O(1)
, il apparaîtle logarithme du déterminant de la matri e d'informationde Fisherqui est parfois gardédans ertaines études.2.2.3 Séle tion par la longueur minimum de ode
Danslaprésentationdelathéoriedu odagearithmétiqueetduMDL(voirpartie
2.1.3), l'é hantillon est supposé être issu d'une haîne de Markov multiple (CMM).
Commeles modèlesAR ausaux,les CMMsontdénis par un ordre
m
en lienave un passé mais, au lieu d'une relation linéaire entre les variables aléatoires, il s'agitd'une relation plus générale exprimée en terme de probabilité onditionnelle:
P (X
s
|X
s−1
,
· · · , X
0
) = P (X
s
|X
s−1
,
· · · , X
s−m
)
(2.18)pour tout
s
∈ N
,s
≥ m
, etΩ
est supposé être un ensemble ni de symboles de ardinal niψ
(voir partie2.1.3).Considéronsleproblèmedeséle tiondemodèlessuivant:étantdonnéune haîne
x
de longueurN
, séle tionner l'ordrem
d'une CMM dontx
serait une réalisation. Pourm
∈ N
, notonsΘ
m
l'espa e de réalisation des paramètres du modèle d'ordrem
, onstitué des probabilités de transitions d'une CMMd'ordrem
,etΘ
la réunion desΘ
m
. Le nombre de omposantes libres d'unθ
m
∈ Θ
m
estK
m
= (ψ
− 1)ψ
m
, enomettant lesprobabilités à l'initialisation.
Appelons omplexité sto hastique de
x
relativement au modèle d'ordrem
la longueur du ode arithmétique adaptatif dex
à l'ordrem
, notéeC
m
(x)
. Il a été montréquesix
estuneréalisationd'uneCMMd'ordrem
⋆
,alors
m
⋆
etdon son espéran e. LeMDL pré onise don de hoisir l'ordreminimisant
C
m
(x)
ouson risqueIE [C
m
(x)]
.Le al uldesC
m
(x)
étant omplexe,Rissanenee tueune étude détaillée deIE [C
m
(x)]
aboutissant à un en adrement de es valeurs [Ris86, Coq08℄. Les inégalités de et en adrement suggèrent d'estimerIE [C
m
(x)]
par RIC (pour Rissanen IC):RIC
(m) = 2l
M
m
θ
M V
m
+ K
m
log(N),
(2.19)etleprin ipedu MDL répond auproblème de séle tionde modèles posé en
hoisis-santl'ordre
m
qui minimiseRIC(m)
.Ce ritèreRIC prendla mêmeformequeBIC (voirpartie2.2.2)quandN
devientgrand.Ilpossèdedon lamême onsistan eforte. Et etteappro he peut bien entendu être utilisée sur d'autres types de modèles.2.2.4 Critère
ϕ
β
et dis ussionD'autres ritèresd'informationontété proposésdans lalittérature(voir[Coq08,
OA07℄ 3
et partie3.3.2). Au oursdes travauxde re her he quiseront présentés par
la suite, le ritère
ϕ
β
s'est révélé parti ulièrement intéressant d'un point de vue pratique de part son terme d'ajustementβ
ompris entre 0 et 1 stri tement pour quele ritère soitfortement onsistant (voir onditions énon ées équation 2.13).Ceritère, proposé dans [EMH96 ℄, apparaît omme une généralisation des travaux de
Rissanensur la omplexitésto hastique :
ϕ
β
(m) = 2l
M
m
θ
M V
m
+ K
m
N
β
log log(N)
(2.20) etdonα
ϕ
β
(N) = N
β
log log(N)
. Si on hoisit bien
β
, en l'o urren e:β
AIC
=
log 2−log log log N
log N
β
BIC
=
log log N −log log log N
log N
(2.21)
le ritère
ϕ
β
peut prendre lesformes des ritèresprésentés pré édemment. A partir de es dénitions,0 < β
BIC
< 1
pourN > 4
etβ
AIC
< 0
pourN > 1619
e qui est ohérent ave la non onsistan e annon ée du ritère AIC.Dans ertains problèmes, les ritèresAIC etBIC peuvent avoir tendan e à
sur-paramétriser le modèle hoisi. An de pallier e défaut, un en adrement de la
va-leur de
β
a été proposé permettant de dénir les valeurs parti ulièreβ
min
etβ
max
[JOM00℄ :0 < β
min
=
log log N
log N
≤ β ≤ β
max
= 1
− β
min
< 1
(2.22)On notera par la suite
m
min
= arg min
m
ϕ
β
min
(m)
etm
max
= arg min
m
ϕ
β
max
(m)
. Cesbornes ont été testées dans ertains ontextes appli atifs qui seront présentés
ulté-rieurement (voir par exemple la partie 2.3). Il faut noter dès à présent que, pour
N > 15
,β
AIC
< β
BIC
< β
min
< β
max
< 1
etdonm
AIC
≥ m
BIC
≥ m
min
≥ m
max
.3
Le livre Optimisation en traitement du signal et de l'image a été traduit en Anglais
Illustrons maintenant à l'aide d'un exemple on ret 4
tous es rappels plutt
théoriques. Figure 2.1amontre une partie d'un signald'Ele tromyographie(EMG),
a quis sur un mus le inter ostald'un hien, dans une zone oùil n'ya pas de
bouf-fées mus ulaires. A l'origine, e signal est bruité par le réseau éle trique. I i, il
s'agitdu signalrésiduel,quipeutêtreassimiléàunbruitd'a quisition,aprèsretrait
de la moyenne et de la sinusoïde liée au réseau. A l'observation de e bruit, trois
hypothèses peuvent être formulées : il s'agit d'un signal aléatoire, d'une zone
sta-tionnaireet lesé hantillonspeuvent être onsidérés ommeune réalisationde taille
N
d'un pro essus AR ausal.Bien entendu, une bonne démar he onsiste àvérier es hypothèses (voir par exemple [BD02℄). De plus, même si des tests statistiquespermettent de vérier es hypothèses, rien ne prouvera in ne que es é hantillons
sontbien issus des modèlesenvisagés. Il faudraitfaireune étudeprenanten ompte
toute l'éle tronique mise en jeu et des modèles physiologues pour aboutir à un
modèle de représentation plus à même de dé rire es données. Eten ore ...
Suivant l'hypothèse que l'erreur de prédi tion est gaussienne, les ourbes de la
gure 2.1b donnent les valeurs
IC(m)
pour les ritères AIC, BIC etϕ
β
min
(ϕ
β
max
sous-estimant fortement l'ordre, sa ourbe a été omise pour des raisons de
visuali-sation). Les valeurs obtenues sont :
m
AIC
= 19
,m
BIC
= 11
,m
min
= 8
etm
max
= 1
e qui montre bienque sionveut justier le hoixd'un modèle,une première étapeonsiste à trouver le bon ritère fa e à une appli ation donnée (ou un résultat
at-tendu), e qui semble être la démar he suivie dans les travaux ré ents autour de
la minimisation du risque (voir partie 2.2.1). Les données n'étant pas simulées, les
ourbes ne présentent pas la régularité attendue mais 'est aussi l'intérêt de
tra-vailler sur des données réelles : les théories mathématiques sont mises à mal et,
souvent, ilfautarriveràprendre du re ulfa e àun résultatexpérimentalinattendu
an de modier l'appro he mathématique utilisée dans un premier temps. Enn,
dans un ontexte pratique donné, le paramètre
β
du ritèreϕ
β
peut se révéler une variable d'ajustement très intéressante (dans l'exemple proposé, pourN = 4000
:β
AIC
=
−0.0068
,β
BIC
= 0.165
,β
min
= 0.255
etβ
max
= 0.745
) surtout dans le asoùil est possiblede réaliser un apprentissage.Ce point seradébattu ultérieurement
au ours de e rapport dans divers ontextes appli atifs (voir parties2.3.2 et 3.2).
4
L'analyse et le traitement du signal d'Ele tromyographie m'a permis de monter un TP, de
niveau Master,sur plusieursséan es, au ours duquel laTransformée de Fourierdis rète,
l'esti-mationausensdumaximumdevraisemblan e,lemodèleAR,les ritèresd'information,lestests
s
1
s
1
s
2
s
2
2
r
2
r
r
1
r
1
2
m
2
m
1
m
1
m
Support QP
Support DPNS
Site courant
Site courant
Fig. 2.2 Supports d'ordre
(m
1
, m
2
)
Quart de Plan premier quadrant (QP1) et Demi-Plan NonSymétrique (DPNS).2.3 Modèles autorégressifs
Au oursde lapartiepré édente, ilaétéquestiondumodèleAR1-D ausal.Ces
types de modèles ont été étendus à la modélisationde signaux multidimensionnels
[AC01℄. Dans [AO03℄, le ritère
ϕ
β
min
a été proposé pour l'estimation du support de modèles AR 2-D ausaux etexpérimenté sur des textures synthétiques et réelles[Ala98℄.
2.3.1 Prédi tion linéaire bidimensionnelle
UnmodèleAR2-D ausalestdéniparl'équation2.7ave
s = (s
1
, s
2
)
∈ ∆ ⊂ Z
2
,
|∆| = N = N
1
× N
2
, le nombre de olonnes et de lignes, etr = (r
1
, r
2
)
∈ D ⊂ Z
2
.Diérents types de support ont été proposés dans la littérature. Les plus utilisés
sontle support Quart de Plan (QP) 5 ,d'ordre
m = (m
1
, m
2
)
∈ N
2
(voir Fig. 2.2) :D
QP 1
m
=
r
∈ Z
2
, 0
≤ r
1
≤ m
1
, 0
≤ r
2
≤ m
2
, r
6= (0, 0)
(2.23)
etle support Demi-Plan NonSymétrique (DPNS -voir Fig.2.2) :
D
DP N S
m
=
{r ∈ Z
2
, 0 < r
1
≤ m
1
pourr
2
= 0,
−m
1
< r
1
≤ m
1
pour0 < r
2
≤ m
2
} .
(2.24)
Les ardinauxdesmodèlesasso iéssont
K
QP 1
m
= (m
1
+ 1) (m
2
+ 1)
etK
DP N S
m
=
(2m
1
+ 1) m
2
+ m
1
+ 1
, en rajoutant le dé ompte de la varian e de l'ex itationau ardinal du support de prédi tion. Lorsqu'on se xe un ordre maximum
M =
(M
1
, M
2
)
, nous ne sommes plus dans le as d'un ensemble de modèles emboités puisqu'il est possible d'avoirdeux modèlesdiérents ave des ardinaux égaux.5
Ilexistequatre supports QPsdiérents.La dénition del'équation 2.23est elle dupremier
(a) ordre (1,1)
(b) ordre (2,2)
(c) ordre (3,3)
(d) ordre (1,3)
(e) ordre (5,2)
(f) ordre (1,1)
(g) ordre (2,2)
(h) ordre (3,3)
(i) ordre (1,3)
(j) ordre (5,2)
Fig. 2.3 Textures de synthèse obtenues à partir de diérents modèles AR 2-D
(1ère ligne) etleurs Densités Spe tralesde Puissan e (DSP)sur la2ème ligne.
Dansle asdes modèlesARgaussiens ausaux,lesICs(AIC,BIC,
ϕ
β
)s'é rivent sous laformegénérale, et ela quelque soit ladimension :m
IC
= arg min
m
2N log σ
m,e
M V
+ α
IC
(N)K
m
(2.25)
De manière lassique, les performan es des ICs sont omparées sur des
pro es-sus AR simulés (voir [OA07℄). La gure 2.3 montre une réalisation par pro essus
ARs QP1 utilisésdans [AO03℄. Rappelonsmaintenant,une des propriétés quiafait
l'intérêt de la ommunauté du traitement du signal et des images pour le modèle
AR :ilspermettent deréaliserune analysespe traleHaute Résolution[CRA01℄ par
la fon tion de transfert (notée
H
par lasuite) qui lui aitasso ié, un pro essus AR étant par dénition un ltrage numérique de type RII (Réponse Impulsionnelle desupport temporel Inni) d'un bruit blan . Ainsi, la Densité Spe trale de Puissan e
(DSP) absolument ontinue d'un pro essus AR (voir[CAR01℄ 6
) s'é rit alors :
S
X
(ν) =
|H
AR
(ν)
|
2
S
E
(ν)
(2.26)ave
ν
lafréquen e normalisée etH
AR
(ν) = A(ν)
−1
,
A(ν) = 1 +
X
r∈D
a
r
exp (
−j2π hν, ri)
(2.27)ave
h., .i
,leproduits alairedeR
d
.Dansle as 2-D,
ν = (ν
1
, ν
2
)
∈ R
2
etlaDSP est
périodique de période 1 suivant les deux axes. La gure 2.3 montre les DSPs pour
ν
∈ [−0.5, 0.5]
2
de diérents pro essus AR QP1. Ces DSPs ontiennent des modesfréquentiels variés (hautes et basses fréquen es, ontenus fréquentiels pro hes ou
biendistin ts) equirendl'expérimentationsur etensemblede modèlespertinente.
6
Ce hapitrefournilesextensionsaux as2-Ddesfondementsdutraitementdusignal1-D.Le
L'ordre maximum a été xé à
M = (10, 10)
et haque pro essus a été simulé ent foispour diérentesvaleursdeN
(45
× 45
,55
× 55
,64
× 64
,80
× 80
et90
× 90
).Les tableaux2.1et2.2donnentlesrésultatsobtenusave le ritèreBICetle ritèreϕ
β
min
. Le ritère BICdonne de moins bons résultats ar, dans e ontexte expérimental,ilatendan e àestimerun ordre trop importantet 'est for ément pire pour le ritère
AIC (voir partie 2.2.4). Il faut noter le bon omportement de
ϕ
β
min
. L'algorithme d'estimationdesparamètresARutilisé étaitunalgorithmeadaptatifexploitantuneappro he par oe ients de réexion bidimensionnelle évitant toute inversion de
matri e [LN96, Ala98℄. Il eut été intéressant d'étudier l'inuen e de l'algorithme
d'estimation, par exemple en utilisantun algorithme basé sur la méthode de Y
ule-Walker, sur les performan es des ritères.
Tab. 2.1 Pour entages d'estimation exa te de l'ordre du modèle ave BIC. 1ère
ligne :ordre
(m
1
, m
2
)
onnu -1ère olonne: taillede l'imageN
1
× N
2
. (1,1) (2,2) (3,3) (1,3) (5,2)45
× 45
91 99 97 100 9755
× 55
94 96 98 100 9664
× 64
84 95 100 99 9480
× 80
91 95 98 100 9290
× 90
86 94 99 100 93Tab. 2.2 Pour entages d'estimation exa te de l'ordre du modèle ave
ϕ
β
min
. 1ère ligne :ordre(m
1
, m
2
)
onnu -1ère olonne: taillede l'imageN
1
× N
2
.(1,1) (2,2) (3,3) (1,3) (5,2)
45
× 45
99 100 100 100 10055
× 55
100 100 100 100 10064
× 64
100 99 100 100 10080
× 80
99 100 100 100 10090
× 90
99 100 100 100 100Tab. 2.3 Estimationde l'ordre pour 16
(64
× 64)
-images issues de D92.(m
1
, m
2
)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2) autreAIC 0 1 2 2 0 0 11
BIC 0 5 9 1 1 0 0
ϕ
β
min
1 12 1 2 0 0 0Si on utilise maintenant es ritères pour hoisir un modèle sur des données
réelles omme des textures, omment savoir quel ritère sera le plus approprié?
Cettequestionfait é hoàladis ussionde lapartie 2.2.4.Dans[AO03℄,l'expérien e
aété menéesur quatretextures de Brodatz [Bro66℄(voirFig.2.4). Cestextures ont
été hoisies en lien ave la variété de leur ontenu spe tral qui peut être observé à
(a) D 19
(b) D 29
(c) D 38
(d) D 92
(e) D 19
(f) D 29
(g) D 38
(h) D 92
Fig.2.4 4textures deBrodatz[Bro66℄(1èreligne)etlesmodulesdeleur TFD2-D
sur la2ème ligne.
pour les diérentes valeurs de
β
utilisées 7sont diérents. De manière générale, les
résultats les plus stables ont été obtenus ave le ritère
ϕ
β
min
quelque soit la taille des images(de45
×45
à90
×90
).Cependant, elane permettoujourspasd'armer que e ritère ore lebon hoix de modèle.Dans [AO03℄, une manipulation originale a été proposée an de tenter de
ré-pondreparl'expérien eàlaquestion posée.Lespro essus ARspeuvent êtreutilisés
en analyse ou en simulation,pour synthétiser des réalisations quenous appellerons
i i texture simulée. Comme es pro essus permettent d'estimer la DSP qui est la
TFdelafon tiond'auto orrélation,ilpeutêtreenvisagéd'évaluerladiéren eentre
les orrélations estimées à partir de la texture d'origine (
T
b
) et la texture simulée (T
s
).A eteet, ilest possibled'utiliserladivergen e de Kullba k expriméedansle as de pro essus orrélésgaussiens de moyenne nulle[Bas88, Bas96℄:DK (T
b
, T
s
) =
1
2
trR(T
b
)R(T
s
)
−1
+
trR(T
s
)R(T
b
)
−1
− 121
(2.28)ave
R(T
i
)
,i = b
ous
,lamatri ede ovarian eestiméei iàpartird'unsupportQP1de taille
10
× 10
(matri e121
× 121
) et tr(.) l'opérateur qui renvoie la tra e d'une matri e. Dans e ontexte, les modèles de supports QP1 et NSHP ont été testés.La tendan edes résultats obtenuspeut être illustréepar lagure 2.5 quidonne des
valeursde distan es moyennes: pour haque texture, ladivergen e de Kullba k est
al uléedix fois àl'aide de dixréalisations du pro essus etondispose de 25images
45
× 45
et80
× 80
,et de 16 images55
× 55
,64
× 64
et90
× 90
.Les on lusions de ette étude sur les textures étaient les suivantes, en
rappe-lantquel'algorithmeadaptatif2-DFLRLS(TwoDimensionalFastLatti eRe ursive
Least Squares) aété utilisé : labonne lisibilité(ou stabilité)des ordres de modèles
7
5
6
7
8
9
10
11
12
13
45
50
55
60
65
70
75
80
85
90
Divergence de Kullback
racine carre de la taille de l’image
D 92 - QP
AIC QP
BIC QP
phi_beta_min QP
Fig. 2.5 Divergen es de Kullba k obtenues à partir de la synthèse de pro essus
AR 2-D QP1 dontl'ordre a été estimé ave diérentsICs.
estimés à l'aide de
ϕ
β
min
, e qui permet d'envisager une bonne ara térisation en termede hoix de modèle (voirTab. 2.3), etdes valeurs de divergen es de Kullba kplus faibles que elles obtenues ave les autres ritères, e qui permet d'envisager
une bonne des ription des statistiques d'ordre 2. Ces onsidérations autour de la
modélisation de textures ont été exploitées pour la mise au point d'une méthode
non-supervisée de segmentation d'images texturées [AR05℄ (voirChapitre 3).
Dans la suite de e hapitre, nous voyons omment ne pas se limiter à l'usage
de supports de tailles roissantes dans le as du modèle AR 1-D et des supports de
formere tangulairedans le as du modèle AR 2-D[CAOA09 ℄.
2.3.2 Méthodes omparatives
Pour pouvoir aborder le problème du hoix de modèles diéremment de la
ma-nière utilisée pour les modèles emboités, il faut dénir autrement l'ensemble des
modèles. Soit, ommepré édemment,
M
lenombre maximum de paramètres libres et on peut prendre sans manque de généralitéΘ
M
= R
M
. Des sous-modèles
dis-joints,pouvant être de même ardinaux, apparaîssenten xantun paramètre
θ
0
de
référen e eten onsidérant les
2
M
sous-ensembles indexés par un support
S
, partiede
[[1, M]]
:Θ
S
=
θ
∈ Θ
M
tels que∀j ∈ S, θ
j
6= θ
0
j
et∀j /
∈ S, θ
j
= θ
0
j
(2.29)
Unsous-modèle
θ
S
∈ Θ
S
est ditalors de supportS
. Lesupport re her hé sera notéS
∗
; il est asso ié au sous-modèle
θ
∗.
Le as le plus fréquent est
θ
0
= 0
et ela
onvient dans le ontexte du hoix d'un modèle AR : le problème revient à trouver
les oe ients AR de valeur nulle. Uneétude portantsur larégression polynomiale
estproposéedans[Coq08℄et etteappro hepourraitaussis'appliqueràlare her he
des attributs pertinents dans un ensemble d'attributs pour représenter une forme
Méthode globale.
Le support in onnu
S
⋆
est estimé par minimisation du ritère sur tous les
sup-ports envisagés :
S
ICG
= arg min
S⊆[[1,M]]
(
IC(S)) .
(2.30)Cetteméthodeimposeune omplexité al ulatoirequine permetpasl'implantation
de l'appro he dans tous les ontextes appli atifs (voir Tab. 2.4).
Méthode omparative.
Dans[Nis88℄,uneméthodepossédantune omplexité al ulatoireinférieureaété
proposée. Fixons lavaleur du ritère lorsque tous lesparamètres sont libres omme
référen e etestimons lesupport
S
⋆
par
S
ICC
déni ommesuit :(
IC ref=
IC([[1, M]])
S
ICC
=
j
∈ [[1, M]],
IC ref≤
IC([[1, M]]
\ {j})
.
(2.31)Ainsi
S
ICC
ontientles omposantesjugéesimportantesviaIC ref≤
IC
([[1, M]]
\{j})
.Méthode omparative des endante.
Dans[Coq08℄,deuxnouvellesméthodesontétéproposées:laméthode
ompara-tive inversée, qui prend omme référen e, ontrairement à laméthode omparative
de Nishii,la valeur de l'IClorsque tous lesparamètres sont misà la valeur de
réfé-ren e
θ
0
,et laméthode omparativedes endante. Cette dernière méthode a permis
l'obtentiond'uneinégalitéora ledu risque de hoisirlebonmodèle[Coq08℄et 'est
don elle qui est présentée dans e do ument.
Laméthode omparative des endante élimineles omposantes jugées non utiles
par étape. L'étape 0 onsiste à xer
S
(0)
= [[1, M]],
IC(0)
ref=
IC(S
(0)
).
L'étape
k
≥ 0
ayant été ee tuée, onpro ède à l'étapek + 1
en posant :C
(k+1)
=
n
j
∈ S
(k)
,
ICS
(k)
\ {j}
≤
IC(k)
refo
J
(k+1)
= arg min
j∈C
(k+1)
ICS
(k)
\ {j}
S
(k+1)
= S
(k)
\
J
(k+1)
IC
(k+1)
ref=
IC(S
(k+1)
).
Ainsi,à haque étape, nous é artons dénitivement la omposante
J
(k+1)
jugée
la moinsutile par le ritère.A une ertaine étape
k
f
+ 1
, onobtiendraC
(k
f
+1)
=
∅
.
Cela signie que le ritère juge qu'il n'y a plus de omposantes inutiles dans
S
(k
f
)
.
Nous arrêtons don la pro édure et hoisissons
S
ICD
= S
(k
f
)
(2.32)omme estimation de
S
⋆
.
Notons que toutes les quantités
C
(.)
, J
(.)
, S
(.)
,
IC(.)
ref, k
f
produites par ette mé-thode sont aléatoires. Le nombre de ritères qu'il est né essaire de al uler pourTab. 2.4 Les trois méthodes et leur omplexité.
Globale(2.30) Comparative (2.31) Des endante (2.32)
2
M
M + 1
≤ M(M + 1)/2
Complexités des méthodes.
Le tableau 2.4 résume les omplexités des méthodes abordées i i en terme de
nombre de ritères à al uler né essaires à la séle tion de
S
. La méthode globale, présentant une omplexité exponentielle, est beau oup plus oûteuse en terme deal ul que les méthodes omparatives. Voyons maintenant l'appli ation de es
mé-thodes aumodèle AR 1-D.
Simulations ave le modèle AR 1-D
En se donnant un ordre de régression maximal
M
, les ICs s'é rivent dans le ontexte de la re her he des indi esr
pour lesquelsa
r
= 0
(voir éq. 2.7 & 2.25):IC
(S) = 2N log σ
M V
S,e
+ α
IC
(N)(
|S| + 1)
où
σ
M V
S,e
est l'é art-type estiméen supposant quele support estS
de ardinal|S|
. Pour omparer les diérents ICs, nous avons synthétisé des réalisations d'unpro essus AR, d'ordre15, dont lesparamètres sont :
θ
∗
=
{0.5, 0.4, 0, . . . , 0, 0.45} , σ
2
e
= 1
.
Nousappliquonsensuitelesméthodes(2.30)(2.31)et(2.32)ave
M = 20
en faisant varierβ
entre 0 et 1 (voir éq. 2.20). On ompte un su ès lorsque le supportS
hoisi est{1, 2, 15}
. L'expérien e est répétée 100 fois et les pour entages de su ès des méthodes sont représentés, en fon tion de lavaleur deβ
, sur la gure 2.6 pourN = 100
etN = 10.000
.Lesbarresverti ales orrespondent auxvaleursrespe tivesde
β
AIC ,β
BIC ,β
min etβ
max(voir éq. 2.21 et 2.22). Pour
N = 10.000
, on obtientβ
AIC< 0
, ette valeur n'apparait don pas sur la gure.
Les résultats des méthodes sont satisfaisants et omparables à faible omme à
grand nombre d'é hantillons. Cependant, pour les obtenir, les méthodes
ompara-tiveet omparativedes endanteontétéenviron200foisplusrapidesquelaméthode
globale.Ilfautaussinoterlebon omportementde laméthode omparative
des en-danteparrapport àlaméthode globale.Sur legraphiquede lagure2.6,lesbornes
β
minet
β
maxsemblent prendre totalement leur sens dans e ontexte
expérimen-tal : un intervalle de valeurs in lu dans
[β
min
, β
max]
donne des ritères permettant
d'atteindre un taux de 100%. Pour
N = 100
, et à partir de l'expérimentation qui fait o e de pro édure d'apprentissage, une valeur deβ
autour de 0.4 semble être appropriée.Données réelles et modèle AR 2-D
Si on onsidère les ré ursions lassiquement utilisées pour obtenir le support
DPNS (voiréq. 2.24) par ritère d'information [AO03℄, dans le as de la prédi tion
linéairebidimensionnelle, l'in rément sur le ardinaldu support n'est pas
systéma-tiquement de un. Par exemple, pour
m
1
> 1
etm
2
> 1
,Θ
m
1
,m
2
+1
etΘ
m
(a)
N = 100
(b)
N = 10.000
Fig. 2.6 Pour entage de su ès des méthodes omparativeset globaleen fon tion
ontiennent respe tivement
2m
1
+ 1
et2m
2
+ 1
paramètres en plus par rapport àΘ
m
1
,m
2
. Il apparaît alors que des indi es peuvent être in lus dans lesupport même s'ils ne sont pas pertinents et inversement des paramètres pertinents peuvent êtrerejetés ar ils né essiteraient l'in lusionde trop de paramètresnon pertinents.Fa e
à e onstat, la pro édure de hoix du modèle qui onsiste en la re her he de
l'en-semble des paramètres non nuls (ou pertinents) dans un support DPNS (voir éq.
2.24) d'ordre
M = (M
1
, M
2
)
apparaît omme une alternative judi ieuse.An de montrer la faisabilitéd'une telle pro édure, des simulationsont été
réa-lisées sur deux textures de taille
256
× 256
issues de l'album de Brodatz [Bro66℄ (voir Fig.2.7). A l'aide des méthodes omparative et omparativedes endante, dessupports de formenon ontrainteà l'intérieurd'unsupport DPNS d'ordremaximal
(7, 7)
ontété obtenus en utilisantle ritèreϕ
β
min
.La gure 2.7 montre les textures utilisées, les supports obtenus ave les
mé-thodes proposées ainsi que lesanalyses spe trales issues des DSPs estimées à l'aide
desmodèlesobtenus.Atitrede omparaison,nousavonsaussifournilesmodulesdes
TFD2-DquidonnentaussiuneestimationdelaDSP(méthode dupériodogramme).
Laméthode lassiquede hoixdu support DPNS a donné: pour la textured29, un
support de taille
(4, 2)
ontenant 22 paramètres ontre 14et 15 pour les méthodes omparatives; pour la texture d38, un support de taille(5, 3)
ontenant 38 para-mètres ontre 13 et 16 pour les méthodes omparatives. Dans les deux as, desparamètres séle tionnés par les méthodes omparative et omparative des endante
ontété ex lus par l'appro he lassique.
Pournir,ilestpossibledenoterquelessupportsobtenusave lesdeuxméthodes
dièrentetquelaméthodedes endanteatendan eàfournirplus deparamètresque
la méthode omparative : si on se réfère aux DSP estimées, le spe tre obtenu ave
la méthode omparative des endante sur la texture d38 semble améliorer elui
ob-tenu ave la méthode omparative. En perspe tive de ette étude, an de montrer
quantitativement quelle méthode dé rit le mieux les statistiques d'ordre 2, des