Contributions à la description de signaux, d'images et de volumes par l'approche probabiliste et statistique

(1)

HAL Id: tel-00573224

https://tel.archives-ouvertes.fr/tel-00573224

Submitted on 3 Mar 2011

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

volumes par l’approche probabiliste et statistique

Olivier Alata

To cite this version:

Olivier Alata. Contributions à la description de signaux, d’images et de volumes par l’approche

probabiliste et statistique. Traitement du signal et de l’image [eess.SP]. Université de Poitiers, 2010.

�tel-00573224�

(2)

Habilitation à diriger des re her hes

présentée et soutenue publiquement

par

Olivier Alata

le4 O tobre 2010

Titre:

Contributions à la des ription de signaux, d'images et de

volumes par l'appro he probabiliste et statistique

Jury

Y. Delignon Professeurà TELECOM Lille1 Président

G.Celeux Dire teur de re her he INRIA Sa lay-Île-de-Fran e Rapporteur

X. Des ombes Dire teur de re her he INRIA SophiaAntipolis Rapporteur

Ph. Réfrégier Professeurà l'E ole Centrale de Marseille Rapporteur

Y. Berthoumieu Professeurà l'InstitutPolyte hnique de Bordeaux Examinateur

C. Fernandez-Maloigne Professeurà l'Universitéde Poitiers Examinatri e

(3)

(4)

Les éléments prin ipaux apparaissant dans e do ument de synthèse sont les

suivants:

La mise en exergue de la pertinen e du ritère d'information

ϕ

β

qui ore la possibilitéd'êtreréglé parapprentissagede

β

et elaquelquesoitleproblème deséle tiondemodèlespourlequel ilestpossibled'é rireun ritère

d'informa-tion, possibilité qui a été illustrée dans divers ontextes appli atifs (supports

de prédi tion linéaire et dimension du modèle utilisé pour les inétiques de

˙

V O

2

, signal physiologique dé rit àl'aide d'un modèle linéairegénéralisé). Uneméthoded'estimationd'histogrammespourdé riredemanière

non-paramé-triqueladistributiond'é hantillonsetsonutilisationen re onnaissan e delois

supervisée dans un ontexte de anaux de transmission.

Uneméthodedite omparativedes endantepermettantdetrouverlameilleure

ombinaisondesparamètrespourdé rirelesdonnées étudiéessans avoirà

tes-ter toutesles ombinaisons, illustréesur l'obtention de supports de prédi tion

linéaire1-D et 2-D.

Lamise enpla ede stratégiesde hoixde modèlesparrapportàdes ontextes

variés ommel'imagerieTEP (Tomographiepar Emissionde Positrons)etles

lois de mélange de Gauss et de Poisson ou les espa es ouleur et les lois de

mélangegaussiennes multidimensionnelles.

L'exploration des modèles de prédi tion linéaire ve torielle omplexe sur les

images représentées dans des espa es ouleur séparant l'intensité lumineuse

de la partie hromatique etl'usage qui peut en être fait en ara térisation de

textures an de les lassieroude segmenter les imagestexturées ouleur.

Desapportsensegmentationd'imagestexturées:optimisationd'uneméthode

de segmentation non-supervisée d'images texturées en niveaux de gris; une

nouvelle méthode supervisée de segmentation d'images texturées ouleur

ex-ploitant les espa es ouleur psy hovisuels et les erreurs de prédi tion linéaire

ve torielle omplexe.

Uneméthode de segmentation 3-Dhaut-niveau exploitantleformalismedes

pro essus pon tuels qui permet de prendre en ompte des informations

géo-métriques et topologiques sur le hamp des régions introduites dans l'énergie

de Gibbs du pro essus.

L'illustrationdesméthodesMCMC dansdes ontextes divers omme

l'estima-tion de paramètres,l'obtention de segmentations2-D ou3-D oulasimulation

de pro essus.

(5)

The main elementsdes ribed inthis do ument are :

The use of information riterion

ϕ

β

whi h allows the learningof parameter

β

for any model sele tion problem possible to solve with the information

rite-rion. This is illustrated in the ontext of dierent appli ations in luding the

estimation of linear predi tion neighborhood support and model dimension

for

V O

˙

2

ineti swhi hisaphysiologi alsignaldes ribed withalineargeneral model.

An non-parametri method for the approximation of the data distributions

based on an information riterion based novel te hnique for the histogram

estimation. Asupervised frameworkfor lawre ognitionbased onthis method

is alsodis ussed.

The omparative des end method for the estimation of optimal parameter

ombinationin the data des ription problems withouttesting all the possible

parameter ombinations. This method is used for the optimal neighborhood

support estimation in1-D and 2-D linearpredi tion models.

Theimplementationofdierentmodelsele tionmethodologiesinvarious ontexts

in luding Poisson and Gauss mixture laws for PET (Positron Emission T

o-mography) volumes, and optimal olor spa es for multidimensional gaussian

mixture models.

Study of omplex multi hannel linear predi tion models for olor image

re-presentation in luminan e- hrominan e type olor spa es. The pertinen e of

thesemodelsfor olortexture hara terization, lassi ationandsegmentation

is alsodis ussed.

Some ontributions for textured image segmentation : the optimization of an

unsupervised methodforthesegmentationofgrayleveltexturedimages;a

su-pervised methodforthesegmentationof olortexturedimagesinpsy hovisual

olor spa es based on omplex multi hannellinear predi tion error.

Apointpro ess basedhighlevel3-Dsegmentationmethodtakingintoa ount

thegeometri alandtopologi alinformationofthe lasslabeleldintheGibbs

energy.

The use of MCMC methods for parameter estimation, 2-D and 3-D

segmen-tation methods, and the simulationof pro esses.

(6)

Résumé . . . i

Abstra t . . . ii

Table des matières . . . iii

1 Introdu tion 1 2 Séle tion de modèles par ritères d'information 5 2.1 Notions fondamentales en lienave l'entropie . . . 7

2.1.1 Entropie . . . 7

2.1.2 Entropie roisée . . . 7

2.1.3 Codage entropiqueet arithmétique adaptatif . . . 8

2.2 Les diérents ritères d'information . . . 9

2.2.1 Minimisationd'unrisque . . . 9

2.2.2 Appro he bayésienne . . . 12

2.2.3 Séle tion par la longueur minimum de ode. . . 12

2.2.4 Critère

ϕ

β

etdis ussion . . . 13

2.3 Modèles autorégressifs . . . 15

2.3.1 Prédi tion linéairebidimensionnelle . . . 15

2.3.2 Méthodes omparatives. . . 19

2.4 Des ription d'une distribution par histogramme . . . 25

3 Des distributions en signal et image 29 3.1 Appli ation des méthodes d'estimationd'histogrammes . . . 30

3.1.1 Appli ation aux images dans le adre des méthodes de om-pression . . . 30

3.1.2 Appli ationaux anaux de transmissionsnumériquessans l . 35 3.2 Modèle linéairegénéralisé . . . 42

3.2.1 Dénitionet méthode d'estimation . . . 42

3.2.2 Appli ationaux inétiques de

V O

˙

2

. . . 45

3.3 Lois de mélange . . . 49

3.3.1 Segmentation3-D de TEP érébrales . . . 50

3.3.2 Unespa e ouleur mieux adapté? . . . 58

4 Des ription de stru tures spatiales 67 4.1 Prédi tion linéaire2-D ve torielle omplexe. . . 68

4.1.1 Analyse spe trale 2-D multi analeetespa es ouleur . . . 68

4.1.2 Classi ationde textures ouleur . . . 74

4.2 Segmentation d'imagestexturées . . . 78

(7)

4.2.2 Segmentation non-supervisée d'images texturées et ritères

d'information . . . 82

4.3 Géométrie ettopologie du hampde régions . . . 88

4.3.1 Le GDPP (Grouping-DegroupingPoint Pro ess) . . . 90

4.3.2 Simulation du GDPP . . . 97

4.3.3 Résultats . . . 100

5 Bilan et perspe tives 111

Annexes 115

A Algorithmes EM et SEM 117

B Trois espa es ouleur 121

C Curri ulum vitae 125

D Liste des publi ations 135

E Listes des a ronymes 141

(8)

Introdu tion

L'objet de l'étude dans de nombreuses appli ations en traitement du signal et

de l'image est un ensemble de dimension nie d'é hantillons

x =

{x

s

}

s∈∆

ou de

ve teurs

x =

{

x

s

}

s∈∆

.

∆

dont le ardinalsera noté

|∆|

ou

N

est lassiquement un sous-ensemble de

Z

d

.Cequidonneà es donnéesune ertainespé i itéparrapport

à d'autres types de données, 'est l'existen e d'une organisation temporelle (série

temporelle lorsque

d = 1

), d'une organisation spatiale (image ou volume,

d = 2

ou

3

) ou d'une organisation spatio-temporelle (séquen e d'images ou de volumes,

d = 3

ou

4

). Depuis une quarantaine d'années, les problèmes posés par es données

omme l'analyse et la synthèse, le odage et la ompression, la restauration et la

séparationde sour es, ...sontabordés àl'aide de théoriesmathématiquestelles que

l'analyse harmonique, les équations aux diéren es partielles (EDP), les méthodes

variationnelles,lesstatistiquesetlesprobabilités,...Evidemment,pourlarésolution

de esproblèmes,uneappro hepurement mathématiquenepourraitsureetilne

fautpas oublierlané essité de prendre en omptetoutes les onnaissan es

physi o- himiquessurlespro essusétudiéslorsque elaestpossibleainsiquel'importan edu

savoir-faire expérimental, de l'implantation informatique des algorithmes mettant

en ÷uvre les méthodes envisagées et de la réalisation éle tronique dans ertaines

appli ations. C'est en ela que le traiteur de signaux et d'imagesse doit d'être un

être polymorphe s ientiquement parlant et être apable de dis uter si possible

ave les biologistes, lesméde ins, les géologues, ...

L'appro he probabiliste onsiste à faire l'hypothèse que

x

est une réalisation d'un pro essus aléatoire

1

X =

_{X

s

}

_s∈∆

qui est une famille de variables aléatoires ou de ve teurs aléatoires

2

. De e fait, à haque indi e

s

, est déni un espa e pro-babilisé

Ω

X

s

,

A

Ω

Xs

, P

X

s

dont l'espa e d'état

Ω

X

s

et la tribu asso iée

A

Ω

Xs

dé-pendent du typede donnée étudiée.Pour lepro essus, l'espa e probabiliséest alors

(Ω

X

,

A

Ω

X

, P

X

)

où

Ω

X

=

Q

s∈∆

Ω

X

s

, ave i i

Q

désignantle produit artésien.

Faisons maintenantune hypothèsetrès forte: tousles

Ω

X

s

ettoutesles

probabi-1

Apriori, ettehypothèsepeuttoujoursêtreformuléemême si,nalement,

x

serévèleêtreun pro essus déterministe : d'aprèsla dé omposition de Wold [CAR01℄, un pro essus aléatoire est,

d'unpointdevuedensitéspe trale,lasommed'unpro essuspurementaléatoireetd'unpro essus

déterministe(ou qui présente desaspe ts déterministes). Cettehypothèsesignie tout demême

quelehasardexisteaumoinsd'unpointdevuemathématique equiestun on eptd'unegrande

modernitéauregarddel'histoiredel'humanité.Celadit,débattresurl'existen eounonduhasard

estunsujetpassionnantmaisquitrouvepluttsa pla edansunouvragedephilosophie. 2

(9)

lités

P

X

s

sont identiques. Dans e as, onpourra notertous les espa es probabilisés

(Ω,

_A

Ω

, P )

et il s'agit d'un pro essus aléatoire stationnaire au sens stri t. De plus,

si la probabilité

P

se révèle absolument ontinue par rapport à une autre mesure, il sera alors possible de dénir une densité de probabilité (d.d.p.) qui sera notée

f (x

s

)

.La théoriedes probabilitéspermetalors de diéren ier deux prin ipaux as : les variables aléatoires de la famille sont indépendantes et la d.d.p. de

x

s'é rit

f (x) =

Q

_s∈∆

f (x

s

)

(voir Chapitre 3); les variables aléatoires ne sont pas

indépen-dantes (voirChapitre 4)et ette hypothèseparaîtappropriée lorsqu'onveut dé rire

des pro essuspossédantdes stru turestemporellesouspatiales.Il seraaussi abordé

par la suite le as où la famille possède des lois de probabilités qui hangent en

fon tion de leur lo alisation, 'est à dire le as non-stationnaire oudu moins le as

stationnaire par mor eaux.

L'intérêt des traiteurs de signaux et d'images pour l'appro he probabiliste

pro-vientnon seulement de sarigueur mathématique mais aussi de la variété oerte en

terme de modèles de pro essus. Ces modèles 3

sont d'autant plus intéressants que,

souvent,ilspeuvent êtresimulés e quipermetdelesutiliserensynthèseouen

opti-misationsto hastique(voirChapitres3et4).Deux as,làen ore,sedistinguent:le

modèle paramétré qui est souvent déni omme une fon tion dont la formedépend

d'un ensemble de paramètres (voirChapitres 2,3 et 4)etle modèle non paramétré

(voirChapitres 2 et3).

Prenons pour l'instant le as paramétré. Un ensemble de

K

paramètres sera noté

θ =

{θ

k

}

k∈[[1,K]]

. Comme l'obje tif du s ientique est de dé rire au mieux

les pro essus qu'il étudie, un sérieux problème apparaît lorsqu'il se trouve fa e au

hoix d'un modèle dans une olle tion de modèles

{M

m

}

m∈[[1,M]]

, ha un asso ié à

un ensemble de paramètres

θ

m

=

{θ

m,k

}

k∈[[1,K

m

]]

de dimension

K

m

. En eet, il est re onnu que le modèle le plus approprié (ou le plus exploitable) n'est pas toujours

elui qui possède le plus de paramètres 'est à dire elui qui est sus eptible de

s'ajusteraumieuxauxdonnéesobservées [Coq08℄.A esujet, ertainsparlentmême

de la malédi tion de la dimensionalité. Le hoix du modèle est ainsi un thème

qui existe dans la ommunauté s ientique depuis de nombreuses années. Il est

néanmoinspossiblede onstaterquelesujetest redevenud'unebrulantea tualitési

on onsidère touslesdéveloppementsréalisésautourde lanotiondereprésentations

par imonieuses qui onsistent à re her her dans un di tionnaire de fon tions, elles

quipermettrontdereprésenteraumieux lesdonnéesétudiéesselonun ritère.Car,

quelque soit l'appro he, le prin ipe de par imonie revient à trouver un ompromis

entrela omplexitédumodèle( equiestd'ailleurs ru ialpourl'usageinformatique)

et lepouvoirde représentation du modèle.

Auniveau des probabilités etdes statistiques, divers outilsexistent en lienave

lathéorie de l'estimation.Undes prin ipauxoutils est lafon tion de vraisemblan e

des paramètresdu modèle

M

m

:

g

M

m

: R

K

m

_{→ R}

+

θ

m

7→ g

M

m

(θ

m

) = f (x

|θ

m

, M

m

)

(1.1)

en supposant l'existen e de la d.d.p. et que tous les paramètres sont des réels. La

méthode du Maximum de Vraisemblan e (MV) qui pré onise de hoisir, lorsqu'il

(10)

θ

m

est un estimateur onsistant des paramètres du modèle

M

m

. Par ontre, la maxi-misation des valeurs

g

M

m

θ

M V

m

,

m

∈ [[1, M]]

, an de hoisir un modèle est une

pro édure qui se révèle la plupart du temps ine a e lorsqu'il s'agit de hoisir de

manièrepar imonieuseun modèlepuisqu'ellefournirasystématiquement 4

lemodèle

possédant le plus de paramètres. La question qui se pose alors est la suivante :

existe-t-il aujourd'hui une méthode permettant de hoisir le bon modèle en

ad-mettant que elui- i existe? S'ilest di ile de répondre par l'armative tellement

le problème possède d'impli ations,dont elle d'être sûr d'avoir, dans sa olle tion

demodèle,lebon modèle,denombreuses pistesontétéexploréesdansun ontexte

probabilisteet statistiquedepuis plus de quarante ans.

Dans le hapitre suivant, la question du hoix (ou de la séle tion) d'un modèle

seradon abordée.Puis, dansles hapitres3et4, ette questionreviendra(ounon)

dans diérents ontextes appli atifs :

la ompression d'images, la ara térisation de anaux de transmission,

l'ana-lyse de signaux physiologiques, la segmentation bas-niveau de volumes 3-D

TEP (Tomographie par Emission de Positrons) et la représentation d'images

ouleur,

à l'aide de modèles supposant l'indépendan e entre les é hantillons auxquels

peut s'adjoindreun modèle depro essus déterministeouun modèle de hamp

de régions;

la ara térisation de textures ouleur, la segmentation d'images texturées et

lasegmentation 3-D haut-niveau de volumes3-D TEP,

àl'aide de modèles de prédi tionlinéaire etde modèlespossédantsdes

distri-butionsde Gibbs,permettant de dé rire diérentes propriétés spatiales.

(11)

(12)

Séle tion de modèles par ritères

d'information

Dansle ontexted'uneappro heprobabilisteduproblèmedeséle tiondemodèle,

il paraît naturel de voir

M

m

omme la réalisation d'une expérien e aléatoire. Et il en sera de même ave un ensemble de paramètres

θ

m

, dont l'espa e de réalisation sera noté

Θ

m

et la d.d.p.

π

m

(θ

m

) = f (θ

m

|M

m

)

si elle existe. Il est alors possible d'é rirela loi onditionnellede

x

quand lemodèle

M

m

est observé:

f (x

_|M

m

) =

Z

Θ

m

f (x, θ

m

|M

m

) dθ

m

=

Z

Θ

m

f (x

_|θ

m

, M

m

) π

m

(θ

m

) dθ

m

(2.1) qui peut être onsidérée omme la fon tion de vraisemblan e marginale du modèle

appeléeeviden e danslalittératureanglaise.L'obtention,parlebiaisde méthodes

d'optimisationsto hastique exploitant lasimulationde variablesaléatoires( omme

lesméthodes de Monte Carlo),des valeurs

f (x

|M

m

)

an de trouver le modèle qui renvoie la probabilité maximum a fait l'objet d'une vaste littérature en parti ulier

sous la dénomination du hoix bayésien de modèles (voir [Gre95℄ par exemple).

il sera question dans e do ument de l'appro he onnue sous le nom de ritère

d'information (IC pour Information Criterion). Nous reviendrons néanmoins sur

lesujet de l'optimisation sto hastique dans lesChapitres 3 et4.

Poursuivons maintenant la dis ussion ommen ée dans l'introdu tion au sujet

de la fon tion de vraisemblan e et supposons que nous avons aaire pour l'instant

à un ensemble de modèles emboités :

K

1 < K

2 <

· · · < K

M

. En observant les valeurs

g

M

m

θ

M V

m

,

m

∈ [[1, M]]

, un ertainnombre de her heurs ont onstaté que

leur roissan e nissait par s'iné hir et que, de fait, la ourbe qu'elles forment

en fon tion de la dimension du modèle possède un oude. Ils ont don her hé à

identier la dimension du modèle asso ié à la lo alisation de e oude. La ourbe

intitulée terme MV (en fait, un terme proportionnelà l'opposé du logarithme du

MV) sur la gure 2.1b illustre bien es propos. Il est néanmoins di ile de dire

pré isément où se situe l'iné hissement de ette ourbe juste en l'observant. Il

pourrait être situé au niveau des ordres de valeurs omprises entre 7 et 12. D'une

ertainemanière,les ritèresd'informationréalisel'opérationdé ritepré édemment

tout en mettant en ÷uvre le prin ipede par imonie et possédant des justi ations

enlienave lathéoriedel'information.Eneet, leurformegénéraleest unefon tion

de la dimension du modèle onstituée de deux termes :

IC (m) = l

M

m

θ

M V

m

(13)

Le premier terme est le terme proportionnel à l'opposé de la log-vraisemblan e

(terme MV, voir g. 2.1b) en lien ave le pouvoir de représentation du modèle,

qui dé roît en fon tion de

m

ontrairement à la fon tion de vraisemblan e, et le se ond terme roît en fon tion de la omplexité du modèle. Ce deuxième terme est

appelé lassiquementlapénalitéetilpermetd'iné hirla ourbedes valeursen lien

ave la vraisemblan e de manière àfaire apparaître une valeur minimum 1

. Souvent

p (K

m

, N) = K

m

α (N)

etlapénalitédépendlinéairementdu nombre deparamètres,

pour

N

xé. Dans ertains ritères, un troisièmetermeapparaît voire plus ( f. par-tie 3.3.2). Quelque soit son é riture, le modèle est hoisi en minimisant le ritère :

m

IC

= arg min

m

IC (m)

.

Dans e hapitre,unrappelsurlesoriginesdes ritèresd'informationestproposé

ainsi que la présentation de quelques apports plutt théoriques, essentiellement en

lien ave lestravaux de Do torat de GuilhemCoq [Coq08℄, on ernant la séle tion

de modèles.

P

∗

ou

θ

∗

désigneront par la suite respe tivement la vraie loide probabilité ou

le vrai modèle dont sont issus les é hantillons

x

. La question de l'appartenan e éventuelle de

θ

∗

à l'ensemble des modèles onsidérés n'entre pas dans le adre des

travauxprésentés i i.On trouve dans lalittérature des référen es traitantdes deux

as [Nis84, Nis88℄ ouen ore [LMh04℄ pour la notion de quasi-vrai modèle.

(14)

2.1 Notions fondamentales en lien ave l'entropie

2.1.1 Entropie

L'entropie est une grandeur léasso iée àune distribution de probabilité. Nous

en donnons brièvement unedénition et lelienqu'elle entretient ave l'information

de Kullba k qui a été utilisée pour développer et étudier les propriétés des ritères

d'information.

L'entropie prendra les formes suivantes selon que l'espa e

Ω

sera dis ret ou s'il sera possible de dénir une d.d.p.

f

:

H(P ) =

₋

X

x

s

∈Ω

P (x

s

) log P (x

s

)

H(f ) =

₋

Z

R

f (x

s

) log f (x

s

)dx

s

(2.3)

On sous-entendra toujours que

0 log 0 = 0

. La base du logarithme a peu d'impor-tan e.

L'entropieestlargementutiliséedansdesdomainestelsquelathermodynamique

ou l'astrophysique. Sa prin ipale utilité est de mesurer le désordre apporté par la

distribution. Pour illustration, sur un espa e dis ret de ardinal

m

, la distribution uniforme a la plus forte entropie. Parmi toutes les distributions à densité ontinue

sur

[0, 1]

, 'est ladistributionuniformequi alaplus forteentropie. Parmi toutesles

distributions à densité ontinue sur

R

de moyenne et varian e xées

µ

et

σ

2

, 'est

ladistribution normale

N (µ, σ

2 ₎

qui a laplus grande entropie.

C'esten e sens que,fa eàune observationd'unedistributiondontilne onnait

rien, un utilisateur devrait faire en premier lieu l'hypothèse que ette distribution

est d'un de es types. Dans le as ontraire il diminuerait sans raison le désordre

apporté par sadistribution.

2.1.2 Entropie roisée

Considérons maintenant deux distributions déniessur un même espa e

proba-bilisé. Une grandeur non symétrique entre es deux distributions, appelée entropie

roisée,peut être déniepar

H(P, Q) =

₋

X

x

s

∈Ω

P (x

s

) log Q(x

s

)

H(f, g) =

₋

Z

R

f (x

s

) log g(x

s

)dx

s

(2.4)

Par ommodité de notation,ilarriveraque ladistin tionentre les adres dis ret

et ontinu ne sera pas faite et, dans e as, les distributions seront appelées

P

et

Q

.L'inégalitéde onvexité de Jensen donnele résultatsuivant :l'entropie

H(P )

et l'entropie roisée

H(P, Q)

vérient

H(P )

≤ H(P, Q)

.

Ce résultat,également appelé inégalitéd'information de Shannon, onstitue les

fondements de la théorie de l'information dans [Sha48℄. Elle permet également de

dénirl'informationnon symétrique de Kullba k entre

P

et

Q

omme

(15)

Cettequantitépositivemesuredon ledéfautd'entropiequeprésenteladistribution

Q

par rapport à

P

. Dans le as de deux lois de probabilité absolument ontinues par rapport à la mesure de Lebesgue, de d.d.p. paramétrées respe tives

f

θ

et

f

θ

′

, elle s'é rit:

K (θ, θ

′

) =

₋

Z

R

f

θ

(x

s

) log

f

θ

′

(x

_s

)

f

θ

(x

s

)

dx

s

(2.6)

C'est l'une des nombreuses divergen es permettant de mesurer l'é art entre deux

lois de probabilité [Bas96℄. Ces notions d'entropie et d'entropie roisée ont permis

le développement d'outilspour le odage binaire de séries de symboles.

2.1.3 Codage entropique et arithmétique adaptatif

Soit

E

un ensemble de

ψ

symboles. Un ode binaire sur

E

est une appli ation inje tive

C : E

→ ∪

i∈N

∗

{0, 1}

i

. La longueur de

C(x)

,

x

∈ E

, est notée

L(x)

. On

ode ainsi haque symbolepar une haîne. Si

L

vérie l'inégalitéde Kraft[Gru05℄, onsaitqu'elle estla longueurd'un ertain ode quisatisfait la onditiondu préxe,

indispensable au dé odage. Prenant

P

une probabilité sur

E

et

L =

⌈− log P ⌉

, où

log

est lelogarithme àbase 2,

L

vérie ette inégalitéet est don la longueur d'un ode binairequenous onfondronsave

P

.Ainsi,si

P (x)

est grand,

L(x)

est faible. Surdesdonnéesprovenantde

P

in onnue,l'obje tifdu odagedeHumanestde trouver un odage

Q

dont l'entropie roisée

H(P, Q)

se rappro he leplus de

H(P )

. Cependant le odage arithmétique

2

[Ris76℄, onsistant à oder plusieurs symboles

simultanément,donnede meilleursrésultats. Finalement,des onsidérationsautour

du odage arithmétique adaptatif ont amené Rissanen à dénir la omplexité

sto- hastiquequiestàlasour ede lathéoriede laséle tiond'unmodèleparlalongueur

minimaledu ode (le MDL - Minimum Des riptionLength) [Ris86℄. Dans lapartie

2.2.3, il sera fait les rappels né essaires pour présenter le lien entre la théorie du

MDL etla séle tionde modèle.

(16)

2.2 Les diérents ritères d'information

2.2.1 Minimisation d'un risque

Les travaux d'Akaike [Aka74℄ autour de l'obtention de l'ordre d'un modèle

Au-toRegressif mono-dimensionnel (AR 1-D) sont à l'origine des ICs. Comme il sera

souvent question de modèles AR dans e do ument (voir les parties 2.3.1, 4.1 et

4.2), rappelons tout de suite son é riture générale :

X

s

=

−

X

r∈D

a

r

X

s−r

+ E

s

(2.7)

où

D

est appelé le support de prédi tion.

E =

{E

s

}

s∈∆

, le pro essus innovation ou ex itation, est un bruit blan de varian e

σ

2 e

. Pour le as 1-D et ausal,

D

s'é rit

D

m

=

{1, · · · , m}

,

m

∈ N

∗

étant l'ordre du modèle. Si

m = 0

,

D

0 =

∅

. Les modèles dénis par es supports peuvent être emboités ou non omme nous

le verrons ultérieurement (voir partie 2.3.2). Pour l'instant, étudions les modèles

AR 1-D dénis par des supports de taille roissante d'ordre 0 jusqu'à un ordre

maximum

M

. A haque modèle est alors asso ié un ensemble de paramètres

θ

m

=

{a

m,r

}

_r∈D

_m

, σ

m,e

2

,

m = 0,

· · · , M

,de ardinal

K

m

= m+1

etils'agitd'unefamille

de

M + 1

modèles emboités

{M

0 ,

· · · , M

M

}

.

Comme le montre l'équation 2.7, un pro essus AR

X

n'est pas un pro essus indépendemment et identiquement distribué (i.i.d.) pour

m > 0

. Par ontre, sous hypothèse gaussienne, le pro essus innovation l'est. Dans le as ausal et à l'aide

d'un hangementde variable aléatoire,lesfon tions de vraisemblan e (voir éq.1.1)

pour

m = 0,

· · · , M

,peuvent s'exprimerainsi :

g

M

m

: R

m+1

_{→ R}

+

θ

m

7→ g

M

m

(θ

m

) = f (e

m

|θ

m

, M

m

) =

Q

s∈∆

f

θ

m

(e

m,s

)

(2.8) ave

e

m

=

{e

m,s

}

s∈∆

,l'ensembledeserreursdeprédi tion onnaissant

x

et

θ

m

,

e

m,s

=

x

s

+

P

r∈D

m

a

r

x

s−r

,et

f

θ

m

(e

m,s

) =

1 √

2πσ

2 m,e

exp

e

2 m,s

2σ

2 m,e

. Sousdes onditions lassiques

de régularité sur les fon tions

θ

7→ f (x |θ )

[Kay93℄, la matri e d'information de Fisheren

θ

∗

I(θ

⋆

) = [I(θ

⋆

)

i,j

] =

"

−

E

θ

⋆

"

∂

2 _{log f (x}

_{|θ )}

∂θ

i

∂θ

j

_|θ=θ

∗

##

dénit un produit s alaire

h., .i

sur l'espa e des paramètres de norme asso iée

k.k

. Akaikeadon her hé lapénalitépermettantde minimiserlerisque, asso iéà ette

norme,du hoixd'un modèle

θ

:

E

kθ

∗

_{− θk}

2 .

(2.9) Auvoisinage de

θ

∗

, ette norme est reliéeà l'informationde Kullba k (voir éq.2.6)

par la formule suivante:

2K (θ

∗

, θ) =

kθ

∗

_{− θk}

2

(17)

-20

-15

-10

-5

0

5

10

15

20

0

500 1000

1500

2000

2500

3000

3500

4000

echantillon

EMG

(a)

1300

1400

1500

1600

1700

1800

1900

2000

2100

0

5

10

15

20

25

30 Ordre

Courbes IC - EMG

"terme MV"

AIC

BIC

pbmin

(b)

Fig. 2.1 Exemple sur un signal d'Ele tromyographie (EMG). (a) Signal EMG

(après retrait de l'inuen e du réseau éle triqueet de la omposante ontinue). (b)

(18)

En utilisant les propriétés du produit ve toriel et des approximations en lien ave

des onsidérationsasymptotiques, Akaike aalors obtenu le ritère AIC (Akaike IC)

qui dans le as du modèle AR 1-D ausalgaussien s'é rit,

m = 0,

· · · , M

:

AIC(m) =

−2 log g

M

m

θ

M V

m

+ 2K

m

= 2l

M

m

θ

M V

m

+ 2K

m

(2.11)

où apparaîtl'opposé de la log-vraisemblan e

l

M

m

(.) =

− log g

M

m

(.)

. L'opposé de la

log-vraisemblan etendasymptotiquementversl'entropie e quiexpliquequeparfois

les ritères d'information sont aussi appelés ritères d'entropie pénalisée. De plus,

d'après l'équation 2.8 et sous hypothèse gaussienne, le ritère peut s'é rire suivant

une formesimpliée, en éliminantles termes onstants :

m

AIC

= arg min

m

2N log σ

M V

m,e

+ 2K

m

(2.12) ave

σ

M V

m,e

,l'estimationausens duMV del'é art-typede l'ex itationpour lemodèle d'ordre

m

. De part l'é riture de la vraisemblan e en fon tion de l'é art-type de l'ex itation, une méthode d'estimation des paramètres AR ausaux gaussiens au

sens des moindres arrés (MC) va don fournir une estimation au sens du MV, e

quientraîne souvent des omplexités de al ulpeu élevées en parti ulierdans le as

des appro hes par oe ients de réexion(voir[Ala98℄).

La ritique prin ipale envers le ritère d'Akaike vient du onstat qu'il est non

onsistantsionseréfèreaux onditionsénon és dans [Nis88℄:un ritère

d'informa-tion de la forme

IC (m) = l

M

m

θ

M V

m

+ α(N)K

m

est

onsistantau sens fort (

lim

+∞

m

IC

= m

∗,

onvergen e presque sûre) si

lim

+∞

α(N)

N

= 0 et lim

+∞

α(N)

log log N

= +

∞,

(2.13)

onsistantausensfaible(

lim

+∞

P (m

IC

= m

∗

_{) = 1}

, onvergen eenprobabilité)si

lim

+∞

α(N)

N

= 0 et lim

+∞

α(N) = +

∞.

(2.14)

Comme

α

AIC

(N) = 2

ne dépend pas du nombre d'é hantillons, il apparaît dire -tement que le ritère d'Akaike ne remplit pas les deuxièmes onditions énon ées

équations2.13 et 2.14.

Si l'étude des propriétés asymptotiques a été au entre des réexions des

her- heurs travaillantsur les ICs dans les années 80 et 90, depuis une dizaine d'année,

ertainsauteurs ont plutt abordé laquestion d'un point de vue pratique : dans la

réalité,lenombre d'é hantillons est toujoursni(mêmes'ilpeut êtregrand)et

par-foisdepetitestailles[Bro00℄.Ainsi,l'étudedes bornesdurisque est apparue omme

un hamp d'étude approprié pour proposer de nouvelles pénalisationsqui, en n de

ompte, se sont révélées des généralisationsde lapénalisation du ritère d'AIC ar

ne dépendant pas du nombre d'é hantillons [BBM99, Bar00,Bar02, Bir04, Bir06℄ :

α(N) = C

1 +

p

2L

m

2

où

C > 1

et

L

m

≥ 0

estun nouveau poidsasso iéaumodèle

M

m

.Ce nouveau poids

estd'ailleurssus eptibledefaireperdrelalinéaritéenfon tionde

K

m

delapénalité. Passons maintenantàladeuxièmeappro he en lienave lafon tioneviden e etle

(19)

2.2.2 Appro he bayésienne

D'aprèslethèorèmedeBayes,ilestpossibled'é rirelafon tiondevraisemblan e

marginaled'un modèle (voiréq. 2.1) de la manièresuivante :

P (x

_|M

m

) =

P (M

m

|x) P (x)

P (M

m

)

.

(2.15)

Ainsi, un des premiers ritères proposé, le ritère BIC (pour Bayesian Information

Criterion) [S h78 ℄, est onstruit sur la maximisation de la probabilité a posteriori

du modèle onnaissant l'observation :

m

BIC

= arg max

m

P (M

m

|x)

(2.16)

P (x)

estune onstantedufaitque

x

estl'observationet, lassiquement,laloiapriori

des modèles est supposée non informative :

P (M

0 ) = P (M

1 ) =

· · · = P (M

M

)

. La maximisation de la loi a posteriori passe don par l'expression de la fon tion

de vraisemblan e marginale des modèles. Cette intégrale peut être appro hée en

utilisantlaméthoded'approximationdeLapla e.Dans[LMh04 ℄, esdéveloppements

sont rappelés. Ils mênent àl'expresion suivante :

BIC (m) = 2l

M

m

θ

M V

m

+ K

m

log(N) +

O(1) + O(N

−1/2

)

(2.17)

Sa hantquelesdeuxpremierstermestendentversl'inniquand

N

tendversl'inni, les deux derniers termes sont souvent négligéset

α

BIC

(N) = log(N)

e qui faitque e ritèreest onsistant(il onverge presquesûrementd'aprèsles onditionsdonnées

équation 2.13). Dans le terme

O(1)

, il apparaîtle logarithme du déterminant de la matri e d'informationde Fisherqui est parfois gardédans ertaines études.

2.2.3 Séle tion par la longueur minimum de ode

Danslaprésentationdelathéoriedu odagearithmétiqueetduMDL(voirpartie

2.1.3), l'é hantillon est supposé être issu d'une haîne de Markov multiple (CMM).

Commeles modèlesAR ausaux,les CMMsontdénis par un ordre

m

en lienave un passé mais, au lieu d'une relation linéaire entre les variables aléatoires, il s'agit

d'une relation plus générale exprimée en terme de probabilité onditionnelle:

P (X

s

|X

s−1

,

· · · , X

0 ) = P (X

s

|X

s−1

,

· · · , X

s−m

)

(2.18)

pour tout

s

∈ N

,

s

≥ m

, et

Ω

est supposé être un ensemble ni de symboles de ardinal ni

ψ

(voir partie2.1.3).

Considéronsleproblèmedeséle tiondemodèlessuivant:étantdonnéune haîne

x

de longueur

N

, séle tionner l'ordre

m

d'une CMM dont

x

serait une réalisation. Pour

m

∈ N

, notons

Θ

m

l'espa e de réalisation des paramètres du modèle d'ordre

m

, onstitué des probabilités de transitions d'une CMMd'ordre

m

,et

Θ

la réunion des

Θ

m

. Le nombre de omposantes libres d'un

θ

m

∈ Θ

m

est

K

m

= (ψ

− 1)ψ

m

, en

omettant lesprobabilités à l'initialisation.

Appelons omplexité sto hastique de

x

relativement au modèle d'ordre

m

la longueur du ode arithmétique adaptatif de

x

à l'ordre

m

, notée

C

m

(x)

. Il a été montréquesi

x

estuneréalisationd'uneCMMd'ordre

m

⋆

,alors

m

⋆

(20)

etdon son espéran e. LeMDL pré onise don de hoisir l'ordreminimisant

C

m

(x)

ouson risque

IE [C

m

(x)]

.Le al uldes

C

m

(x)

étant omplexe,Rissanenee tueune étude détaillée de

IE [C

m

(x)]

aboutissant à un en adrement de es valeurs [Ris86, Coq08℄. Les inégalités de et en adrement suggèrent d'estimer

IE [C

m

(x)]

par RIC (pour Rissanen IC):

RIC

(m) = 2l

M

m

θ

M V

m

+ K

m

log(N),

(2.19)

etleprin ipedu MDL répond auproblème de séle tionde modèles posé en

hoisis-santl'ordre

m

qui minimiseRIC

(m)

.Ce ritèreRIC prendla mêmeformequeBIC (voirpartie2.2.2)quand

N

devientgrand.Ilpossèdedon lamême onsistan eforte. Et etteappro he peut bien entendu être utilisée sur d'autres types de modèles.

2.2.4 Critère

ϕ

β

et dis ussion

D'autres ritèresd'informationontété proposésdans lalittérature(voir[Coq08,

OA07℄ 3

et partie3.3.2). Au oursdes travauxde re her he quiseront présentés par

la suite, le ritère

ϕ

β

s'est révélé parti ulièrement intéressant d'un point de vue pratique de part son terme d'ajustement

β

ompris entre 0 et 1 stri tement pour quele ritère soitfortement onsistant (voir onditions énon ées équation 2.13).Ce

ritère, proposé dans [EMH96 ℄, apparaît omme une généralisation des travaux de

Rissanensur la omplexitésto hastique :

ϕ

β

(m) = 2l

M

m

θ

M V

m

+ K

m

N

β

log log(N)

(2.20) etdon

α

ϕ

β

(N) = N

β

_{log log(N)}

. Si on hoisit bien

β

, en l'o urren e:

β

AIC

=

log 2−log log log N

_{log N}

β

BIC

=

log log N −log log log N

_{log N}

(2.21)

le ritère

ϕ

β

peut prendre lesformes des ritèresprésentés pré édemment. A partir de es dénitions,

0 < β

BIC

< 1

pour

N > 4

et

β

AIC

< 0

pour

N > 1619

e qui est ohérent ave la non onsistan e annon ée du ritère AIC.

Dans ertains problèmes, les ritèresAIC etBIC peuvent avoir tendan e à

sur-paramétriser le modèle hoisi. An de pallier e défaut, un en adrement de la

va-leur de

β

a été proposé permettant de dénir les valeurs parti ulière

β

min

et

β

max

[JOM00℄ :

0 < β

min

=

log log N

log N

≤ β ≤ β

max

= 1

− β

min

< 1

(2.22)

On notera par la suite

m

min

= arg min

m

ϕ

β

min

(m)

et

m

max

= arg min

m

ϕ

β

max

(m)

. Ces

bornes ont été testées dans ertains ontextes appli atifs qui seront présentés

ulté-rieurement (voir par exemple la partie 2.3). Il faut noter dès à présent que, pour

N > 15

,

β

AIC

< β

BIC

< β

min

< β

max

< 1

etdon

m

AIC

≥ m

BIC

≥ m

min

≥ m

max

.

3

Le livre Optimisation en traitement du signal et de l'image a été traduit en Anglais

(21)

Illustrons maintenant à l'aide d'un exemple on ret 4

tous es rappels plutt

théoriques. Figure 2.1amontre une partie d'un signald'Ele tromyographie(EMG),

a quis sur un mus le inter ostald'un hien, dans une zone oùil n'ya pas de

bouf-fées mus ulaires. A l'origine, e signal est bruité par le réseau éle trique. I i, il

s'agitdu signalrésiduel,quipeutêtreassimiléàunbruitd'a quisition,aprèsretrait

de la moyenne et de la sinusoïde liée au réseau. A l'observation de e bruit, trois

hypothèses peuvent être formulées : il s'agit d'un signal aléatoire, d'une zone

sta-tionnaireet lesé hantillonspeuvent être onsidérés ommeune réalisationde taille

N

d'un pro essus AR ausal.Bien entendu, une bonne démar he onsiste àvérier es hypothèses (voir par exemple [BD02℄). De plus, même si des tests statistiques

permettent de vérier es hypothèses, rien ne prouvera in ne que es é hantillons

sontbien issus des modèlesenvisagés. Il faudraitfaireune étudeprenanten ompte

toute l'éle tronique mise en jeu et des modèles physiologues pour aboutir à un

modèle de représentation plus à même de dé rire es données. Eten ore ...

Suivant l'hypothèse que l'erreur de prédi tion est gaussienne, les ourbes de la

gure 2.1b donnent les valeurs

IC(m)

pour les ritères AIC, BIC et

ϕ

β

min

(

ϕ

β

max

sous-estimant fortement l'ordre, sa ourbe a été omise pour des raisons de

visuali-sation). Les valeurs obtenues sont :

m

AIC

= 19

,

m

BIC

= 11

,

m

min

= 8

et

m

max

= 1

e qui montre bienque sionveut justier le hoixd'un modèle,une première étape

onsiste à trouver le bon ritère fa e à une appli ation donnée (ou un résultat

at-tendu), e qui semble être la démar he suivie dans les travaux ré ents autour de

la minimisation du risque (voir partie 2.2.1). Les données n'étant pas simulées, les

ourbes ne présentent pas la régularité attendue mais 'est aussi l'intérêt de

tra-vailler sur des données réelles : les théories mathématiques sont mises à mal et,

souvent, ilfautarriveràprendre du re ulfa e àun résultatexpérimentalinattendu

an de modier l'appro he mathématique utilisée dans un premier temps. Enn,

dans un ontexte pratique donné, le paramètre

β

du ritère

ϕ

β

peut se révéler une variable d'ajustement très intéressante (dans l'exemple proposé, pour

N = 4000

:

β

AIC

=

−0.0068

,

β

BIC

= 0.165

,

β

min

= 0.255

et

β

max

= 0.745

) surtout dans le as

oùil est possiblede réaliser un apprentissage.Ce point seradébattu ultérieurement

au ours de e rapport dans divers ontextes appli atifs (voir parties2.3.2 et 3.2).

4

L'analyse et le traitement du signal d'Ele tromyographie m'a permis de monter un TP, de

niveau Master,sur plusieursséan es, au ours duquel laTransformée de Fourierdis rète,

l'esti-mationausensdumaximumdevraisemblan e,lemodèleAR,les ritèresd'information,lestests

(22)

s

₁

s

₁

s

₂

s

₂

2 r

r

₁

r

₁

2 m

1 m

Support QP

Support DPNS

Site courant

Fig. 2.2 Supports d'ordre

(m

1 , m

2 )

Quart de Plan premier quadrant (QP1) et Demi-Plan NonSymétrique (DPNS).

2.3 Modèles autorégressifs

Au oursde lapartiepré édente, ilaétéquestiondumodèleAR1-D ausal.Ces

types de modèles ont été étendus à la modélisationde signaux multidimensionnels

[AC01℄. Dans [AO03℄, le ritère

ϕ

β

min

a été proposé pour l'estimation du support de modèles AR 2-D ausaux etexpérimenté sur des textures synthétiques et réelles

[Ala98℄.

2.3.1 Prédi tion linéaire bidimensionnelle

UnmodèleAR2-D ausalestdéniparl'équation2.7ave

s = (s

1 , s

2 )

∈ ∆ ⊂ Z

2

,

|∆| = N = N

1 × N

2

, le nombre de olonnes et de lignes, et

r = (r

1 , r

2 )

∈ D ⊂ Z

2

.

Diérents types de support ont été proposés dans la littérature. Les plus utilisés

sontle support Quart de Plan (QP) 5 ,d'ordre

m = (m

1 , m

2 )

∈ N

2

(voir Fig. 2.2) :

D

QP 1

m

=

r

_{∈ Z}

2 _{, 0}

_{≤ r}

1 ≤ m

1 , 0

≤ r

2 ≤ m

2 , r

6= (0, 0)

(2.23)

etle support Demi-Plan NonSymétrique (DPNS -voir Fig.2.2) :

D

DP N S

m

=

{r ∈ Z

2 , 0 < r

1 ≤ m

1

pour

r

2 = 0,

−m

1 < r

1 ≤ m

1

pour

0 < r

2 ≤ m

2 } .

(2.24)

Les ardinauxdesmodèlesasso iéssont

K

QP 1

m

= (m

1 + 1) (m

2 + 1)

et

K

DP N S

m

=

(2m

1 + 1) m

2 + m

1 + 1

, en rajoutant le dé ompte de la varian e de l'ex itation

au ardinal du support de prédi tion. Lorsqu'on se xe un ordre maximum

M =

(M

1 , M

2 )

, nous ne sommes plus dans le as d'un ensemble de modèles emboités puisqu'il est possible d'avoirdeux modèlesdiérents ave des ardinaux égaux.

5

Ilexistequatre supports QPsdiérents.La dénition del'équation 2.23est elle dupremier

(23)

(a) ordre (1,1)

(b) ordre (2,2)

(c) ordre (3,3)

(d) ordre (1,3)

(e) ordre (5,2)

(f) ordre (1,1)

(g) ordre (2,2)

(h) ordre (3,3)

(i) ordre (1,3)

(j) ordre (5,2)

Fig. 2.3 Textures de synthèse obtenues à partir de diérents modèles AR 2-D

(1ère ligne) etleurs Densités Spe tralesde Puissan e (DSP)sur la2ème ligne.

Dansle asdes modèlesARgaussiens ausaux,lesICs(AIC,BIC,

ϕ

β

)s'é rivent sous laformegénérale, et ela quelque soit ladimension :

m

IC

= arg min

m

2N log σ

_m,e

M V

+ α

IC

(N)K

m

(2.25)

De manière lassique, les performan es des ICs sont omparées sur des

pro es-sus AR simulés (voir [OA07℄). La gure 2.3 montre une réalisation par pro essus

ARs QP1 utilisésdans [AO03℄. Rappelonsmaintenant,une des propriétés quiafait

l'intérêt de la ommunauté du traitement du signal et des images pour le modèle

AR :ilspermettent deréaliserune analysespe traleHaute Résolution[CRA01℄ par

la fon tion de transfert (notée

H

par lasuite) qui lui aitasso ié, un pro essus AR étant par dénition un ltrage numérique de type RII (Réponse Impulsionnelle de

support temporel Inni) d'un bruit blan . Ainsi, la Densité Spe trale de Puissan e

(DSP) absolument ontinue d'un pro essus AR (voir[CAR01℄ 6

) s'é rit alors :

S

X

(ν) =

|H

AR

(ν)

|

2 S

E

(ν)

(2.26)

ave

ν

lafréquen e normalisée et

H

AR

(ν) = A(ν)

−1

,

A(ν) = 1 +

X

r∈D

a

r

exp (

−j2π hν, ri)

(2.27)

ave

h., .i

,leproduits alairede

R

d

.Dansle as 2-D,

ν = (ν

1 , ν

2 )

∈ R

2

etlaDSP est

périodique de période 1 suivant les deux axes. La gure 2.3 montre les DSPs pour

ν

∈ [−0.5, 0.5]

2

de diérents pro essus AR QP1. Ces DSPs ontiennent des modes

fréquentiels variés (hautes et basses fréquen es, ontenus fréquentiels pro hes ou

biendistin ts) equirendl'expérimentationsur etensemblede modèlespertinente.

6

Ce hapitrefournilesextensionsaux as2-Ddesfondementsdutraitementdusignal1-D.Le

(24)

L'ordre maximum a été xé à

M = (10, 10)

et haque pro essus a été simulé ent foispour diérentesvaleursde

N

(

45 × 45

,

55 × 55

,

64 × 64

,

80 × 80

et

90 × 90

).Les tableaux2.1et2.2donnentlesrésultatsobtenusave le ritèreBICetle ritère

ϕ

β

min

. Le ritère BICdonne de moins bons résultats ar, dans e ontexte expérimental,il

atendan e àestimerun ordre trop importantet 'est for ément pire pour le ritère

AIC (voir partie 2.2.4). Il faut noter le bon omportement de

ϕ

β

min

. L'algorithme d'estimationdesparamètresARutilisé étaitunalgorithmeadaptatifexploitantune

appro he par oe ients de réexion bidimensionnelle évitant toute inversion de

matri e [LN96, Ala98℄. Il eut été intéressant d'étudier l'inuen e de l'algorithme

d'estimation, par exemple en utilisantun algorithme basé sur la méthode de Y

ule-Walker, sur les performan es des ritères.

Tab. 2.1 Pour entages d'estimation exa te de l'ordre du modèle ave BIC. 1ère

ligne :ordre

(m

1 , m

2 )

onnu -1ère olonne: taillede l'image

N

1 × N

2

. (1,1) (2,2) (3,3) (1,3) (5,2)

45 × 45

91 99 97 100 97

55 × 55

94 96 98 100 96

64 _{× 64}

84 95 100 99 94

80 _{× 80}

91 95 98 100 92

90 × 90

86 94 99 100 93

Tab. 2.2 Pour entages d'estimation exa te de l'ordre du modèle ave

ϕ

β

min

. 1ère ligne :ordre

(m

1 , m

2 )

onnu -1ère olonne: taillede l'image

N

1 × N

2

.

(1,1) (2,2) (3,3) (1,3) (5,2)

45 × 45

99 100 100 100 100

55 × 55

100 100 100 100 100

64 _{× 64}

100 99 100 100 100

80 _{× 80}

99 100 100 100 100

90 × 90

99 100 100 100 100

Tab. 2.3 Estimationde l'ordre pour 16

(64

× 64)

-images issues de D92.

(m

1 , m

2 )

(1,2) (2,2) (3,2) (4,2) (5,2) (6,2) autre

AIC 0 1 2 2 0 0 11

BIC 0 5 9 1 1 0 0

ϕ

β

min

1 12 1 2 0 0 0

Si on utilise maintenant es ritères pour hoisir un modèle sur des données

réelles omme des textures, omment savoir quel ritère sera le plus approprié?

Cettequestionfait é hoàladis ussionde lapartie 2.2.4.Dans[AO03℄,l'expérien e

aété menéesur quatretextures de Brodatz [Bro66℄(voirFig.2.4). Cestextures ont

été hoisies en lien ave la variété de leur ontenu spe tral qui peut être observé à

(25)

(a) D 19

(b) D 29

(c) D 38

(d) D 92

(e) D 19

(f) D 29

(g) D 38

(h) D 92

Fig.2.4 4textures deBrodatz[Bro66℄(1èreligne)etlesmodulesdeleur TFD2-D

sur la2ème ligne.

pour les diérentes valeurs de

β

utilisées 7

sont diérents. De manière générale, les

résultats les plus stables ont été obtenus ave le ritère

ϕ

β

min

quelque soit la taille des images(de

45 ×45

à

90 ×90

).Cependant, elane permettoujourspasd'armer que e ritère ore lebon hoix de modèle.

Dans [AO03℄, une manipulation originale a été proposée an de tenter de

ré-pondreparl'expérien eàlaquestion posée.Lespro essus ARspeuvent êtreutilisés

en analyse ou en simulation,pour synthétiser des réalisations quenous appellerons

i i texture simulée. Comme es pro essus permettent d'estimer la DSP qui est la

TFdelafon tiond'auto orrélation,ilpeutêtreenvisagéd'évaluerladiéren eentre

les orrélations estimées à partir de la texture d'origine (

T

b

) et la texture simulée (

T

s

).A eteet, ilest possibled'utiliserladivergen e de Kullba k expriméedansle as de pro essus orrélésgaussiens de moyenne nulle[Bas88, Bas96℄:

DK (T

b

, T

s

) =

1

2

tr

R(T

b

)R(T

s

)

−1

₊

tr

R(T

s

)R(T

b

)

−1

_{− 121}

(2.28)

ave

R(T

i

)

,

i = b

ou

s

,lamatri ede ovarian eestiméei iàpartird'unsupportQP1

de taille

10 × 10

(matri e

121 × 121

) et tr(.) l'opérateur qui renvoie la tra e d'une matri e. Dans e ontexte, les modèles de supports QP1 et NSHP ont été testés.

La tendan edes résultats obtenuspeut être illustréepar lagure 2.5 quidonne des

valeursde distan es moyennes: pour haque texture, ladivergen e de Kullba k est

al uléedix fois àl'aide de dixréalisations du pro essus etondispose de 25images

45 × 45

et

80 × 80

,et de 16 images

55 × 55

,

64 × 64

et

90 × 90

.

Les on lusions de ette étude sur les textures étaient les suivantes, en

rappe-lantquel'algorithmeadaptatif2-DFLRLS(TwoDimensionalFastLatti eRe ursive

Least Squares) aété utilisé : labonne lisibilité(ou stabilité)des ordres de modèles

7

(26)

5

6

7

8

9

10

11

12

13

45

50

55

60

65

70

75

80

85

90 Divergence de Kullback

racine carre de la taille de l’image

D 92 - QP

AIC QP

BIC QP

phi_beta_min QP

Fig. 2.5 Divergen es de Kullba k obtenues à partir de la synthèse de pro essus

AR 2-D QP1 dontl'ordre a été estimé ave diérentsICs.

estimés à l'aide de

ϕ

β

min

, e qui permet d'envisager une bonne ara térisation en termede hoix de modèle (voirTab. 2.3), etdes valeurs de divergen es de Kullba k

plus faibles que elles obtenues ave les autres ritères, e qui permet d'envisager

une bonne des ription des statistiques d'ordre 2. Ces onsidérations autour de la

modélisation de textures ont été exploitées pour la mise au point d'une méthode

non-supervisée de segmentation d'images texturées [AR05℄ (voirChapitre 3).

Dans la suite de e hapitre, nous voyons omment ne pas se limiter à l'usage

de supports de tailles roissantes dans le as du modèle AR 1-D et des supports de

formere tangulairedans le as du modèle AR 2-D[CAOA09 ℄.

2.3.2 Méthodes omparatives

Pour pouvoir aborder le problème du hoix de modèles diéremment de la

ma-nière utilisée pour les modèles emboités, il faut dénir autrement l'ensemble des

modèles. Soit, ommepré édemment,

M

lenombre maximum de paramètres libres et on peut prendre sans manque de généralité

Θ

M

= R

M

. Des sous-modèles

dis-joints,pouvant être de même ardinaux, apparaîssenten xantun paramètre

θ

0

de

référen e eten onsidérant les

2 M

sous-ensembles indexés par un support

S

, partie

de

[[1, M]]

:

Θ

S

=

θ

∈ Θ

M

tels que

∀j ∈ S, θ

j

6= θ

0 j

et

∀j /

∈ S, θ

j

= θ

0 j

(2.29)

Unsous-modèle

θ

S

∈ Θ

S

est ditalors de support

S

. Lesupport re her hé sera noté

S

∗

; il est asso ié au sous-modèle

θ

∗.

Le as le plus fréquent est

θ

0 _{= 0}

et ela

onvient dans le ontexte du hoix d'un modèle AR : le problème revient à trouver

les oe ients AR de valeur nulle. Uneétude portantsur larégression polynomiale

estproposéedans[Coq08℄et etteappro hepourraitaussis'appliqueràlare her he

des attributs pertinents dans un ensemble d'attributs pour représenter une forme

(27)

Méthode globale.

Le support in onnu

S

⋆

est estimé par minimisation du ritère sur tous les

sup-ports envisagés :

S

ICG

= arg min

S⊆[[1,M]]

(

IC

(S)) .

(2.30)

Cetteméthodeimposeune omplexité al ulatoirequine permetpasl'implantation

de l'appro he dans tous les ontextes appli atifs (voir Tab. 2.4).

Méthode omparative.

Dans[Nis88℄,uneméthodepossédantune omplexité al ulatoireinférieureaété

proposée. Fixons lavaleur du ritère lorsque tous lesparamètres sont libres omme

référen e etestimons lesupport

S

⋆

par

S

ICC

déni ommesuit :

(

IC ref

=

IC

([[1, M]])

S

ICC

=

j

_{∈ [[1, M]],}

IC ref

≤

IC

([[1, M]]

\ {j})

.

(2.31)

Ainsi

S

ICC

ontientles omposantesjugéesimportantesviaIC ref

≤

IC

([[1, M]]

\{j})

.

Méthode omparative des endante.

Dans[Coq08℄,deuxnouvellesméthodesontétéproposées:laméthode

ompara-tive inversée, qui prend omme référen e, ontrairement à laméthode omparative

de Nishii,la valeur de l'IClorsque tous lesparamètres sont misà la valeur de

réfé-ren e

θ

0

,et laméthode omparativedes endante. Cette dernière méthode a permis

l'obtentiond'uneinégalitéora ledu risque de hoisirlebonmodèle[Coq08℄et 'est

don elle qui est présentée dans e do ument.

Laméthode omparative des endante élimineles omposantes jugées non utiles

par étape. L'étape 0 onsiste à xer

S

(0)

_{= [[1, M]],}

IC

(0)

ref

=

IC

(S

(0)

_).

L'étape

k

≥ 0

ayant été ee tuée, onpro ède à l'étape

k + 1

en posant :

C

(k+1)

=

n

j

∈ S

(k)

_,

IC

S

(k)

_{\ {j}}

_≤

IC

(k)

ref

o

J

(k+1)

= arg min

j∈C

(k+1)

IC

S

(k)

_{\ {j}}

S

(k+1)

= S

(k)

\

J

(k+1)

IC

(k+1)

ref

=

IC

(S

(k+1)

_).

Ainsi,à haque étape, nous é artons dénitivement la omposante

J

(k+1)

jugée

la moinsutile par le ritère.A une ertaine étape

k

f

+ 1

, onobtiendra

C

(k

f

+1)

=

∅

.

Cela signie que le ritère juge qu'il n'y a plus de omposantes inutiles dans

S

(k

f

)

.

Nous arrêtons don la pro édure et hoisissons

S

ICD

= S

(k

f

)

(2.32)

omme estimation de

S

⋆

.

Notons que toutes les quantités

C

(.)

_{, J}

(.)

_{, S}

(.)

_,

IC

(.)

ref

, k

f

produites par ette mé-thode sont aléatoires. Le nombre de ritères qu'il est né essaire de al uler pour

(28)

Tab. 2.4 Les trois méthodes et leur omplexité.

Globale(2.30) Comparative (2.31) Des endante (2.32)

2 M

M + 1

_{≤ M(M + 1)/2}

Complexités des méthodes.

Le tableau 2.4 résume les omplexités des méthodes abordées i i en terme de

nombre de ritères à al uler né essaires à la séle tion de

S

. La méthode globale, présentant une omplexité exponentielle, est beau oup plus oûteuse en terme de

al ul que les méthodes omparatives. Voyons maintenant l'appli ation de es

mé-thodes aumodèle AR 1-D.

Simulations ave le modèle AR 1-D

En se donnant un ordre de régression maximal

M

, les ICs s'é rivent dans le ontexte de la re her he des indi es

r

pour lesquels

a

r

= 0

(voir éq. 2.7 & 2.25):

IC

(S) = 2N log σ

M V

S,e

+ α

IC

(N)(

|S| + 1)

où

σ

M V

S,e

est l'é art-type estiméen supposant quele support est

S

de ardinal

|S|

. Pour omparer les diérents ICs, nous avons synthétisé des réalisations d'un

pro essus AR, d'ordre15, dont lesparamètres sont :

θ

∗

=

_{{0.5, 0.4, 0, . . . , 0, 0.45} , σ}

2 _e

= 1

.

Nousappliquonsensuitelesméthodes(2.30)(2.31)et(2.32)ave

M = 20

en faisant varier

β

entre 0 et 1 (voir éq. 2.20). On ompte un su ès lorsque le support

S

hoisi est

{1, 2, 15}

. L'expérien e est répétée 100 fois et les pour entages de su ès des méthodes sont représentés, en fon tion de lavaleur de

β

, sur la gure 2.6 pour

N = 100

et

N = 10.000

.Lesbarresverti ales orrespondent auxvaleursrespe tives

de

β

AIC ,

β

BIC ,

β

min et

β

max

(voir éq. 2.21 et 2.22). Pour

N = 10.000

, on obtient

β

AIC

< 0

, ette valeur n'apparait don pas sur la gure.

Les résultats des méthodes sont satisfaisants et omparables à faible omme à

grand nombre d'é hantillons. Cependant, pour les obtenir, les méthodes

ompara-tiveet omparativedes endanteontétéenviron200foisplusrapidesquelaméthode

globale.Ilfautaussinoterlebon omportementde laméthode omparative

des en-danteparrapport àlaméthode globale.Sur legraphiquede lagure2.6,lesbornes

β

min

et

β

max

semblent prendre totalement leur sens dans e ontexte

expérimen-tal : un intervalle de valeurs in lu dans

[β

min

, β

max

]

donne des ritères permettant

d'atteindre un taux de 100%. Pour

N = 100

, et à partir de l'expérimentation qui fait o e de pro édure d'apprentissage, une valeur de

β

autour de 0.4 semble être appropriée.

Données réelles et modèle AR 2-D

Si on onsidère les ré ursions lassiquement utilisées pour obtenir le support

DPNS (voiréq. 2.24) par ritère d'information [AO03℄, dans le as de la prédi tion

linéairebidimensionnelle, l'in rément sur le ardinaldu support n'est pas

systéma-tiquement de un. Par exemple, pour

m

1 > 1

et

m

2 > 1

,

Θ

m

1 ,m

2 +1

et

Θ

m

(29)

(a)

N = 100

(b)

N = 10.000

Fig. 2.6 Pour entage de su ès des méthodes omparativeset globaleen fon tion

(30)

ontiennent respe tivement

2m

1 + 1

et

2m

2 + 1

paramètres en plus par rapport à

Θ

m

1 ,m

2

. Il apparaît alors que des indi es peuvent être in lus dans lesupport même s'ils ne sont pas pertinents et inversement des paramètres pertinents peuvent être

rejetés ar ils né essiteraient l'in lusionde trop de paramètresnon pertinents.Fa e

à e onstat, la pro édure de hoix du modèle qui onsiste en la re her he de

l'en-semble des paramètres non nuls (ou pertinents) dans un support DPNS (voir éq.

2.24) d'ordre

M = (M

1 , M

2 )

apparaît omme une alternative judi ieuse.

An de montrer la faisabilitéd'une telle pro édure, des simulationsont été

réa-lisées sur deux textures de taille

256 × 256

issues de l'album de Brodatz [Bro66℄ (voir Fig.2.7). A l'aide des méthodes omparative et omparativedes endante, des

supports de formenon ontrainteà l'intérieurd'unsupport DPNS d'ordremaximal

(7, 7)

ontété obtenus en utilisantle ritère

ϕ

β

min

.

La gure 2.7 montre les textures utilisées, les supports obtenus ave les

mé-thodes proposées ainsi que lesanalyses spe trales issues des DSPs estimées à l'aide

desmodèlesobtenus.Atitrede omparaison,nousavonsaussifournilesmodulesdes

TFD2-DquidonnentaussiuneestimationdelaDSP(méthode dupériodogramme).

Laméthode lassiquede hoixdu support DPNS a donné: pour la textured29, un

support de taille

(4, 2)

ontenant 22 paramètres ontre 14et 15 pour les méthodes omparatives; pour la texture d38, un support de taille

(5, 3)

ontenant 38 para-mètres ontre 13 et 16 pour les méthodes omparatives. Dans les deux as, des

paramètres séle tionnés par les méthodes omparative et omparative des endante

ontété ex lus par l'appro he lassique.

Pournir,ilestpossibledenoterquelessupportsobtenusave lesdeuxméthodes

dièrentetquelaméthodedes endanteatendan eàfournirplus deparamètresque

la méthode omparative : si on se réfère aux DSP estimées, le spe tre obtenu ave

la méthode omparative des endante sur la texture d38 semble améliorer elui

ob-tenu ave la méthode omparative. En perspe tive de ette étude, an de montrer

quantitativement quelle méthode dé rit le mieux les statistiques d'ordre 2, des