• Aucun résultat trouvé

Sélection de modèles : cadre théorique

Dans le document Fusion pour la séparation de sources audio (Page 39-42)

2.3 Fusion et sélection de modèles

2.3.1 Sélection de modèles : cadre théorique

La littérature relative aux méthodes de sélection de modèles est riche. Cependant, de nom- breuses propositions sont dédiées à une application ou à un type d'algorithme d'estimation et leur généralisation à d'autres problèmes n'est pas souvent évidente. Nous proposons ici de passer en revue les principaux critères de sélection de modèles sans a priori sur le type de modèle utilisé. Les méthodes de sélection dédiées à la séparation de sources seront elles présentées dans la partie

2.3.3.

La sélection de modèles peut être formulée comme le problème de choisir parmi un ensemble de M modèles {M1, ..., Mm, ..., MM}le modèle qui explique le mieux des données X de dimension D, chaque modèle Mm étant déni par un ensemble de paramètres noté Zm et de dimension dm. Méthodes par ré-échantillonnage

Dans le domaine de l'apprentissage automatique, les paramètres d'un modèle Mmsont préala- blement estimés sur des données dites d'apprentissage X et le modèle a alors pour vocation d'être utilisé sur des données X0 non-utilisées lors de l'apprentissage. Dans ce cas, le principe de sélection de modèles est analogue au principe de généralisation. En eet, on choisira le plus souvent en ap- prentissage le modèle qui généralise le mieux, c'est-à-dire celui qui aura les meilleurs performances sur des données X0 diérentes des données d'apprentissage, donc non-encore vues par le modèle. Ces données sont souvent qualiées de données de validation. Lorsqu'un tel ensemble de données n'est pas disponible, il est possible de faire appel à des méthodes dites de ré-échantillonnage. Comme leur nom l'indique, ces méthodes visent à réexploiter les données d'apprentissage X an de générer des données de validation. Parmi ces méthodes, on citera les techniques de validation croisée [Refaeilzadeh et al.,2009], très simples à mettre en ÷uvre, qui consistent simplement à scinder l'ensemble des données en deux ensembles distincts : l'un formant l'ensemble d'appren- tissage et l'autre formant l'ensemble de validation destiné à mesurer la capacité de généralisation du modèle appris. Les méthodes dites de bootstrap [Efron,1983;Efron et Tibshirani,1994] sont elles des techniques de ré-échantillonnage statistiques. Le bootstrap consiste à simuler de nouvelles données Xb à partir des données X disponibles, par tirage aléatoire avec remise. L'idée du bootstrap est de renouveler cette simulation de données un grand nombre de fois et d'estimer la performance moyenne du modèle sur ces données. Quelle que soit la méthode de ré-échantillonnage employée, les modèles peuvent être comparés sur la base de leur performance moyenne sur les en- sembles de données ré-échantillonnées.

Les méthodes par ré-échantillonnage ont toutefois l'inconvénient qu'elles nécessitent beaucoup de calculs coûteux en temps, puisque chaque modèle doit être évalué sur un grand nombre de données dans le cas du bootstrap et être entraîné sur un grand nombre de données dans le cas de la validation croisée. Pour éviter des calculs prohibitifs, une autre catégorie de méthodes de sélection de modèles fait appel à des critères purement statistiques.

Méthodes statistiques

Les méthodes statistiques de sélection proposent généralement de formuler le choix d'un modèle en fonction de critères souvent nommés critères d'information [Stoica et Selen, 2004]. Ces critères prennent généralement la forme suivante, pour le modèle Mm,

Critm = Em+ Cm (2.59)

où Em rend compte de l'adéquation du modèle Mm aux données X (ou l'erreur de modélisation, en d'autres termes) et Cm mesure la complexité de ce même modèle. La sélection consiste alors à choisir le modèle dont le critère Critm est minimal. An de calculer Em et Cm, deux principaux paradigmes ont été employés dans la littérature. Le premier modélise le problème de sélection de modèles comme un problème statistique dans un cadre bayésien alors que le deuxième s'inspire de la théorie de l'information. Quel que soit le paradigme retenu, les critères de sélection de modèle obtenus sont donc le fruit d'un compromis entre adéquation du modèle aux données et complexité du modèle. Nous donnons ci-après un bref aperçu des principaux critères dérivés de ces deux paradigmes.

Approche bayésienne Le paradigme bayésien ore un cadre théorique très populaire à la sélection de modèles. Le principe de sélection par critère bayésien s'appuie sur le calcul de la probabilité a posteriori p(Mm|X) de chacun des modèles Mm sachant les données X. Cette probabilité s'écrit, selon la règle de Bayes,

p(Mm|X) =

p(X|Mm) p(Mm) PM

m0=1 p(X|Mm0) p(Mm0)

, (2.60)

où p(Mm) et p(X|Mm) désignent respectivement la probabilité a priori et la vraisemblance du modèle Mm. Le critère de sélection bayésien, connu sous le nom de règle du maximum a posteriori consiste alors à sélectionner le modèle Mm∗ dont la probabilité a posteriori p(Mm|X)

est maximale, soit

m∗ = argmax p(Mm|X). (2.61)

La littérature fait parfois référence à cette règle sous le terme de comparaison de modèles bayésienne

[Bishop, 2006]. Dans le cas où la distribution des probabilités a priori des modèles p(Mm) est

uniforme (lorsque ∀m, m0, p(M

m) = p(Mm0)), le critère bayésien revient à sélectionner le modèle

Mm dont la vraisemblance marginale p(X|Mm) est maximale.

La vraisemblance marginale est dénie comme l'intégration de la probabilité jointe des données X et des paramètres du modèle Zm par rapport à toutes les valeurs de ces paramètres selon

p(X|Mm) = Z

p(X, Zm|Mm)dZm = Z

p(X|Zm, Mm)p(Zm|Mm)dZm (2.62) où p(Zm|Mm) représente la probabilité a priori des paramètres Zm du modèle Mm. Dans la littérature [Kass et Raftery, 1995], il est proposé de comparer les vraisemblances marginales de deux modèles Mm et Mm0 en calculant leur rapport nommé facteur de Bayes et déni par

Bmm0 = p(X|Mm)

Si Bmm0 >1, le modèle Mm représente mieux les données que le modèle Mm0. Plus la valeur de

Bmm0 est élevée, plus la conance en cette décision est grande.

Toutefois, en pratique, ni le critère bayésien ni le facteur de Bayes ne sont exploitables en l'état car le calcul de la vraisemblance marginale est souvent impossible. La vraisemblance marginale peut tout de même être approximée au moyen de méthodes d'inférence approchées, comme les méthodes de Monte-Carlo par chaînes de Markov [Andrieu et al.,1999] ou l'inférence variation- nelle [Bishop,2006] que nous aborderons dans le chapitre5.

Une valeur approchée de la log-vraisemblance marginale peut être également obtenue en en eectuant un développement en série de Taylor du second ordre autour du point Z?

m déni comme étant l'estimateur du maximum de vraisemblance, soit

Z?m= argmax Zm

p(X, Zm|Mm). (2.64)

La démonstration est disponible dans [Stoica et Selen, 2004]. Une démonstration équivalente au moyen d'une approximation de Laplace est disponible dans [Lebarbier et Mary-Huard,

2006]. Dans ces deux cas toutefois, la log-vraisemblance marginale se trouve approchée par

log p(X, Zm|Mm) ≈ log p(X|Z?m, Mm) − dm

2 log D + log p(Mm), (2.65) où, pour rappel, dm représente le nombre de paramètres du modèle Mm (soit la longueur du vecteur de paramètres Zm) et D représente la dimension des données X. La règle du maximum a posteriori (2.61) peut donc être approchée par la règle suivante :

m∗= argmax log p(X|Z?m, Mm) − dm

2 log D + log p(Mm). (2.66) Enn, en supposant que la distribution des probabilités a priori des modèles p(Mm) est uni- forme et en reformulant les termes de (2.66), l'approximation (2.65) permet de formuler le critère, connu sous le nom de Bayesian Information Criterion (BIC) et introduit par [Schwarz, 1978], qui s'écrit, pour le modèle Mm,

BICm = −2 log p(X|Z?m, Mm) + dmlog(D). (2.67) Le modèle sélectionné selon ce critère est alors le modèle qui a le critère BIC le plus petit, soit

m∗ = argminBICm. (2.68)

Nous remarquerons que le critère BIC (2.67) est composée d'un terme d'adéquation aux données mesurée par la vraisemblance maximale p(X|Z?

m, Mm) et d'un terme de pénalité de la complexité du modèle mesurée par le produit dmlog(D). Le critère BIC relève donc d'un compromis entre adéquation aux données et complexité.

Approche inspirée par la théorie de l'information En théorie de l'information, la dissi- milarité entre deux distributions de probabilité est mesurée par la divergence de Kullback-Leibler que nous avons déjà introduite dans la partie2.1.3. Ainsi, le modèle Mm qui approche au mieux la vraie distribution des données p(X) doit être celui qui minimise la distance de KL entre la distribution vraie p(X) et la vraisemblance p(X|Mm) du modèle Mm. Le meilleur modèle M∗m est donc déni comme

m∗= argmin DKL(p(X)|p(X|Mm)) (2.69) avec DKL(p(X)|p(X|Mm)) = Z p(X) log p(X) p(X|Mm) dX. (2.70)

De façon équivalente, le meilleur modèle M∗

m est celui qui maximise la quantité I(p(X), p(X|Mm))nommée information de Kullback-Leibler et dénie comme

I(p(X), p(X|Mm)) = Z

p(X) log p(X|Mm)dX. (2.71)

Bien entendu, ni la divergence de KL ni l'information de KL ne peuvent être calculées puisque la distribution vraie des données p(X) n'est pas connue. Au moyen d'un développement en série de Taylor du second ordre à proximité de l'estimateur du maximum de vraisemblance Z?

m, simi- lairement à l'approche bayésienne, il est montré notamment dans [Stoica et Selen,2004] que l'information de KL (2.71) peut être approchée par

I(p(X), p(X|Mm)) ≈ log p(X|Z?m, Mm) − dm. (2.72) La maximisation de ce critère relativement au modèle Mmpermet donc de sélectionner le meilleur modèle au sens du maximum de l'information de KL et est équivalent à la minimisation du critère AIC (pour Akaike Information Criterion) [Akaike,1992]

AICm = −2 log p(X|Z?m, Mm) + 2dm. (2.73) Nous remarquerons que le critère AIC a une forme très similaire au critère BIC (2.67), en ce sens qu'il relève d'un compromis entre adéquation aux données exprimée par la vraisemblance maximale p(X|Z?

m, Mm) et la complexité du modèle qui cette fois est exprimée par un multiple du nombre de paramètres du modèle dm, et ne dépendant donc pas, comme dans le cas bayésien, de la dimension des données D. D'autres critères reprennent cette idée de compromis entre adéquation et complexité d'un modèle, en changeant principalement l'expression du terme relatif à la complexité. On nommera par exemple le critère GIC (pour Generalized Information Criterion) [Stoica et

Selen,2004], le critère AIC corrigé [Hurvich et Tsai,1993] ou le critère MDL (pour Minimum

Description Length) [Rissanen,1978].

Dans le document Fusion pour la séparation de sources audio (Page 39-42)

Documents relatifs