• Aucun résultat trouvé

Discussion sur les méthodes de sélection de modèles

Modèles de Markov

2.6 Discussion sur les méthodes de sélection de modèles

Il n’existe pas de critère universellement meilleur. En pratique, seule une parfaite connais-sance du milieu à analyser permet de donner un sens à la notion de supériorité d’un critère sur un autre. D’après Olivier et al. [123], le principe du maximum de vraisemblance conduit en général à sur-paramétrer le modèle pour avoir de bons résultats. Une pénalisation du terme de vraisemblance peut pallier cet inconvénient. Le critère de type log-vraisemblance pénalisé le plus célèbre est AIC Akaike (1973) [3]. Même s’il n’est pas totalement satisfaisant, il amé-liore le principe du maximum de vraisemblance mais conduit aussi à une sur-paramétrisation.

D’autres critères désormais classiques, BIC et HQC, assurent une meilleure estimation en pénalisant justement le sur-dimensionnement du modèle. Enfin, le critère de comparaison de Kullback-Leibler [174] mesure la dissimilarité entre 2 modèles.

Une grande attention doit être portée au choix du critère de sélection du modèle.

Il doit être conditionné par l’objectif de l’analyse et de la connaissance des données. Olivier et al. [122] ont remarqué que les critères comme BIC et AIC étaient utilisés indifféremment, quel que soit le problème posé, alors qu’ils n’ont pas le même objectif.

Les données dont nous disposons dans ce manuscrit sont essentiellement basées sur des probabilités. Notre démarche de sélection se fera ainsi sur des modèles probabilistes. Si nous nous référons à la littérature purement mathématique, celle-ci recommande l’utilisation d’une méthode Bayésienne. En effet, l’inférence bayésienne est parfaitement maitrisée dans ce domaine. Mais selon Burnham [32], presque tous les arguments en faveur de l’utilisation de BIC plutôt que AIC, avec des données réelles, manquent de pertinence ! Ceci contribue davantage à la confusion qu’à la compréhension de l’utilisation de ces critères. Il y a des contextes clairement définis permettant le choix de la bonne méthode. Il apparait pour certains qu’il vaut mieux choisir BIC car c’est une méthode Bayésienne. La différence doit se faire dans la distribution a priori définissant le modèle [32]. La comparaison des 2 méthodes doit être basée selon [32], sur la comparaison des mesures de leur performance dans des conditions réalistes d’application. Celle-ci est fonction du nombre de paramètres du modèle.

De plus, une augmentation de ce nombre de paramètres permet de réduire le biais d’un modèle mais induit en contre partie une augmentation de la variance [131].

Consistance et efficacité

Certains critères sont basés sur le principe du maximum de vraisemblance (voir § 2.4.3, p. 42) tels que AIC [3] et BIC [148]. Nous utiliserons par la suite certains de ces critères comme AIC, BIC et HQC. Le critère de BIC est connu comme consistant, i.e. si le vrai modèle est contenu dans l’ensemble des modèles candidats, alors la probabilité de choisir le vrai modèle est proche de 1. D’autre part, le critère d’AIC est optimal pour les cas à la fois paramétriques et non paramétriques. Ce critère donne de bons résultats dans l’estimation d’une fonction de régression par exemple. Selon Claeskens et al. [46], BIC et HQC sont des critères fortement consistants. AIC, AICc et le Cp de Mallows sont efficaces (un critère est efficace lorsque l’erreur de prédiction attendue est proche de l’erreur de modélisation) [47].

Cependant, nous ne pouvons pas combiner la consistance de BIC avec l’efficacité d’AIC.

En effet, Yang [189] montre que si le vrai modèle est inclu dans l’ensemble des candidats alors les points forts des 2 précédents critères, mentionnés ci-dessus, ne peuvent être partagés.

Autrement dit, pour être consistant, les critères de sélection de modèles doivent se comporter de manière optimale par rapport à l’AIC, en terme d’erreur quadratique moyenne. Selon [98], BIC a été conçu pour trouver le modèle le plus probable. Par contre AIC est meilleur lorsque les modèles candidats sont peu probables, il minimise la distance de Kullback-Leibler (voir

§ 2.4.3, p. 44) qui permet aussi de comparer des modèles entre eux.

Sur-apprentissage

Les données d’apprentissage sont déterminantes dans la construction d’un modèle. Woo-droofe [188] étudie le caractère de sur-apprentissage des critères comme l’AIC ou le Cp de Mallows. Il montre l’influence du paramètre k (pour k → +∞) pour la loi de probabilité

« Arc Sinus ». Par exemple pour k → +∞, la probabilité de sur-aprentissage est de 0,946 alors que la probabilité d’identifier correctement le vrai modèle est de 0,712 (voir Tableau 2.1, p. 56)

k Probabilité de sur-aprentissage Probabilité d’identifier le vrai modèle

5 0,571 0,736

10 0,718 0,791

+∞ 0,946 0,712

Tableau 2.1 – Caractère de sur-apprentissage de l’AIC (distribution Arc Sinus [188]).

Cet exemple illustre le fait que ce critère de sélection de modèle minimise le score si le nombre de paramètres est trop important.

2.7 Conclusion

Des approches telles que l’analyse de sensibilité d’un modèle, les méthodes avec score d’intérêt ou statistiques, nous offrent de nombreuses possibilités pour trouver les architec-tures des modèles les plus pertinentes. De nombreuses méthodes utilisées en mathématiques appliqués ne seront pas développées ici à cause de leur complexité. Nous utiliserons les mé-thodes décrites ci-dessus pour tenter de mesurer la pertinence des architectures de MMC proposées dans Vrignat [177]. De plus, afin de pouvoir comparer les données empiriques avec des données issues de simulation, nous allons mettre en place un modèle de synthèse. Nous allons alors vérifier dans un premier temps son caractère stochastique (avec un test du NIST).

Ensuite, nous allons déterminer les éléments du modèle les plus pertinents à l’aide des mé-thodes précédentes qui ont déjà été utilisées avec une problématique similaire. Enfin, dans un but d’améliorer les performances de notre modèle, nous proposerons des améliorations en les quantifiant à l’aide de la corrélation linéaire de Bravais-Pearson.

Chapitre 3

Évaluation de modèles par une approche