• Aucun résultat trouvé

Critères usuels pour la sélection de modèles

3.3 État de l’art sur la sélection de modèles géométriques

3.3.1 Critères usuels pour la sélection de modèles

La question de la sélection de modèles est un problème très général, dont nous souhaitons ici donner un léger aperçu avant de nous intéresser au cas particulier de la sélection de modèles géométriques pour

FIG. 3.7 – Illustration de l’erreur de transfert définie comme la distance l entre le point m et le point

T m′ pour une transformation planaire T , et la distance d entre le point m et la droite FTmpour la

géométrie épipolaire.

des correspondances de points. On se réfère dorénavant au symbole M pour désigner un modèle, et à T pour les paramètres qui sont estimés pour ce modèle.

Examinons tout d’abord le problème du sur-apprentissage. Une alternative au critère des moindres carrés est donné par le principe du Rasoir d’Occam, qui peut être formulé ainsi :

« il ne faut pas multiplier les explications et les causes sans qu’on en ait une stricte nécessité. »

Pour la sélection de modèles, ce principe de parcimonie peut se traduire par le fait de rejeter les mo- dèles les plus complexes qui n’apportent pas un gain significatif sur la précision de modélisation des données. Cela revient en pratique à définir un critère permettant de réaliser un compromis entre préci- sion et la complexité du modèle utilisé, ce que l’on désigne usuellement par l’expression « compromis biais-variance ».

De nombreux critères de sélection de modèles ont ainsi été proposés dans la littérature, dans des cadres théoriques très divers mais dont les expressions sont cependant très similaires. En effet, ces diffé- rents critères peuvent généralement s’écrire sous la forme (à une constante additive près) :

Q(C, M, T ) = −2 log(L(T , C)) + P (N, k) ,

où L(T , C) désigne la vraisemblance des paramètres T du modèle considéré M en fonction des données C (N correspondances de points dans notre cas). La fonction P est un terme de pénalisation qui dépend du nombre de données N et qui prend en compte le nombre de paramètres k utilisé par le modèle. Pour simplifier les expressions suivantes, nous désignons désormais par L la vraisemblance du modèle. Déterminer le modèle optimal selon ce critère requiert alors l’estimation du maximum de vraisemblance de chacun des modèles en compétition.

On modélise généralement les N échantillons de données comme des variables aléatoires iid. Dans le cas où les données sont supposées suivre une loi normale, de moyenne nulle et de variance σ2connue,

la log-vraisemblance peut s’exprimer en fonction de la somme des résidus aux carrés :

− log(L) = − log N Y i=1 1 √ 2πσe − r 2 i 2σ2 = N/2 log(2πσ2) + PN i=1r2i 2σ2 . Remarque 1 :

Lorsque σ est inconnu, le nombre de paramètres est (k + 1) et l’estimateur de variance ˆσ2= 1 N

PN i=1r2i est utilisé.

Dans les paragraphes suivants sont donnés les premiers critères qui ont été proposés dans la litté- rature (et les plus utilisés aujourd’hui), qui ont par la suite fait l’objet de diverses extensions selon les applications et les hypothèses considérées.

Critère d’information AIC Akaike [Aka74] fut le premier (1974) à proposer un critère de sélection de modèles qui tient compte à la fois de la complexité du modèle et de sa précision. Ce critère intitulé par la suite AIC (pour Akaike Information Criterion) est un critère défini dans le cadre de la théorie de l’infor- mation. Le critère AIC est un estimateur asymptotiquement5non biaisé de l’espérance de l’information de Kullback-Leibler (aussi appelée divergence de Kullback-Leibler) qui peut s’écrire :

AIC = −2 log(L) + 2k , où l’on rappelle que k désigne le nombre de paramètres du modèle.

Dans le cas où le nombre d’échantillons N n’est pas suffisamment important (N < 40k), le critère AICc doit être utilisé [Sug78] pour éviter de privilégier des modèles trop complexes :

AICc = AIC +

2k(k + 1) N− (k + 1) , AICcconvergeant vers AIC lorsque N → ∞.

BIC Schwarz [Sch78] proposa ensuite (1978) un critère alternatif à AIC en se plaçant dans le cadre de l’inférence bayésienne, de manière à pouvoir intégrer un a priori sur le modèle M et sur les paramètres de T conditionnellement au modèle testé. Le critère BIC, pour Bayesian Information Criterion, s’écrit alors de la manière suivante :

BIC = −2 log(L) + k log(N) , où l’on rappelle que N désigne le nombre d’échantillons.

Parmi les nombreuses analyses comparatives des deux critères, il existe un consensus pour dire que le critère BIC privilégie le modèle « prédictif », tandis que le critère AIC privilégie le modèle « explicatif ». Autrement dit, le critère AIC tend à surestimer la complexité du modèle, tandis qu’au contraire, le critère BIC privilégie les modèles plus simples [HTF03].

Remarque 2 :

Il a été par ailleurs montré [BA04] que le critère AIC peut être vu comme un cas particulier de BIC, avec un a priori dépendant du nombre de paramètres des différents modèles testés.

MDL Dans un autre registre, Rissanen [Ris78] a proposé un autre critère de sélection de modèles fondé sur la longueur minimale de description, ou Minimum Description Length (MDL) en anglais. C’est un concept très simple qui exprime directement du principe du rasoir d’Occam en termes de complexité algorithmique, ou complexité de Kolmogorov. Autrement dit, le critère MDL consiste à déterminer, pour chacun des modèles en compétition, la longueur de code nécessaire à un programme pour représenter les données, le modèle optimal étant défini comme celui minimisant cette quantité. De manière analogue aux critères précédents, la longueur de code L d’un modèle est représenté par deux termes (on parle alors de « codage en deux parties ») :

L = LE+ LM ,

où LE désigne le coût de représentation des écarts aux modèles (fonction des erreurs résiduelles), et

LM le coût de représentation des paramètres du modèle choisi. Or, selon la théorie de l’information,

considérer la longueur d’un code permettant de représenter des données est équivalent à considérer la distribution de probabilité de ces données. Ainsi le terme LE peut être exprimé comme l’opposé de la

log-vraisemblance (− log(L)) et la complexité du modèle LMen fonction du nombre de paramètres k

et du nombre d’échantillons N, soit finalement :

2L =−2 log(L) + k log(N 2π) .

Une fois encore, il est remarquable de constater la forte similarité de cette expression avec les critères précédents.