• Aucun résultat trouvé

Le critère d’information bayésien (BIC)

Dans le document Psychologie statistique avec R (Page 161-165)

7.2 L’approche bayésienne

7.2.4 Le critère d’information bayésien (BIC)

En pratique, les comparaisons portent souvent sur plus de deux modèles, avec des nombres variables de paramètres. L’approche bayésienne suppose alors pour chacun d’eux de poser une hypothèse de distribution sur plusieurs paramètres simultanément. Les calculs d’intégrales multiples ne mènent pas toujours à des expressions explicites et demandent des calculs assez lourds sur des logiciels spé-cialisés. Cette difficulté a longtemps retardé l’utilisation de l’approche bayésienne dans les applications.

G. Schwarz

Bien que la puissance des machines d’aujourd’hui lève une bonne partie de cette difficulté, de nombreux au-teurs ont cherché à simplifier la procédure de décision par facteur de Bayes en proposant des indices approxi-matifs faciles à calculer (GBIC, Berger et al. 2003 ; ABF, Bollenet al.2005 ;BIC, Schwarz, 1977).

Nous étudions dans cette partie une statistique de déci-sion simplifiée, appeléecritère d’information bayésien, qui propose une approximation du facteur de Bayes.

Cette approximation est bonne voire très bonne tant que la dimension des modèles (nombre de paramètres) n’est pas trop importante (comparaison de deux ou trois groupes indépendants). Elle a l’avantage d’être fa-cile à calculer à la main et permet d’initier à l’approche bayésienne en travaux dirigés.

Dérivation du BIC

Pour un modèleM de vecteur de paramètresθ= (θ1, θ2, ..., θt), la vraisemblance

intégrée sur toutes les valeurs possibles de tous les paramètres s’écrit : P(D|M) =

θ

P(D|M, θ)P(θ|M)dθ.

Schwarz (1977) obtient, en utilisant une approximation de Laplace6, l’expression approximative suivante pour la logvraisemblanceintégrée, basée sur la logvraisem-blance maximisée :

lnP(D|M) lnL(ˆθ)− t 2lnN, avec :

L(ˆθ) la vraisemblance maximisée du modèle, obtenue en remplaçant les para-mètres inconnus par leurs estimations au maximum de vraisemblance ;

tle nombre de paramètres du modèle ;

N le nombre d’observations empiriques indépendantes disponibles.

Cette expression permet donc de calculer une (bonne) approximation de la log-vraisemblance intégrée, assez lourde à calculer dans certains cas, à partir de la logvraisemblance maximisée, très facile à calculer, moyennant une petite correc-tion impliquant le nombre de paramètres et le nombre d’observacorrec-tions.

On note que le critère de décision pour le rejet deM0 : P(D|M1)

P(D|M0) >1

peut, après transformation logarithmique, être réécrit de façon équivalente comme : lnP(D|M1)lnP(D|M0)>0.

En utilisant l’approximation de Schwarz, la règle de décision pour décider du rejet deM0devient :

lnL1θ1)−t1

2 lnN > lnL0θ0)−t0 2 lnN.

Pour donner à cette expression une forme qui la rapproche d’autres statistiques courantes (voir section suivante), on la multiplie par 2 :

2 lnL1θ1) +t1lnN

< 2 lnL0θ0) +t0lnN . BIC1 BIC0

Pour un modèleMmdonné, on définit ainsi unemesure globale de qualité de modèle nommée Critère d’Information Bayésien.

6. La méthode de Laplace consiste à approcher la loia posterioripar une loi de Gauss (voir chapitre 9.1), en s’affranchissant ainsi dans une certaine mesure de l’hypothèse de loia priori.

Définition 7.5 (Critère d’information bayésien)

On appelle BICm (Bayesian Information Criterion) d’un modèle Mm àtm para-mètres, notés collectivement par le symbole unique θm, l’indice :

BICm=2 lnL(ˆθm) +tmlnN.

Cet indice est grand quand la vraisemblance est faible et/ou quand le nombre de paramètres est élevé ; il est faible quand l’ajustement est bon (vraisemblance élevée) et le nombre de paramètres peu élevé. De plusieurs modèles concurrents, on retiendra donc celui dont leBICest le plus faible.

On voit que l’indice BIC prend en compte deux aspects dans l’évaluation de la qualité d’un modèle : sa qualité d’ajustement aux données (mesurée par la vrai-semblance) et sa complexité (mesurée par son nombre de paramètres inconnus). La sélection de modèle selon ce principe conduit à retenir celui qui réalise le meilleur compromis entre qualité d’ajustement et parcimonie du modèle.

Facteur de Bayes et probabilités a posteriori approximatives

On peut retrouver approximativement le facteur de Bayes et les probabilitésa pos-teriorides modèles à partir desBIC. D’après ce qui précède, on vérifie facilement qu’on a :

2 lnB10= 2 [lnP(D|M1)lnP(D|M0)]

≈BIC0−BIC1,

soit une formule de facteur de Bayes approximatif de la forme : B10BIC = exp

La probabilité a posteriorideM1, en utilisant la formule 7.5, est approchée par : PBIC(M1|D) = BBIC10 Par complément à 1, la probabilitéa posteriorideM0 est :

PBIC(M0|D) = 1−PBIC(M1|D) = exp Sur les données de l’expérience de télékinésie (exemple 7.4), avecN = 200,t0= 0 (il n’y a aucun paramètre à estimer dans ce modèle) et t1 = 1, et les valeurs de vraisemblance déjà obtenues (section 7.2.2), on trouverait :

BIC0=2 lnL00) +t0lnN =2 ln 0.00610.232, BIC1=2 lnL1π) +t1lnN =2 ln 0.057 + ln 20011.027.

On dira queM0 est le meilleur modèle pour ces données, car sonBIC est le plus faible. En tant qu’approximation du (log)facteur de Bayes, la différence desBIC permet également d’affirmer que le modèle M0 est le plus probablement vrai. Le facteur de Bayes approximatif est BBIC10 = 1.49 (valeur exacte B10 = 1.2) et la probabilitéa posteriorideM1estPBIC(M1|D) = 0.402(valeur exacteP(M1|D) = 0.45).

La figure 7.9 montre comment la fonction puissance de la procédure basée sur les différences de BICest pratiquement superposée à celle du facteur de Bayes (cri-tèreB10>1) calculé avec la loi exacte, avec une perte de puissance très faible. Ce sera le cas pour de nombreux modèles, en tous cas pour les dimensions de modèles modérées que l’on observe souvent dans les études appliquées de psychologie (mo-dèles à un ou deux paramètres). Au-delà, l’approximation peut devenir mauvaise et se solder par une perte de puissance, notamment dans les modèles binomiaux, et les expressions exactes du facteur de Bayes sont préférables.

Critère BIC et rapport des vraisemblances maximisées

Pour la décision sur un choix de modèle, il suffira de calculer les indices BIC de chaque modèle concurrent et de garder celui dont leBIC est le plus faible. Cette approche est la plus simple quand on dispose d’un logiciel comme R2STATS qui calcule automatiquement lesBIC pour n’importe quel type de modèle.

En pratique, il est souvent plus simple pour les calculs à la main de calculer une statistique classique appeléerapport de vraisemblances (c’est-à-dire ici le rapport des vraisemblancesmaximisées) de la forme :

R10 = 2 ln

On note que,strictement parlant, il s’agit dudouble du logarithme du rapport des vraisemblances maximisées. Par abus de langage, on nomme rapport de vraisem-blance cette statistique. avec les tests fréquentistes usuels. Nous rejetonsM0si le rapport de vraisemblance est plus grand que cette valeur critique.

Les deux usages du BIC, par calcul et comparaison de tous les BICm ou par calcul du rapport des vraisemblances pour des comparaisons de modèles deux à

deux, sont évidemment tout à fait équivalents, et mènent aux mêmes conclusions.

L’avantage de cette forme est qu’elle est fournie par de nombreux logiciels, qui ne rapportent pas nécessairement le BIC et que l’on peut obtenir indirectement ainsi, en calculant soi-même la valeur critique. Elle permet aussi de simplifier les calculs à la main dans le cas binomial si l’on ne dispose pas d’une machine avec les fonctions combinatoires (voir section suivante).

Dans le document Psychologie statistique avec R (Page 161-165)