• Aucun résultat trouvé

1.4 Mesures de performance et tests

1.4.1 Qualité du modèle

Dans le cas du modèle économétrique standard, l’erreur d’estimation est l’écart entre la valeur observée et la valeur estimée par le modèle. Dans le cas du modèle du choix discrets, la valeur observée est le choix qui a été fait par l’individu exprimé par la variable indicatrice ynj : 1 si le décideur n a choisi l’alternative j et 0 sinon. Tandis que la valeur estimée – est

la probabilité que l’individu fasse ce choix. Les deux mesures ne sont plus quantitatives. A partir de quel niveau de probabilité estimée pour l’alternative j réellement choisie on peut dire que le modèle ne se trompe pas ? La probabilité qui est supérieure à 0,5 ? Comme la réponse n’est pas évidente, il existe un éventail d’indicateurs de la qualité du modèle. Ces 4. On suppose ici qu’il y a une seule situation de choix par décideur. S’il y a T situations de choix, alors Log Vraisemblance s’écrit comme : ln L =PN

n=1ln  PQ q=1Pnq  QT t=1Pnt|q  .

Figure 1.2: Equivalence entre ρ2 et R2

source :Domencich et McFadden(1975, p. 124)

indicateurs essayent de se rapprocher du coefficient de détermination (R2 dans le cas des modèles quantitatifs), mais ont une interprétation légèrement différente. Parce que dans le cas du modèle où la variable dépendante est quantitative, le R2 représente le pourcentage de la variance expliquée par le modèle, ce qui ne peut pas être le cas pour les modèles de choix discrets.

Nous présentons ici les méthodes les plus courantes et les plus polyvalentes. McFadden

(1974) avait proposé l’indicateur pseudo ρ2 proche dans l’esprit de R2 des modèles quan- titatifs :

ρ2 = 1 −ln L( ˆβ)

ln L(0) (1.32)

Où ln L( ˆβ) est la valeur de la fonction Log Vraisemblance pour le modèle estimé avec ˆβ le vecteur des paramètres estimés et ln L(0) – la valeur de la fonction Log Vraisemblance du modèle réduit aux seuls termes constants. Comme la valeur absolue de ln L( ˆβ) est forcément5 plus petite que la valeur absolue de ln L(0), ρ2 est toujours inférieur à 1. Les deux mesures, ρ2 et R2 pour la régression linéaire, ne sont pas directement comparables parce que ρ2 prend en général des valeurs faibles. Dans ces conditions à partir de quelles valeurs de ρ2 le modélisateur pourrait dire que le modèle a un « bon pouvoir explicatif » ? Afin de répondre à cette questionDomencich et McFadden(1975) proposent l’équivalence entre ρ2 et R2 de la régression linéaire. La Figure 1.2, issue de leur livre, montre cette relation. Les valeurs de ρ2 entre 0,6 et 1 sont équivalentes aux valeurs de R2 proches de 1. Si ρ2 est entre 0,2 et 0,6, alors le pseudo ρ2 est équivalent à R2 du modèle linéaire compris entre 0,4 et 0,9. De ce fait il est considéré que les modèles de choix discrets avec ρ2> 0, 2 ont un bon ajustement (Louviere et al.,2010).

Etant donné que ρ2n’est pas équivalent à R2et présente des valeurs faibles,Estrella(1998) propose l’indicateur φ0 : φ0= 1 − ln L( ˆβ) ln L(0) !−2 ln L(0)N (1.33)

Les deux précédents indicateurs ne tiennent pas compte de la parcimonie. Plus il y a de variables explicatives dans le modèle, plus la valeur de ρ2 est élevée indépendamment de la significativité de ces variables explicatives. Ben-Akiva et Lerman (1985) proposent le pseudo ¯ρ2 ajusté avec K le nombre des paramètres estimés6 :

¯

ρ2= 1 − ln L( ˆβ) − K

ln L(0) (1.34)

Il est possible également de regarder le taux de bonnes prédictions ou l’histogramme des probabilités estimées pour les alternatives choisies. On considère que le modèle prédit bien l’observation si la probabilité estimée pour le choix réellement effectué est la plus grande. Toutefois il faut faire attention au pourcentage des bonnes prédictions. On n’est plus dans la logique néo-classique où l’individu choisit toujours l’action qui apporte le plus d’utilité. Si l’individu a choisi une alternative avec un faible niveau de probabilité par rapport aux probabilités d’autres alternatives, cela ne veut pas dire forcément que le modèle « se trompe » en prédiction. Concernant l’histogramme des probabilités estimées pour les alternatives choisies, il doit montrer un faible taux des décideurs dont la probabilité est faible pour les alternatives choisies.

Pour comparer la qualité des performances des différentes configurations du même modèle, les modélisateurs utilisent les pseudos ¯ρ2 ajustés ou les critères d’information. Le critère d’information est un indicateur de parcimonie dont le principe est basé sur l’entropie avec le but de mesurer l’écart « d’information » entre le vrai modèle et le modèle estimé. Le modélisateur cherche le modèle estimé le plus proche du modèle réel, c’est-à-dire le modèle avec l’écart le plus faible. Cela revient à choisir le modèle avec le critère d’information le plus faible. Il existe de nombreux critères d’information. Comme il n’y a pas de critère « idéal », le modélisateur en utilise plusieurs à la fois par mesure de précaution. Dans cette sous-section nous vous présentons les critères qui ont été utilisés lors de nos estimations.

Akaike (1973) propose le premier critère d’information dit d’Akaike, couramment connu sous le sigle AIC :

AIC = −2 ln L( ˆβ) + 2K (1.35)

Où ln L( ˆβ) est le maximum de Vraisemblance du modèle estimé et K le nombre des pa- ramètres utilisés dans le modèle. La première partie mesure le manque d’ajustement du modèle aux données, la deuxième - la pénalité pour chaque nouveau paramètre ajouté au modèle.

En 1978 Schwarz propose un nouveau critère d’information basé dans le contexte bayésien du modèle et développé à partir de critère d’information AIC (Schwarz,1978) :

BIC = −2 ln L( ˆβ) + K ln N (1.36)

Il tient compte à la fois de la taille d’échantillon et du nombre des paramètres. Il est aussi le plus adapté pour les modèles non-linéaires et/ou avec des variables qualitatives.