• Aucun résultat trouvé

L’aléatoire et les variables expliquées : erreurs d’observation et de spécification Si nous n’avons pas signalé au passage le caractère

Marc Gaudry

t 1 et t 2 effectuant un nombre total de déplacements constant.

A. L’aléatoire et les variables expliquées : erreurs d’observation et de spécification Si nous n’avons pas signalé au passage le caractère

aléatoire des élasticités65, en présentant (30) et (31), nous avons au

moins reconnu le caractère aléatoire fondamental des variables dépen- dantes ou expliquées dans les modèles de niveaux en les faisant dépen- dre d’une erreur de régression [e.g. (7)-(8) ou (27)] obéissant à des lois de distribution non précisées66; et nous avons justifié la forme des

modèles Logit par la nature de la distribution de l’erreur associée à l’équation de chaque fonction d’utilité représentative [e.g. (16)]. Dans les deux cas, les propriétés intrinsèques des aléas jouent un rôle dou- blement figuratif : les erreurs de régression67sont composées d’erreurs

d’observation sur la variable dépendante (une quantité de déplace-

ments, ou une utilité, selon le type de modèle) et d’erreurs de spécifi-

cation du modèle. Comment cette prise en compte est-elle faite ?

i) Formulations de distributions des résidus. L’aléa probabilisé est conjuré et manipulable, et cela sans reste à subir ou traiter. En effet, ce n’est pas encore la pratique de partager l’aléa entre une partie proba-

bilisée et un reste non probabilisable et perçu globalement, à la

64. En français, on utilise indifféremment la caractérisation latine (aléatoire), grecque (stochas- tique) ou arabe (au hasard) du jeu de dés pour exprimer cette idée.

65. La question est traitée à l’Annexe 3.

66. Utiliser un critère numérique d’ajustement comme les MCO qui minimisent la somme des erreurs (définies verticalement) au carré entre les observations y et les valeurs calculées yc* n’exige

aucun postulat sur la distribution des erreurs : on appelle ce calcul une calibration des coefficients

b; elle autorise le calcul des mesures de la sensibilité numérique de l’ajustement aux valeurs calculées de ces coefficients. C’est l’ajout de l’hypothèse de normalité (ou d’une autre hypothèse statistique) des mêmes erreurs qui fait passer à l’estimation de paramètres et à des mesures de fiabilité des mêmes coefficients calculés de la même façon et par la même formule.

67. Comme nous l’a précisé Ariane Dupont-Kieffer, le flottement dans l’usage des termes « erreur » et « résidu » est associé à l’évolution de la compréhension de la régression où, ce qui était au départ une erreur d’observation, devient progressivement un résidu aléatoire au sens propre.

manière célèbre de Knight (1921) qui scindait ainsi le risque. Récem- ment, on a interprété cette partie non probabilisable de l’aléa comme une incertitude sur la nature de la distribution de la partie probabilisa- ble, ou comme une « contamination-e » de cette distribution – comme si une famille de distributions inconnues était possible (Nishimura et Ozaki, 2004). Dans les transports, la décomposition pratiquée à ce jour consiste plutôt à supposer que l’erreur, par exemple de (12), est décomposable en une erreur sur la liaison ij et des erreurs associées aux origines ou aux destinations i ou j (e.g. Bolduc et Laferrière, 1992). Comme ces formes de probabilisation ont une influence immédiate sur les mesures de fiabilité comme les t de Student (Gosset, 1908), elles jouent un rôle de premier plan dans l’interprétation des résultats des modèles.

ii) Interdépendance des résidus. Dans les modèles de trafic, les cher- cheurs ne supposent pas toujours que les erreurs de régression sont indépendantes entre elles. Nous avons bien fait allusion à deux maniè- res de faire intervenir la corrélation entre ces erreurs. Dans les modè- les de niveaux, nous avons rendu compte de résultats obtenus qui prenaient en compte la corrélation spatiale entre les résidus des erreurs par liaison (voir note 17) ; dans les modèles de type Logit, nous avons dit que les structures de corrélation supposées entre les erreurs des fonctions d’utilité modales servaient à définir des branches et des hiérarchies. Comme la corrélation entre les résidus révèle68habituelle-

ment l’absence de variables pertinentes, elle est un excellent indicateur de la qualité de la formulation du modèle.

iii) Hétéroscédasticité des résidus. Les modèles utilisés dans le cadre classique des modèles de trafic sont souvent plus raffinés que ce que nous avons pu laisser croire. Et ces raffinements ont une grande influence sur les paramètres estimés et les statistiques qui en seront dérivés. Considérons le problème de la constance de la variance de l’erreur de régression, une condition importante d’obtention de statis- tiques sans biais appelée « homo-scédasticité », littéralement « même

variabilité69».

Ce problème est inhérent à de nombreux modèles de niveaux dont la variable dépendante, par exemple un flux de transport, est nécessai- rement importante pour les liaisons entre les grandes villes et faible pour les liaisons entre les petits centres d’activité. Dans ces conditions, il est impossible d’avoir une variance de l’erreur qui soit de même taille

68. Car la corrélation pure est peu probable, voire invraisemblable.

69. Le mot grec skedasis signifie variabilité ou dispersion. Nos formules usuelles de variance ne constituent qu’une formalisation possible de la variabilité.

pour l’ensemble de l’échantillon : la variance est hétéroscédastique et des corrections vers l’homoscédasticité sont à envisager, sans quoi l’erreur de régression sera toujours faible pour les petits flux et impor- tante pour les grands flux. La question se corse encore davantage dans les modèles de niveaux où on utilise des transformations Box-Cox de la variable dépendante qui modifient automatiquement la variance de l’erreur70 de régression, problème qui se corrige71 en adoptant des

instruments distincts pour la forme et pour l’hétéroscédasticité (e.g. Dagenais et al, 1987 ; Gaudry, 2004).

Le problème se pose aussi dans les modèles Logit. Bhat (2000) a fait remarquer qu’on doit rendre explicite le fait qu’en (15)-(16) l’erreur ui

n’est généralement homoscédastique que par hypothèse : sa variance est alors égale à p2µ2/6 et constante entre les alternatives. Dans cette expression de la variance, le facteur d’échelle 1/m, qui provient de la distribution sous-jacente de Gumbel {[f(ui) = (1/µ)[exp(-ui/µ)][exp

(-ui/µ)]}, est habituellement supposé commun à toutes les alternatives

et posé égal à 1 ; il pondère en fait les parts respectives des parties systématique et aléatoire de chaque fonction d’utilité de type (16), exactement comme dans un modèle de niveaux : un µiélevé réduit la

part systématique de l’explication au profit de la part aléatoire, et cela différemment selon le mode considéré. C’est dire l’importance de la question dans un modèle.

Pour comprendre que l’hétéroscédasticité est inhérente au modèle Logit, il suffit d’imaginer un cas bimodal et de se rappeler que les choix sont codifiés 0 ou 1. Cela signifie que toute probabilité pm* calculée par

le modèle produit une erreur d’ajustement de la forme [0 – pm*] ou

[1 – pm*], erreur qui aura généralement deux variances. Domencich et

McFadden (1975) avaient utilisé une correction simpliste qui n’a pas convaincu et qui est tombée dans l’oubli depuis.