• Aucun résultat trouvé

Modèle logit multinomial

1.2 assurés par un ensemble de modes de transport

Chapitre 5 Voiture personnelle ou modes alternatifs ? Prédire de potentiels transferts modaux à l’aide d’une Prédire de potentiels transferts modaux à l’aide d’une

2. Méthode et données

2.2. Modèle logit multinomial

Les modèles logit multinomiaux sont des modèles de choix probabilistes dont l’utilisation essentielle est de rendre compte de choix individuels en présence d’utilité stochastique. Ces modèles à choix discrets postulent donc que la probabilité qu’un individu choisisse une option est fonction de ses caractéristiques individuelles, ainsi que des caractéristiques des choix offerts. Introduit à la fin des années 60 par McFadden (1968) et Theil (1969), le terme de modèle logistique multinomial est dû à Nerlove et Press (1973). Ce modèle multinomial a été développé à la suite des premiers modèles binaires (deux choix : occurrence ou non d’un évènement) développés en biologie, sociologie ou psychologie.

Il a été utilisé pour de multiples applications et notamment au cas du choix d’une profession (Boskin, 1974 ; Schmidt et Strauss, 1975) ou de la participation au marché du travail (Killingsworth et Heckman, 1986 ; Pencavel, 1986 ; Rodgers, 1989).

Il a également largement été appliqué aux choix modaux.

Il existe trois types de modèles multinomiaux en fonction de la variable à expliquer :

- ordonnés : les valeurs prises par les variables multinomiales sont ordonnées, - séquentiels : les choix sont effectués selon une séquence bien précise, le plus

souvent dans le temps, et dont les réalisations successives conditionnent l’ensemble des modalités futures,

- non ordonnés : les valeurs prises par les variables ne sont pas ordonnées.

De même, on distingue les modèles multinomiaux selon la distribution du terme d’erreur qui peut être logistique (modèle logit) ou normale (modèle probit). Les deux méthodes donnent des résultats similaires mais la première est plus souvent utilisée dans la mesure où l’estimation du modèle probit est très complexe. C’est la raison pour laquelle nous ne présentons ici que les modèles logit sous leurs différentes formes.

Dans le cas étudié, il s’agit d’un modèle non ordonné et l’on distingue le modèle logit multinomial indépendant (ou logit multinomial) et le modèle logit conditionnel. La distinction repose essentiellement sur la nature des variables retenues : des caractéristiques propres aux individus dans le premier cas et des caractéristiques des différentes options possibles dans le second.

141 Modèle logit non ordonné

Le cas du choix entre différents modes de transport est représenté à travers le modèle multinomial non ordonné. En effet, les modalités possibles de Y (choix du mode de transport parmi 6 alternatives) n’est le reflet d’aucun classement ou d’aucune hiérarchie sous-jacente.

Ce contexte privilégie l’approche en terme de fonction d’utilité. On retrouve ainsi l’expression du modèle empirique. Supposant que chaque modalité j induit un niveau de satisfaction Uij,

l’individu choisi la modalité j qui maximise son utilité Uij. L’utilité que retire un individu i de la

modalité j n’est pas la même que celle que retirerait un autre individu i’ de cette même modalité. L’utilité varie selon une fonction déterministe Vij, ainsi qu’une variable aléatoire εij :

Uij = Vij + εij.

Mais il convient d’être prudent : bien que les utilités retirées d’une même modalité puissent être différentes d’un individu à l’autre, l’expression de la fonction d’utilité est la même pour tous les individus. Par ailleurs, le jeu de coefficients βj varie d’une modalité à l’autre, sauf à

supposer que toutes les occurrences sont équiprobables.

Ce modèle peut être rendu opérationnel si et seulement si on suppose que les erreurs aléatoires εij sont indépendantes et statistiquement distribuées selon une loi de Weibull

(McFadden, 1973) :

F(εij) = exp (e – εij) (3)

Dans ce cas, la différence entre les erreurs suit une distribution logistique.

Loi de Weibull

Loi de probabilité continue couvrant toute une famille de lois, telle que les lois exponentielles (k=1) ou de Rayleign (k=2), importantes en matière de processus stochastique.

Cette loi est principalement appliquée aux durées de vie, c'est-à-dire dans le cas où un taux évolue comme puissance du temps.

Il est ensuite nécessaire de trouver une forme fonctionnelle à la combinaison linéaire des xij

dont dépend la probabilité que l’individu i, choisisse la catégorie j. Cette forme doit respecter les conditions d’une probabilité (probabilité comprise entre 0 et 1 et somme des probabilités égale à 1).

142

Pour assurer la stricte positivité, la forme exponentielle est privilégiée (ce qui par ailleurs fonde le modèle logit) et pour obtenir des valeurs inférieures à 1, la valeur est normée par la somme des e βk xi.

Dans ce cas, la probabilité que l’individu i choisisse la modalité 0, c'est-à-dire la probabilité pour que l’utilité de l’individu i soit alors maximum est :

Prob(yi=0) = 𝑒𝑣𝑖𝑗

∑𝑚 𝑒𝑣𝑖𝑘 𝑘=1

(4)

Tel quel, le modèle génère une indétermination levée par la normalisation β0=0. Ainsi,

chaque probabilité de choix est comprise entre 0 et 1 et la somme de ces dernières équivaut à 1.

Parmi les modèles non ordonnés, deux sous-catégories de modèles sont à distinguer selon que l’on satisfait ou non l’hypothèse d’indépendance des alternatives non pertinentes, ou hypothèse IIA.

Hypothèse d’indépendance des alternatives non pertinentes

Dans le modèle logit multinomial, les probabilités de faire tel ou tel choix sont indépendantes les unes des autres, c'est-à-dire que le rapport pij/pik est indépendant des autres possibilités

de choix restantes et ne dépend que des variables explicatives. Autrement dit, il n’est pas modifié par l’introduction d’une nouvelle alternative.

𝑝𝑖𝑗 𝑝𝑖𝑙 = 𝑒𝑣𝑖𝑗 ∑𝑚𝑘=1𝑒𝑣𝑖𝑘 𝑒𝑣𝑖𝑙 ∑𝑚𝑘=1𝑒𝑣𝑖𝑘 = 𝑒(𝑣𝑖𝑗−𝑣𝑖𝑙)

Ainsi, dans un modèle à 6 choix de modes de transport, les probabilités relatives entre le choix de la voiture ou des transports en commun sont toujours spécifiées de manière identique, quels que soient les autres choix possibles.

Mais cette hypothèse est parfois trop restrictive pour modéliser les comportements et ne s’applique pas dans tous les cas comme le montre l’exemple bien connu dans la littérature du bus bleu/bus rouge (Debreu, 1960).

143

Supposons que les individus aient le choix entre la voiture et un bus bleu, et que ces deux modalités aient la même fonction d’utilité, c’est-à-dire que ce choix est indifférent pour les individus. La probabilité de choisir la voiture Pv est donc égale à la probabilité de choisir le bus bleu Pbb : Pv=Pbb=1/2 et Pv/Pbb=1.

Si l’on introduit la possibilité de choisir un bus rouge et sous l’hypothèse IIA (pour Independence of Irrelevant Alternatives), l’estimation du modèle logit aboutit aux probabilités suivantes : Pv=Pbb=Pbr=1/3, d’où Pv/Pbb=1 et Pbb/Pbr=1.

Cependant, dans la mesure où les individus ne préfèrent pas la voiture au bus et qu’ils sont plutôt indifférents à la couleur du bus, alors on devrait obtenir : Pv=1/2 et Pbb=Pbr=1/4. Le modèle Logit n’est alors pas adapté à la description de cette situation : il sous-estime la probabilité de choisir la voiture et surestime celle de choisir le bus.

Dans les cas où le modèle Logit ne respecte par l’hypothèse IIA, il est possible d’estimer un modèle logit emboîté (nested logit) prenant en compte les interdépendances entre les différentes modalités, ainsi que les substitutions possibles.

Ainsi, si l’hypothèse d’IIA n’est pas vérifiée, deux modèles alternatifs peuvent être utilisés : le modèle logit hiérarchisé ou le modèle probit multinomial.

D’autre part, suivant la forme de la fonction v(xij), plusieurs modèles peuvent être estimés :

- le modèle logit multinomial indépendant (ou logit multinomial) obtenu pour une fonction v(.) linéaire dont les paramètres βj diffèrent selon les modalités et dont les variables

explicatives varient uniquement en fonction des individus : v(xij) = xiβj,

- le modèle logit conditionnel obtenu pour une fonction v(.) linéaire dont les paramètres βj sont indépendants des modalités et dont les variables explicatives diffèrent selon les

modalités et les individus : v(xij)= xijβ,

- le modèle logit universel obtenu pour toute fonction v(.) continue dont les paramètres βj sont conditionnels aux modalités et à l’ensemble des variables explicatives du

modèle : v(xij)= v(βj,xij).

Modèle logit multinomial indépendant

La probabilité que l’individu i, compte tenu de ses caractéristiques xi, choisisse le mode

144 Prob(yi=0) = evij ∑m evik k=1 = exiβj 1+ ∑m exiβk k=1 (5)

L’estimation du vecteur ligne de paramètres β est obtenue par la méthode de maximisation de la Log vraisemblance de l’échantillon (Mc Fadden, 1968).

Ainsi, les choix des individus étant indépendants, la fonction de vraisemblance sur l’échantillon correspond au produit des probabilités individuelles L(β) :

L(β⃗ ) = ∏Ni=1∏Kk=1Pij

Si la variable dummy dij = { 1 𝑠𝑖 𝑖 𝑎 𝑐ℎ𝑜𝑖𝑠𝑖𝑡 𝑗

0 𝑠𝑖𝑛𝑜𝑛 , l’expression précédente peut s’écrire :

L(β⃗ ) = ∏Ni=1∏Kk=1(Pij)dij D’où : Log L(β⃗ ) = ∑𝑁𝑖=1∑𝐾𝑘=1𝑑ij . log Pij Enfin : 𝑝𝑖𝑗 𝑝𝑖𝑘 = 𝑒𝑥𝑖𝛽𝑗 1+∑𝑚𝑘=1𝑒𝑥𝑖𝛽𝑘 1 1+ ∑𝑚𝑘=1𝑒𝑥𝑖𝛽𝑘 = 𝑒𝑥𝑖𝛽𝑗

Autrement dit, si βkj est positif, alors tout accroissement de la valeur xkj contribue à rendre

plus probable le choix de la modalité j par rapport à la modalité k.

Une fois les estimations des différents coefficients à disposition, il est possible de calculer :

- les effets marginaux d’une variable explicative xi sur la probabilité pour que

l’individu choisisse j :

ρ(Pij | xj) = (dФ(xj βk)) / (d(xj βk)) . (∂xj βk) / (∂xj) = Ф’(xj βk) . (βjk)

- l’élasticité de ce choix par rapport à xi :

ε(Pij | xj) = (∂Pij) / (∂xj) . xj / Pij = (dФ(xj βk)) / (d(xj βk)) . (∂ (xj βk)) / (∂ xj ) . xj / (Ф(xj βk)

A noter : les valeurs de l’effet marginal comme de l’élasticité dépendent du point à partir duquel on les mesure. Pour cette raison, on les calcule le plus souvent au point moyen.

145 Modèle logit conditionnel

Le modèle logit conditionnel a pour variables explicatives des caractéristiques zj des choix j.

La définition du modèle logit multinomial conditionnel définit par McFadden (1973) est la suivante : la probabilité que l’individu i choisisse la modalité j est :

Prob(yi=0) = 𝑒𝛽𝑧∗𝑖𝑗

1+ ∑𝑚 𝑒𝛽𝑧∗𝑖𝑘 𝑘=1

(6)

Où z*i,j = xi,k – xi,0

L’étude du rapport des probabilités montre que l’hypothèse IIA est vérifiée :

pj pk = pij pik = eβzij eβzik = e((zij−zik)β)

Ce rapport des probabilités est indépendant des alternatives autres que j et k.

Plusieurs méthodes peuvent être utilisées pour estimer les paramètres d’un modèle logit conditionnel : maximum de vraisemblance, méthode des moments, méthode non paramétrique et semi-paramétrique.

Le coefficient ainsi obtenu s’interprète comme ceci : si le coefficient associé au coût par exemple est négatif, alors tout accroissement du différentiel de coût entre le choix k et le choix 0 contribue à réduire la probabilité de choisir k par rapport à 0.

L’intérêt de cette modélisation est de permettre le calcul de la probabilité d’une option virtuelle. Ainsi, il est possible de calculer la probabilité de choisir un mode de transport non existant jusqu’à présent dans la mesure où l’on est capable d’en évaluer le temps de transport ainsi que son coût.

Une fois les coefficients calculés, il est possible de calculer les variations marginales et les élasticités des probabilités par rapport aux différentes variables explicatives par rapport au point moyen.

Ainsi, en reprenant la définition du modèle logit conditionnel et en supprimant les indices pour alléger les notations nous obtenons :

𝜕P(j/z) / 𝜕zj = P(j/z) [1-P(j/z)]β

146

Il est également possible de calculer les élasticités des probabilités :

Ej = 𝜕 ln P(j/z) / 𝜕 ln zj = [1 - P(j/z)] βzj

Indicateurs de qualité

Plusieurs indicateurs destinés à juger la qualité de l’ajustement du modèle aux données ont été construits.

Le coefficient ρ² ou pseudo-R² a été défini par McFadden (1973) et est égal à :

Ρ²= 1 – ln L

ln L0

Où L est la valeur de la vraisemblance du modèle et L0 la valeur de la vraisemblance du

modèle réduite aux seuls termes constants, sans variables explicatives.

Mais ce coefficient n’est pas l’équivalent du coefficient de détermination R² du modèle linéaire dans la mesure où il n’en possède pas plusieurs propriétés. Il ne prend pas ses valeurs dans l’intervalle ]0,1[ et reste toujours faible.

Estrella (1998) a donc proposé un autre indicateur possédant les propriétés statistiques du R² égal à : Φ0 = 1 – ln L ln L0 −2 ln L0 n

Où n est la taille de l’échantillon.

Ces deux indicateurs ont ensuite été améliorés. Ben-Akiva et Lerman (1985) ont ainsi proposé le coefficient ṗ² construit sur le rapport des vraisemblances corrigé du nombre de paramètres à estimer :

ṗ² = 1 – (ln L – (K+1)x(J−1))

ln L0

De même, Estrella a proposé un indicateur ajusté :

Φa 0 = 1 – ln L – (K+1)x(J−1) ln L0 −2 ln L0 n

Un indicateur de la capacité prédictive du modèle peut également être calculé. Il s’agit de comparer les probabilités prédites par le modèle et les probabilités réelles observées sur les données.

147

Nous évaluons ensuite les estimations obtenus à partir d’un ensemble de tests statistiques portant sur les coefficients ainsi que sur l’ensemble du modèle.

Tests de validité

- Test de Student

Le calcul de la statistique de test t de Student nous permet de tester la significativité d’un coefficient βj, c’est-à-dire sa non nullité.

Soit t :

t = β̂j

Sj ~ N(0,1)

où 𝛽̂j est le coefficient estimé et Sj son écart type.

La statistique de test t est comparée à la valeur critique dans la table de la loi normale (1,96 pour un intervalle de confiance de 95%). Si t est supérieur à cette valeur critique, alors on rejette l’hypothèse de nullité du coefficient estimé et le coefficient est donc significatif.

- Signe des coefficients

Il s’agit de vérifier que les signes des coefficients estimés sont conformes à ce que l’on pouvait prévoir.

- Test de l’hypothèse IIA

Il s’agit de vérifier l’hypothèse d’indépendance d’une alternative non pertinente qui valide la forme du modèle Logit.

Cette hypothèse peut être testée (Hausman et Mc Fadden, 1984). Ainsi si l’IIA est valide, alors les paramètres des modèles estimés sur plusieurs sous-ensembles de l’échantillon total ne doivent pas être statistiquement différents. Autrement dit, si une sous-partie des choix est non pertinente alors son omission dans le modèle ne change pas les estimations des paramètres, de même que l’ajout de choix est inefficace mais ne rend pas pour autant le modèle non significatif.

Le test consiste en l’estimation d’un modèle sur l’ensemble des modalités puis sur un sous- ensemble de modalités. Ainsi, on note 𝛽̂s les coefficients estimés sur le sous-modèle et 𝛽̂g

les estimations pour le même sous-vecteur de coefficients, obtenues à partir du modèle global.

148

Les matrices de variance-covariance 𝑉̂s et 𝑉̂g sont définies de la même manière.

La statistique de test est la suivante :

s= (𝛽̂s - 𝛽̂g)’ (𝑉̂g - 𝑉̂s)-1 (𝛽̂s - 𝛽̂g)

Sous l’hypothèse nulle, la statistique s suit une loi du 𝜒² dont le nombre de degrés de liberté est égal au rang de la matrice 𝑉̂g - 𝑉̂s. Si la statistique s est supérieure à la valeur critique

trouvée dans la table du 𝜒² on rejette l’hypothèse nulle, la propriété IIA n’est donc pas vérifiée. Il convient alors d’employer la méthode d’estimation d’un modèle logit emboîté.

Mais selon Hausman et McFadden (1984), l’IIA est théoriquement peu vraisemblable dans de nombreuses applications. Toutefois, il précise que l’expérience empirique montre que le modèle logit multinomial est relativement robuste dans de nombreux cas, ce qui conserve une certaine validité opérationnelle à l’utilisation répandue de ces modèles.