• Aucun résultat trouvé

Chapitre 4 Prévision des bus pour leur régulation

4.1 Calage hors-ligne des paramètres et variables du modèle

4.1.2 Calage de distributions

4.1.2.1 Distributions empiriques de temps de parcours

Les données de Portland donnant accès aux dates d’arrivées et de départs des bus à chaque arrêt, les temps de parcours 𝜋𝑛,𝑠 effectués s’en déduisent facilement. Une distribution empirique de

temps de parcours peut donc être obtenue pour chaque tronçon. La Figure 4.3 représente la distribution des temps de parcours observés sur le tronçon n°5. Cet histogramme est caractérisé par deux bosses. Les quatre couleurs permettent de distinguer les cas où le bus accélère et/ou décélère lors de son parcours. Chacune des deux bosses est presque exclusivement composée des temps de parcours des bus avec et sans accélération respectivement. Le biais causé par ce phénomène d’accélération est donc très important. Pour le quantifier, les temps de parcours libres dans chacun des quatre cas sont comparés. Ils sont estimés par le premier décile de chaque distribution, ce qui assure que la vitesse associée n’est pas aberrante et qu’il est indépendant de toute gêne extérieure. Ces valeurs sont représentées par les lignes verticales pointillées.

Figure 4.3. Distributions des temps de parcours réalisés sur le tronçon n°5 en distinguant les cas où le bus accélère et/ou décélère.

Le premier décile de la distribution des bus ne subissant ni accélération ni décélération représente le temps de parcours libre des bus. Leur vitesse libre se déduit aisément de sa valeur et de la longueur du tronçon (ici 235 m). Cette vitesse est alors égale à 56.4 km/h (moyenne de 56.0 km/h sur l’ensemble des tronçons). Elle est parfaitement cohérente avec la vitesse maximale autorisée de 35 miles/h= 56.3 km/h. Par ailleurs, les temps perdus en accélération et en décélération se déduisent des différences entre les valeurs du premier décile de chaque sous-distribution. Le temps perdu en accélération est alors quantifié à 𝛾 = 15 s (moyenne de 14.25 s sur l’ensemble des tronçons). En revanche, la décélération conduit paradoxalement à une diminution du temps de parcours de 2 s. En effet, l’absence de décélération signifie que le bus passe l’arrêt sans s’arrêter. Le système d’enregistrement des données, basé sur le GPS du bus, ne peut se rendre compte de la situation qu’une fois l’arrêt largement dépassé (en général, de l’ordre de 30m). La date de passage à l’arrêt enregistrée est donc postérieure au passage effectif, ce qui justifie cette valeur. Celle-ci est donc négligée dans toute la suite de la thèse en raison de sa faible importance comparée au temps perdu en accélération et aux temps de parcours eux-mêmes. Le Tableau 4.3 récapitule les valeurs des paramètres cinématiques des bus calculées par ces considérations.

Le calage des distributions doit se faire avec des temps de parcours comparables et aussi nombreux que possibles. Une unique distribution est déduite des quatre sous-distributions. Par cohérence avec la formulation du modèle présenté dans le chapitre 2.1.4, celle-ci regroupe les temps de

4.1. Calage hors-ligne des paramètres et variables du modèle

parcours non modifiés en présence d’accélération, et les temps de parcours augmentés de 𝛾 dans le cas contraire. La distribution résultant de cette opération sur le tronçon n°5 ne comporte alors plus qu’une bosse. Une illustration est proposée sur la Figure 4.4a pour le tronçon n°26.

Tableau 4.3. Valeurs des paramètres cinématiques d’un bus

Paramètres [unité] Valeur

Temps perdu en accélération 𝛾 [s] 15 Vitesse libre du bus 𝑣 [km/h] 56

Deux questions se posent alors. (1) Considérant une loi de densité théorique exprimée analytiquement en fonction d’un ensemble de paramètres 𝜃, quel est le jeu de paramètres qui lui fait représenter au mieux la distribution empirique ? (2) Quelle est la loi la plus pertinente parmi plusieurs lois dont les paramètres optimaux sont connus ?

4.1.2.2 Estimation de paramètres optimaux

Caler une distribution empirique à partir d’une loi théorique consiste à déterminer les paramètres pour lesquels cette loi va représenter au mieux la distribution. La méthode la plus classique est celle du maximum de vraisemblance (Aldrich, 1997). Soit une loi de densité théorique donnée et 𝜃 ses paramètres. Par exemple, 𝜃 = (𝜇, 𝜎, 𝜆) ' pour la loi normale-exponentielle donnée par l’équation (2.8). On note génériquement 𝑓𝜃 la densité de probabilité de la loi. Soient (𝜋1,… , 𝜋𝑁) les 𝑁 valeurs mesurées composant la distribution empirique. Il s’agit de minimiser une fonction de coût pour les paramètres de la loi que l'on souhaite calibrer. La vraisemblance d’une loi se calcule de la manière suivante :

𝐿(𝜋1,… , 𝜋𝑁; 𝜃) = ∏𝑁 𝑓𝜃(𝜋𝑖)

𝑖=1 (4.1)

La densité de probabilité 𝑓𝜃 prend des valeurs élevées pour les temps de parcours probables. Ainsi, la vraisemblance 𝐿 est d’autant plus élevée que la fonction de densité 𝑓𝜃 représente bien la distribution empirique, c’est-à-dire si elles ont la même forme.

La Figure 4.4a (resp. b) montre le résultat de ce calage sur la distribution empirique des temps de parcours réalisés sur le tronçon n°26 (resp. 25). Les lois normale, log-normale, Gamma et normale-exponentielle sont considérées dans le premier cas où le tronçon ne compte pas de feu. Les lois log-normale et Gamma nécessitent un traitement particulier. En effet, leurs fonctions de densité ne prennent pas en compte le fait que les temps de parcours ont une valeur minimale différente de 0. Caler leurs paramètres sur des distributions de temps de parcours sans traitement préalable les rendrait forcément inadaptées. Il faut donc leur ajouter un troisième paramètre 𝜋𝑚𝑖𝑛 tel que le temps de parcours empirique est assimilé à la somme de 𝜋𝑚𝑖𝑛 et d’une valeur aléatoire suivant une loi log-normale (resp. Gamma). La Figure 4.4a montre que la loi log-normale est clairement inadaptée. En revanche, les trois autres lois représentent bien la distribution empirique et ont des formes très similaires.

Dans le second cas, le tronçon étudié comporte un feu. La loi normale-retard est alors ajoutée dans l’analyse, cf Figure 4.4b. Son plateau, traduisant l’effet du feu, reproduit bien la queue de la distribution empirique, contrairement aux autres lois qui ne font que s’aplatir pour reproduire les

fortes valeurs. Cette observation justifie qualitativement l’intérêt de prendre en compte les feux de circulation.

Figure 4.4. Calage de lois théoriques de temps de parcours à l’aide de la distribution empirique dans le cas (a) d’un tronçon sans feu (b) d’un tronçon avec un feu.

Comme pour la régression linéaire, cette méthode comporte des biais. La vraisemblance dépend par exemple fortement des valeurs rares apparaissant dans la distribution empirique. Pour les prendre en compte, la méthode privilégie des paramètres pour lesquels la fonction de densité est relativement élevée en ces points. En conséquence, la loi obtenue avec le jeu de paramètres optimaux est très aplatie. Plusieurs légères modifications de la méthode permettent de pallier ce problème. Toutes consistent à supprimer les valeurs extrêmes. Seule la méthode retenue est présentée ici. Les temps de parcours (𝜋1,… , 𝜋𝑁) sont regroupés en 𝐾 différentes classes de valeurs moyennes et cardinaux respectifs (𝜋1, … , 𝜋𝐾) et (𝑛1, … , 𝑛𝐾). L’idée est alors de supprimer un nombre défini de valeurs à chaque classe afin de rendre vides les classes associées aux temps de parcours extrêmes. Lorsque des classes d’amplitudes faibles sont considérées, supprimer une unique valeur pour chacune d’elles est suffisant. La vraisemblance se voit ainsi légèrement modifiée :

𝐿(𝜋1, 𝑛1, … , 𝜋𝐾, 𝑛𝐾; 𝜃) = ∏𝐾 𝑓𝜃(𝜋𝑖)𝑛𝑖−1

𝑖=1 (4.2)

4.1.2.3 Comparaison de lois théoriques

Il est intéressant de comparer la qualité des différentes lois pour représenter la distribution empirique associée à un tronçon donné. Pour comparer deux lois, un test particulièrement courant et simple est le test de Kolmogorov-Smirnov. Il se base sur le postulat que deux distributions sont similaires lorsque leurs fonctions de répartition respectives sont proches. La distance de Kolmogorov-Smirnov 𝑑𝐾𝑆 est alors la borne supérieure de la différence entre les fonctions de répartition 𝐹𝜃 de la loi théorique et 𝐹𝑒𝑚𝑝 de la distribution empirique :

𝑑𝐾𝑆= 𝑠𝑢𝑝𝜋∈ℝ|𝐹𝜃(𝜋) − 𝐹𝑒𝑚𝑝(𝜋)| (4.3)

où 𝐹𝜃(𝜋) = ∫ 𝑓−∞𝜋 𝜃(𝑥)𝑑𝑥. Selon ce test, la meilleure loi théorique pour représenter une distribution est celle associée à la plus petite distance 𝑑𝐾𝑆. Cette méthode très simple ne tient pas compte du nombre de paramètres associés à chaque loi. Pourtant, dans la pratique, plus une loi a de paramètres, et plus ces

4.1. Calage hors-ligne des paramètres et variables du modèle

derniers sont difficiles à caler avec certitude. Une méthode privilégiant une loi avec peu de paramètres est alors préférable.

Un autre test classique et cohérent avec la méthode de calage des lois est le test du rapport de vraisemblances. Pour deux lois à comparer, le test consiste à rejeter ou non les deux hypothèses suivantes : (𝐻0) la loi n°1 est meilleure que la loi n°2, (𝐻1) la loi n°2 est meilleure que la loi n°1. Les deux hypothèses peuvent d’ailleurs être rejetées. Dans ce cas, aucune des deux lois ne peut être considérée comme surpassant l’autre. Les paramètres optimaux 𝜃1 et 𝜃2 sont tout d’abord estimés pour les deux lois à comparer. Ils conduisent aux vraisemblances 𝐿(𝜃1) et 𝐿(𝜃2) par l’équation (4.1). La statistique du test est alors exprimée par :

𝜌 = 2𝑙𝑜𝑔 (𝐿(𝜃2)

𝐿(𝜃1)) (4.4)

Cette statistique suit une loi du « khi-deux » à (𝑛1− 1) + (𝑛2− 1) degrés de liberté où 𝑛1 et 𝑛2 sont les nombres de paramètres respectifs des lois n°1 et 2. L’hypothèse nulle 𝐻0 peut être rejetée ou non en fonction de la valeur de 𝜌. Hans et al. (A2) montrent que pour 59 des 62 tronçons, les deux nouvelles lois normale-exponentielle et normale-retard représentent mieux les distributions empiriques de temps de parcours que les autres lois usuellement utilisées. Notons toutefois que l’article considère les lois log-normale et Gamma à deux paramètres, contrairement à ce qui est représenté sur la Figure 4.4. Lorsque les versions modifiées à trois paramètres sont utilisées, la loi normale-exponentielle n’est que faiblement plus efficace que la loi log-normale.

Les paramètres des distributions de temps de parcours ainsi calés ne dépendent pas du temps. Le modèle de bus génère donc des temps de parcours similaires quelles que soient l’heure et les conditions de trafic sur la route. Pour dépasser cette limite, le Chapitre 3 définit des distributions dépendant explicitement du trafic, rendant le modèle capable de reproduire la dynamique de la journée.