Évolutions du paramétrique à l’apprentissage

1.3 Prévision court-terme à l’échelle du réseau routier

1.3.3 Prévision à partir des données (data-driven)

1.3.3.1 Évolutions du paramétrique à l’apprentissage

La mise à disposition de grandes bases de données, conjuguée à l’émergence de nouvelles techniques de prévision (apprentissage statistique et apprentissage profond), a profondément marqué le domaine ces dernières années.

1.3.3.1.1 Méthodes statistiques, approches paramétriques originelles

Tandis que les modèles de trafic visent à décrire les phénomènes physiques du trafic, les approches paramétriques statistiques envisagent de décrire de façon exhaustive les interactions statistiques liant l’état prédit Yd_t+h aux variables d’entrée. Ces dernières se composent des états antérieurs sur la section X_t ou de variables externes (météorologiques par exemple). Pour un modèle statistique donné, la structure de la relation liant la prévision à ses variables explicatives est entièrement déterminée par ses paramètres préalablement calés à partir d’états expérimentés. Le termeparamétrique fait référence aux hypothèses quant à la forme des règles régissant le système d’étude. Ces méthodes sont largement employées dans le domaine du trafic, car simples et explicites de formulation. L’interprétation des relations entre les variables étudiées est aisée.

La famille de méthodesARIMA est la plus répandue dans la littérature du trafic et plus large-ment dans le domaine des séries temporelles [51]. Toutes les méthodes de la famille intègrent deux composantes : un modèle Auto-Régressif (AR) et un modèle à moyenne glissante (MA) liés au sein d’une même équation. La composante AR prévoit l’état à venir à partir de la somme d’une moyenne fixe et d’une combinaison linéaire de ses états antérieurs affinée d’un bruit blanc. La composante MA affine le modèle précédent en modulant la valeur de la moyenne par les bruits blancs précédemment expérimentés et perturbant l’aspect stable du système. L’approche est particulièrement bien adaptée aux séries temporelles.

Ahmed et al. [52] ont ouvert la voie en introduisant cette approche dans le domaine du trafic à la fin des années 70. De multiples études ont suivi, affinant les variables d’entrées considérées et la composition du modèle (AR, AM, ARMA ou ARIMA) [53, 54].

Quelques évolutions du modèle ARIMA sont à souligner. La prise en considération des variations saisonnières du trafic via le seasonal ARIMA (SARIMA) aboutit à des modèles plus robustes que l’approche basique [55, 56]. De même, l’introduction d’informations spatialement connectées, tels que les états de trafic au voisinage de la section étudiée (Spatio-Temporal ARIMA) peut s’avérer efficace [57, 58, 59]. La version ARMAX intégre des variables explicatives exogènes telles que la météorologie [60]. Enfin, des approches fournissant des sorties multidimension-nelles sont également produites (VARMA, multivarite ARIMA) [61, 62, 63, 64]. Force est de constater que tout phénomène du flux de trafic doit être préalablement identifié et intégré au modèle.

Lemodèle espace-état constitue une autre famille de méthodes paramétriques de prévision largement étudiée dans la littérature [65, 66, 67]. L’originalité de ces modèles résulte de la conjonction entre une équation d’état (modèle de trafic) et une équation de mesure (intégration de données réelles). Il est courant que l’équation d’état prenne la forme d’un système simple d’équations différentielles du premier ordre. Le filtre de Kalman est la plus commune des méthodes de résolution des modèles espace-état. Le filtre de Kalman se partage en deux phases conjointement liées : la prévision basée sur les états précédemment observés et les covariances estimées, puis la mise à jour confrontant l’état prédit à l’observation et ajustant la matrice de covariance. L’ajustement repose sur un système de pondérations attribuant le plus de poids

aux valeurs possédant l’incertitude la plus faible. Ce procédé de mise à jour possède l’avantage indéniable de répondre naturellement à l’aspect dynamique et saisonnier des séries temporelles en trafic. Tandis que le filtre de Kalman repose sur la linéarité des équations d’état et de mesure, sa version étendue procède à une linéarisation locale du problème permettant d’appliquer les équations classiques du filtre. Ce filtre de Kalman étendu [67] montre de bonnes performances, même face à des approches non paramétriques.

Ces modèles statistiques s’avèrent extrêmement efficaces pour prévoir les tendances usuelles du trafic [55], à condition d’être bien calés. En revanche, la durée de paramétrage est élevée et croît avec le nombre de dimensions du problème considéré. Le passage à l’échelle du réseau occasionne donc un surplus du temps d’estimation des paramètres. Du fait de leur structure figée (variance constante), ces modèles échouent à retranscrire certains aspects non-linéaires du trafic. La sensibilité de ces modèles face aux événements inhabituels, tels que l’apparition d’incidents, est plus conséquente que pour une grande part des méthodes non paramétriques. Yoon et al. [68] ont montré que les méthodes paramétriques (SARIMA) souffraient d’un décalage temporel plus important et d’une moins bonne qualité de prévision face à des événements non récurrents que certaines régressions non paramétriques (KNN). Des constats similaires sont observés en période congestionnée [69], notamment par comparaison à des méthodes à réseaux de neurones [70].

1.3.3.1.2 Méthodes par apprentissage, méthodes non paramétriques

Tirées de l’intelligence informatique, les méthodes développées prennent part au domaine de la classification au sein de l’apprentissage. Plus spécifiquement, elles appartiennent aux classifications supervisées (supervised learning), par opposition aux approches non supervisées (clustering). Toutes deux s’intéressent à la classification d’individus caractérisés par des variables, mais le procédé diffère [71].

La classification non supervisée classe directement un groupe d’individus en catégories homogènes à partir de leurs seules variables. Les sous-groupes construits répondent aux tendances et densités observées sur les variables caractérisant les individus. Pour la méthode des K-moyennes (K-means), l’objectif consiste à accentuer la distance inter-classe et réduire la distance intra-classe.

La classificationsupervisée s’appuie sur un set d’individus, dont la catégorie est connue, pour déterminer des règles de décision. Ces règles sontapprises depuis l’historique de labels associés à chaque individu et ses caractéristiques intrinsèques. Cette phase d’apprentissage permet le classement de tout nouvel individu.

Il existe des méthodes de prévision basées sur la classification non supervisée ou l’identification de motifs telles que celles développées par Rakha et al. [26, 72]. Adoptant le point de vue de l’usager, les auteurs s’intéressent au problème particulier de la prévision des temps de parcours sur des itinéraires complets et non plus des seules caractéristiques macroscopiques de trafic.

Dans le cadre de la prévision du trafic, les concepts de la classification supervisée sont étendus à la régression pour répondre à l’exigence de continuité du flux de trafic prévu. Dans de tels modèles, la valeur prédite tient lieu de catégorie. Les catégories doivent donc être continues, d’où la nécessité de procédés régressifs.

Concept de la prévision par apprentissage

Le terme d’apprentissage regroupe une grande variété de méthodes, seules les approches ren-contrées dans la littérature du trafic sont exposées. Quelles que soient les méthodes employées, le procédé reste le même [71] :

1. Définition de la fonction de prévision Yb = f(X), fonction de modélisation de la transition d’un espace X vers un espace Y propre à la méthode employée. X est un individu caractérisé par des variables etYb est le label proposé par le modèle f . En termes de prévision, X est l’ensemble des variables explicatives et Y la variable expliquée. 2. Usage d’un critère de performance. Il définit une fonction de coût L traduisant la

qualité de la prévision fondée sur l’écart entreYb et Y (erreur de prévision).

3. Évaluation des hyperparamètres. Les hyperparamètres sont évalués depuis différents jeux d’historiques (ensembles de couples (X, Y )). Ces paramètres externes jouent un rôle de régularisation en vue d’aboutir à un modèle conservant une bonne capacité de généralisation. Ils forcent donc le modèle à considérer des hypothèses plus simples et plus aptes à s’adapter aux différentes situations. Un modèle collant trop aux données apprises (sur-apprentissage) n’est pas apte à traiter convenablement de nouveaux cas, tandis que le sous-apprentissage conduit à des erreurs de prévision conséquentes. Un compromis doit donc être trouvé. Cet aspect joue un rôle essentiel dans la distinction entre les approches de régression par apprentissage supervisé et les approches paramétriques classiques. L’usage des hyperparamètres explique en partie l’aptitude des approches par apprentissage à mieux faire face à des conditions inhabituelles.

4. Apprendre les éventuels paramètres internes (ou cachés) du modèle depuis un nou-veau jeu de données. À partir d’un jeu de couples (X, Y ) connus et fixés, la fonction de perte est optimisée pour coller au mieux aux données d’apprentissage. Les éventuels paramètres internes et propres à la méthode choisie sont donc calibrés.

Bien que toutes les approches par apprentissage disposent d’hyperparamètres, une distinction est envisageable suivant la façon d’appréhender l’apprentissage :

– les méthodes apprenant à décrire la structure latente de l’historique à l’aide de leurs paramètres cachés (internes) ;

– les méthodes apprenant à gérer les informations contenues au sein de l’historique. Les premières apprennent longuement, mais ne requièrent plus l’usage de l’historique lors de toute nouvelle évaluation. Les secondes apprennent rapidement, mais nécessitent la connais-sance de l’historique pour toute nouvelle prévision.

Méthodes apprenant la structure latente de l’historique

La famille desréseaux de neurones artificiels (ANN) connaît un franc-succès dans la littéra-ture du trafic depuis la fin des années 90. Dougherty et al. [73] ont produit une revue de leurs premiers usages en trafic, complétée par Vlahogianni et al. [74] pour les implémentations les plus récentes.

Les réseaux de neurones sont inspirés de l’apprentissage biologique prenant place dans un cerveau à partir de neurones connectés. Le concept repose sur l’observation que les neurones, simples de par leur fonctionnement et structure, permettent, ensemble, des tâches complexes telles que la reconnaissance de motifs, la classification et l’anticipation [75]. La formulation usuelle des réseaux de neurones réside dans la création d’un réseau organisé en couches entiè-rement connectées dont les nœuds sont les neurones. Chaque neurone reçoit un ensemble de signaux, y applique une opération simple et suivant un seuil renvoie en sortie une information. Entre deux couches, les neurones sont reliés par des arcs pondérés transmettant l’information de sortie d’un neurone à l’entrée de ses successeurs.

Classiquement les réseaux de neurones sont organisés suivant trois couches : une couche d’en-trée recevant les variables explicatives, une couche cachée et une couche de sortie proposant une estimation des variables expliquées. L’augmentation du nombre de couches intermédiaires conduit aux méthodes de type apprentissage profond (deep learning) [76] apparues récemment. Les pondérations des arcs liant tout couple de neurones et les fonctions des neurones cachés sont apprises et constituent les paramètres internes du système. La couche cachée peut contenir autant de neurones que nécessaire. Plus il y a de neurones cachés, plus le pouvoir de retranscrip-tion de motifs complexes est élevé, mais également, plus le phénomène de sur-apprentissage est constaté. Le nombre de couches, le nombre de neurones de la couche cachée et la pénalisation sont les principaux hyperparamètres rencontrés dans la littérature.

La sélection du nombre approprié de nœuds n’est pas aisée et aucun véritable procédé n’a été établi, ce qui conduit à des performances parfois hasardeuses. De plus, étant donné le nombre d’arcs conséquent, l’apprentissage des pondérations se révéle long et fastidieux, ce qui ne garantit pas d’adaptation en temps réel. Enfin, il est souvent reproché aux réseaux de neurones d’être une boîte noire : la structure pondérative étant apprise, complexe et cachée, leur interprétation est très peu aisée. Néanmoins, après quelques tâtonnements, les modèles actuellement construits sont aptes à fournir des performances convenables sur les autoroutes [77, 78, 79] comme les zones urbaines [80, 81, 82] et ce même en prévoyant plusieurs sections simultanément [83].

Moins fréquente, la famille des méthodes à forêt aléatoire (Random Forest) se révèle être l’une des approches les plus performantes à l’heure actuelle [84, 85, 86]. Elle a été introduite formellement en 2001 par Breiman et al. [87]. Le concept repose sur la construction d’une multitude de modèles de prévision non corrélés prenant la forme d’arbres de décisions, puis la production d’une sortie comme moyenne pondérée des prévisions. La prévision par arbres, inspirée de la méthode dite de segmentation [88], crée un graphe de partitionnement décrivant la répartition d’une population d’individus en groupes homogènes selon un ensemble de variables discriminantes. Chaque arbre tire aléatoirement ses variables discriminantes depuis

un ensemble de variables proposées. L’agencement du graphe et les variables discriminantes choisies constituent les paramètres internes. Les hyperparamètres sont le nombre d’arbres construits et de variables d’entrée tirées aléatoirement. Cette approche possède l’avantage indéniable d’être peu sensible au sur-apprentissage et ouvre des perspectives pour la pratique de prévision à partir de données incomplètes[84].

À la frontière entre approches paramétriques et non-paramétriques, les approches parréseau bayésien ont gagné en popularité ces dernières années [89, 90]. S’appuyant sur la théorie bayésienne, le concept repose sur un réseau représenté par un graphe direct acyclique. Les nœuds du graphe sont associés aux variables explicatives comme expliquées. Les directions des arcs s’interprètent comme les dépendances conditionnelles entre les variables ou nœuds. À chaque nœud explicatif est associée une distribution représentant l’ensemble de ses valeurs potentielles. Tout nœud explicatif recueille un état de trafic expérimenté sur la section ou son voisinage. Sa valeur est donc connue à tout instant. L’objectif de prévision vise alors à optimiser la probabilité du nœud expliqué (variable expliquée) sachant que les caractéristiques de trafic associées aux nœuds explicatifs sont connues. Suivant la formulation des hypothèses faites sur les distributions associées aux nœuds explicatifs, cette approche est tantôt perçue comme paramétrique (loi de distribution fixée) [89, 91], tantôt non-paramétrique (distribution apprise) [92, 90]. Leur concision, leur facilité d’interprétation et leur complexité temporelle en font des méthodes extrêmement prometteuses.

Méthodes à gestion de l’historique

Les méthodes derégression non paramétrique sont les plus simples et intuitives du domaine de l’apprentissage. La régression produite est néanmoins non-linéaire et repose pleinement sur l’information contenue dans la base de données de l’historique [93]. Ces méthodes visent à déduire la prévision (label ou variable expliquée) à partir de la moyenne pondérée des labels associés aux individus de l’historique d’apprentissage les plus proches de l’état courant (variables explicatives). Deux approches se distinguent par la façon d’appréhender la notion de

similarité de l’individu courant avec ceux de l’historique :

– La méthodeKNN des K plus proches voisins [94, 95, 96, 97] consiste en la comparaison de l’individu courant à ses K plus proches voisins de l’historique d’apprentissage. La similarité est généralement estimée par la distance euclidienne. La prévision du label (variable expliquée) résulte de la moyenne pondérée des valeurs prises par les K labels associés aux individus de l’historique. Des améliorations de la formulation de prévision telles que des pondérations particulières ou des distances autres qu’euclidiennes sont également rencontrées [98, 99]

Malgré sa simplicité, cette approche s’est révélée plus performante que les méthodes ARIMA et réseaux de neurones [100, 101] sur des cas d’étude autoroutiers.

– La méthode derégression à noyaux [102, 103, 104] consiste en la comparaison de l’in-dividu courant à l’ensemble des inl’in-dividus de l’historique d’apprentissage. La contribution de chaque individu de l’historique à la prévision est pondérée par une fonction à noyau, fonction adoptant diverses formes : gaussiennes, à base radiales (RBF) etc. [105].

Ces approches présentent de multiples avantages. Outre leur simplicité théorique et d’interpréta-tion, leur temps d’apprentissage est quasiment nul, contrairement aux approches paramétriques et aux réseaux de neurones. Elles ne possèdent, en effet, pas de paramètres internes à caler. Les hyperparamètres usuels sont respectivement le nombre de voisins K et les paramètres du noyau. Deux bémols sont à souligner : la dépendance du temps d’estimation de la similarité à la taille de l’historique et l’imprécision potentielle face à des événements non récurrents pas recensés par l’historique [106, 37]. Néanmoins, ce second aspect est propre à toute méthode de prévision.

La famille desméthodes à astuce du noyau est apparue récemment dans la littérature de l’ap-prentissage [107, 108, 109]. Ces méthodes se distinguent des régressions non paramétriques précédemment introduites par l’usage qu’il est fait du noyau. Le concept repose sur l’idée qu’il existe un espace de dimension potentiellement infinie, dans lequel la relation entre les variables d’entrée et de sortie est modélisable par une régression linéaire. Le passage de l’espace d’entrée à l’espace en haute dimension est approché par une projection prenant la forme de noyaux. Cette projection correspond à l’astuce du noyau ou Kernel Trick. La régression proposée est dès lors non-linéaire.

L’approche la plus connue est la régression par machines à séparateur à vaste marge ("Support Vector Regression" - SVR) développée par Vapnik et al. [108]. Cette méthode vise à procéder à une régression non linéaire s’appuyant sur un sous-ensemble de l’historique d’apprentissage bien choisi. Les individus de ce sous-ensemble sont nommés vecteurs supports. La non-linéarité de la régression, sa bonne capacité de généralisation due à la minimisation du risque structurel et la limitation de l’historique aux seuls vecteurs supports en font une méthode de prévision particulièrement robuste [110, 111]. Une analyse succincte de la littérature révèle une réduc-tion conséquente de l’erreur de prévision face à des méthodes simples [112], ou plus complexes telles que les réseaux de neurones artificiels [113] quand la taille de l’historique d’apprentissage est réduite, voire l’apprentissage profond [114]. La variété des cadres d’études, des horizons de prévision et des caractéristiques de trafic considérées garantit une très bonne résilience de cette approche quels que soient les cas étudiés. Enfin, une méthodologie en ligne, i.e. de prévision temps réel, implémentée par Castro-Neto et al. [115] s’est montrée particulièrement performante en comparaison à de multiples autres méthodes en conditions non-récurrentes. Une approche alternative est la Régression Kernel Ridge basée sur une régression par les moindres carrés [116]. Méthode plus simple à implémenter que le SVR, elle n’en présente pas l’avantage de la réduction de l’historique.

Finalement, chacune des approches présente ses avantages et inconvénients, mais certains défauts des méthodes fondées sur l’exploitation des données historiques se traitent plus facile-ment. Les méthodes favorisant la structure sont certes aptes à répondre à toute situation et indépendantes de l’historique, mais toute modification conséquente de ce dernier ou simple mise à jour nécessite une longue évaluation pour saisir la nouvelle structure. Leur temps d’apprentissage étant conséquent, elles ne peuvent donc pas être mises à jour en ligne. Les versions à gestion d’historique présentent plus de souplesse quant à ce dernier point. De plus,

la rigidité des méthodes apprenant la structure s’avère problématique face à des scenarii de rupture ou mettant en œuvre une dynamique de trafic inhabituelle. Il est donc nécessaire de disposer d’un jeu de données complet pour évaluer la structure, quand les algorithmes gérant l’historique nécessitent une rapide mise à jour par apprentissage. Ces derniers ont de meilleures facultés d’adaptation pour faire face à l’occurrence d’événements non récurrents. En revanche, les méthodes apprenant l’historique sont naturellement plus à même de faire face à des données manquantes au sein de l’historique d’apprentissage.

1.3.3.1.3 Optimisation des méthodes de prévision

Que ce soit le nombre de paramètres du modèle, l’espace d’entrée ou un lissage des données, de nombreuses méthodes prédictives nécessitent des phases d’optimisation de l’espace d’entrée et des variables employées. Les hyperparamètres des approches à réseaux de neurones nécessitent souvent une optimisation en 2 étapes, le nombre de neurones de la couche cachée étant déter-minant quant à la performance de la méthode. Les méthodes biomimétiques ou algorithmes génétiques [80, 81, 117, 118] sont régulièrement observées afin de parvenir à optimiser simul-tanément les pondérations et la structure. L’espace d’entrée (les variables explicatives) peut se voir modifié soit par transformation de l’espace via notamment la décomposition en ondelettes [119, 120, 121], soit par réduction du nombre de variables d’entrée grâce à une Analyse en Composantes Principales (ACP) par exemple [122].

Enfin, certaines approches de la littérature combinent des prévisions tirées de divers modèles [123, 124]. Ces approches sont qualifiées d’ensemblistes. Elles procèdent par un vote attribuant un modèle à un sous-espace tiré de l’espace d’entrée. Les plus connues se dénomment bagging ou boosting. Le concept repose sur le constat que les méthodes de machine learning possèdent chacune leur domaine spécifique d’application. Suivant la section considérée et le pas de temps

Dans le document Contributions à la prévision court-terme, multi-échelle et multi-variée, par apprentissage statistique du trafic routier (Page 55-62)