• Aucun résultat trouvé

2.5 Conclusions et perspectives

3.1.1 Régression non paramétrique : méthodes à noyaux

3.1.1.1 Méthodes de régression à noyaux

La méthode de régression non paramétrique à noyaux (Kernel) est proche, conceptuellement, de la méthode KNN introduite antérieurement (section 2.2.3). Moins populaire que son homologue dans la littérature du trafic, elle suscite néanmoins un certain intérêt dans la littérature récente

de la prévision du trafic [103]. Elle joue un rôle d’intermédiaire entre l’approche extrêmement simple du KNN et celles plus évoluées du SVR [103, 104, 105].

L’accès à de grandes bases de données complètes et, de plus en plus, exhaustives n’est pas étrangère à cette popularité. Cette méthodologie prédictive s’appuie effectivement sur l’intégra-lité de l’historique de données pour prévoir le label de tout nouvel individu. L’espace d’entrée est supposé entièrement couvert grâce au jeu d’apprentissage et aux noyaux associant à tout individu connu une zone d’influence. Tout nouvel individu se positionne au sein de l’espace d’entrée, puis prend place dans les zones d’influence des individus issus du jeu d’apprentissage. L’influence de tout individu issu de l’historique sur la sortie est évaluée par le noyau. Le label attribué au nouvel individu résulte de la moyenne des labels de l’intégralité de l’historique pondérée par les valeurs prises par les fonctions à noyaux.

Il existe plusieurs formes de noyaux. Le plus populaire est lenoyau gaussien, appartenant au groupe des noyauxRBF (Radial Basis Function). Dans le cas d’individus caractérisés par n variables, il prend la forme suivante :

(x1, x2) ∈ (<n)2, K(x1, x2) = √1 exp

(kx1− x2k2)2

.

où γ est la fenêtre du noyau. La zone d’influence correspond alors à une nappe de densité de probabilité associée à chaque individu de l’historique. Les pondérations, associées à tout membre de l’historique, sont définies par la probabilité que le nouvel individu adopte le label associé. La moyenne des labels pondérée par la probabilité d’apparition aboutit à la prévision. Cette moyenne pondérée rappelle le fonctionnement de l’évaluation par KNN. Une analogie reliant ces deux méthodologies est proposée en Figure 3.1.

                                                                                                                                           

KNN Kernel

              0.1 0.9 0.8

0.5 Zone d’influence K proches

voisins Probabilité

Espace d’entrée Espace d’entrée

Fig. 3.1.:Analogie de fonctionnement entre la régression non paramétrique des K plus proches voisins

(KNN) et celle à fonctions noyaux (Kernel de type RBF).

3.1.1.2 Formulation pour l’approche globale

De façon similaire aux régressions des K plus proches voisins, la régression non paramétrique à noyaux connaît une phase d’apprentissage immédiate. Seuls des hyperparamètres définissent la forme du modèle, aucun paramètre interne n’est à caler. La fonction de perte à minimiser ne dépend que du seul hyperparamètre, à savoir la fenêtre du noyau : γ. Dans le cas des noyaux gaussiens, la fenêtre du noyau est assimilée à une largeur de bande. Cet hyperparamètre module la largeur des zones d’influence de chaque individu. Il se révèle très dépendant de la diversité des individus de l’historique. Si l’espace d’entrée est bien couvert par l’historique, la fenêtre du noyau pourra être fine, tandis qu’en cas de disparités, une bande large permet de mieux couvrir l’espace. Les seules véritables modifications dues à l’application d’une approche globale se manifestent à travers la dimension de sortie du labelYdt+het la représentation de l’intégralité du réseau en entrée. Ceci conduit à déterminer une unique fenêtre du noyau pour toute section du réseau. Les individus en entrée de l’approche globale restent les mêmes que ceux introduits en chapitre 2, à savoir des ensembles de clichés successifs du réseau.

L’algorithme de régression à noyaux a été adapté à l’approche globale en proposant des labels de sortie multidimensionnels. Lors du traitement de tout nouveau cliché du réseau Xt, son positionnement dans l’espace d’entrée est estimé par rapport aux individus de l’historique (Xj)j∈[1,Thist]. Le processus se déroule en deux phases :

Estimation des poids associés à tous les individus de l’historique : la pondération est directement estimée par la fonction à noyaux jouant le rôle de la distance euclidienne dans l’approche des K plus proches voisins. La différence notable est que la régression à noyaux fait intervenir l’ensemble des individus de l’historique, quand KNN se restreint à ses k proches voisins. L’expression des pondérations est la suivante :

∀j ∈[1,Thist], wkernel j,t = K(Xt, Xj) 1 Thist PThist i=1 (K(Xi, Xt))

Détermination du profil cible : le cliché prévu résulte de la moyenne pondérée des clichés Yj+h, successeurs temporels à l’horizon h des individus de l’historique. La formu-lation mathématique est la suivante :

d

Yt+h=TXhist

j=1

wj,tkernel× Yj+h

Cette approche multidimensionnelle de la régression à noyaux est nommée pour toute la suite MKernel par opposition aux approches locales : LocalKernel.

3.1.1.3 Optimisation des hyperparamètres

L’introduction de la méthodeMKernel au sein du cadre prédictif conduit à identifier trois hyperparamètres : la fenêtre du noyau γ, la longueur de mémoire µ et la longueur de fenêtre

de l’historique glissant M . M étant supposé fixé à 30 jours pour toute méthode, seuls γ et µ sont réellement à évaluer. Ces deux hyperparamètres sont, dans un premier temps, ciblés par analyse par grille, et lecture du coude sur la courbe d’erreur (M AP Eglobal) tel qu’illustré en Figure 3.2 b) et c). La fenêtre du noyau γ étant continue, une seconde phase met en oeuvre l’algorithme d’optimisation par les fourmis (ACO) pour optimiser le seul hyperparamètre

γ. Le développement de l’algorithme ACO est effectué sur une zone-cible de l’espace des hyperparamètres directement bornée par les résultats de l’analyse par grille. Pour tout horizon de prévision et toute longueur de mémoire µ, les meilleures valeurs de γ sont approchées par l’algorithme des fourmis. Les meilleurs couples d’hyperparamètres(γ, s) sont représentés par les points noirs en Figure 3.2 a). Pour cette méthodologie encore peu complexe, l’optimisation par les colonies de fourmis fournit une vérification des résultats obtenus par lecture graphique et un test de leur sensibilité. De plus, le procédé de sélection des hyperparamètres est ainsi totalement automatisé. 1 2 3 4 5 6 9.5 10 10.5 11 11.5 12 12.5 13 13.5 Horizon de prévision (H)

Valeur à optimiser (Gamma)

S=0 S=1 S=2 S=3 S=4 S=5 S=6 (a) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 1.55 1.6 1.65 1.7 1.75 1.8 1.85 1.9 1.95 2

Valeur à optimiser (Gamma)

Erreur Globale (Moyenne des MAPE)

S=0 S=1 S=2 S=3 S=4 S=5 S=6 (b) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6

Valeur à optimiser (Gamma)

Erreur Globale (Moyenne des MAPE)

S=0 S=1 S=2 S=3 S=4 S=5 S=6 (c)

Fig. 3.2.:Illustration des différentes étapes du processus d’optimisation des hyperparamètres pour la

méthode MKernel sur le Pont de Cheviré : a) Valeurs Optimales de γ en fonction de l’horizon de prévision et de la longueur de mémoire µ ; b) Représentation en coupes de la surface d’erreur obtenue par analyse par grille à l’horizon 30 mn ; c) Représentation en coupes de la surface d’erreur obtenue par analyse par grille à l’horizon 3h.

Pour l’approche locale, l’optimisation des hyperparamètres, calant les modèles propres à chacune des sections, est effectuée sur un sous-ensemble de sections bien choisies. Le même procédé d’optimisation en deux phases leur est appliqué. Les hyperparamètres optimaux sont propagés aux sections restantes du réseau via un algorithe KNN et la définition d’une mesure de similarité. Dans le cas du Kernel à noyau RBF, la fenêtre du noyau γ est dépendante de la variabilité des vitesses. La proximité physique et l’écart-type des vitesses expérimentées

par les sections sont employés pour mesurer les distances inter-sections, puis ré-affecter les hyperparamètres à toute section.