Sélection des sections critiques à partir du LDA

4.2 Identification de sections critiques pour la sélection de variables

4.2.2 Phase d’identification et de tri des motifs latents à partir de l’Allocation

4.2.2.2 Sélection des sections critiques à partir du LDA

La phase d’analyse à l’échelle locale aboutit à un encodage sous forme de configurations d’état des variations du signal de trafic se propageant sur une section et son voisinage. L’analyse par pas de temps fournit, pour chaque période temporelle et toute section du réseau, une distribution sur les configurations potentielles. L’objectif consiste désormais à faire ressortir de ces comportements des informations quant à un objet complexe : la structure spatio-temporelle du réseau. Il est supposé que l’une de ces informations permet l’identification des sections critiques du réseau et peut être exploitée pour création d’un critère de sélection de variables.

Le procédé de caractérisation du critère de criticité, décrit dans l’algorithme 2, prend en entrée les distributions sur les configurations Φ_tp,l (phase d’initialisation) associées à toute section l durant le moment tp et tirées du jeu d’apprentissage.La première étape du procédé consiste alors à déterminer les K_lda thèmes ou motifs latents émergeant de la classification non supervisée de l’Allocation de Dirichlet Latente (LDA). Pour chaque période temporelle tp, les variables les plus représentatives associées à chacun des K_ldathèmes sont testées en entrée de l’algorithme de prévision(étape 2). Le motif latent recueillant la plus faible erreur avec un minimum de variables est identifié au thème des sections critiques(étape 3).

Algorithme 2 Un procédé d’identification des sections critiques basé sur le LDA . ENTRÉES:

X(taille Thist×N ) matrice de séries temporelles, TemporalPeriod(taille Thist×T P ) matrice booléenne indicatrice de l’appartenance des pas de temps aux T P périodes de temps, rnombre de catégories discrètes, Kldanombre de thèmes latents, δl = (δF athers, δLink, δSons)∀l ∈[1, N].

. FONCTIONS PRÉDÉFINIES:

Discrete(eq 4.2),IdxConfig(Fig. 4.3),Freq,LDA,SortRows,AssessPerf,ElbowMethod

. INITIALISATION: encodage en configurations voir section 4.2.1

for l= 1 to N do

∆l= [Discrete( δF athers, r),Discrete( δLink, r),Discrete( δSons, r)] Discrétisation C(., l) =IdxConfig( ∆l) C (matrice T × N ) recueille toute configuration à tout moment

Nc= r3

for tp= 1 to T P do

Conf ig_tp,l= C(TemporalPeriod(., tp), l)T Recueil de configurations observées durant tp sur l

Φ((tp − 1) × N + l, .)) =Freq( Conf ig

tp,l, 1 :N_c) Φ, matrice (N ∗ T P ) × Ncde distributions

end for end for

. ÉTAPE1 : détermination des motifs latentsvoir section 4.2.2.2.1

[ Λ, θ ] = LDA( K_lda, Φ) Λ est une matrice de taille Klda× N_C & θ une matrice de taille (N ∗ T P ) × Klda

. ÉTAPE2 : sélection du motif critiquevoir section 4.2.2.2.2

for k= 1 to Kldado

◦ Tri des variables suivant leur contribution à tout motif k

for tp= 1 to T P do

IdxL_tp= (tp − 1) × N + [1 : N]T Indice des N sections du réseau pour la période tp

RankV ariable_k = [θ(IdxLtp, k),[1 : N]T] Association des p(k|tp, l) aux N sections

RankV ariable_k =SortRows(RankV ariable_k, 1)Tri par probabilité décroissante

Indicator_k([1 : N]T, tp) = RankV ariable_k([1 : N]T, 2)Index ordonné des sections

end for

◦ Évaluation des performances de prévision associées au motifs latents

for n= 1 to N do

Application d’une stratégie ’Best First’

for t = 1 to Thistdo

input= X(t, Indicatork([1 : n]T,find(TemporalPeriod(t,.)) )) Restriction des entrées

end for

Error(k, n) =AssessPerf( input, ...)Évaluation des performances de prévision par MKNN

end for end for

◦ Identification du motif associé aux sections critiques

[ˆk, ˙n] =find(min( Error))

. ÉTAPE3 : sélection du nombre optimal de variablesvoir section 4.2.2.2.3

À chaque période tp, les variables les plus représentatives de ce thème sont, à ce moment, sélectionnées pour prévoir les états futurs. L’évaluation de la prévision porte, spécifiquement, sur les états de trafic rencontrés par de telles sections.

4.2.2.2.1 Etape 1 : détermination des motifs latents

Cette première étape applique le procédé de l’Allocation de Dirichlet Latente (LDA) à chacune des distributions Φ_tp,l tirées du jeu d’apprentissage. En tant que procédé génératif probabiliste, le LDA fournit deux sorties permettant, d’une part, de donner du sens aux thèmes identifiés, et, d’autre part, de qualifier et classer les distributions en fonction de leur contribution au thème. Ces motifs se révèlent être significatifs quant à la contribution locale des sections au comportement global du réseau.

Contrairement aux précédentes applications dans le transport, le procédé appliqué propose de revenir à un usage plus classique de la classification par LDA. Seules de légères adaptations sont requises : les configurations d’état se substituent aux mots et un document est perçu comme un sac de configurations d’état. Le LDA vise alors à faire ressortir les thèmes latents au sein d’un corpus de documents (sac de configurations) conduisant à une meilleure compréhension des relations entre le comportement du lien et la dynamique du réseau. L’analogie entre le LDA original et son application dans le contexte actuel se poursuit par :

– Corpus de documents : structure spatio-temporelle du réseau, traduite par l’ensemble des distributions sur les configurations expérimentées par les sections sur diverses pé-riodes temporelles : Φ_tp,l, ∀tp ∈[1, T P ], ∀l ∈ [1, N] ;

– Document ou sac de mots : comportement local, traduit par Φtp,l, distribution sur l’ensemble des configurations (mots) possibles pour le lien l durant la période tp ; – Mot : configuration locale c ∈[1, NC]. Les NC configurations représentent l’ensemble des

triplets distincts obtenus par ∆l(t) = (∆F athers(t), ∆Link(t), ∆Sons(t)). Suivant cette analogie, le procédé génératif se réécrit de la façon suivante :

1. Détermination des K_lda thèmes ou distributions nominales depuis une distribution de Dirichlet sur l’ensemble des configurations :

Λ^(k)_{∼ D(β}^lda), ∀k ∈ [1, Klda] (4.5) 2. Tout sac de configurations locales Φtp,l issu du corpus de documents ([1, N × T P ]) est

supposé être généré par le processus à 2 étapes suivant :

a) Choix d’une proportion de motifs pour construire la distribution sur les configura-tions locales Φtp,l : θtp,l

∼ D(α^lda).

b) Sélection d’une configuration c contribuant à la distribution Φ_tp,l :

i. Choix d’un motif q_k, k ∈[1, Klda] depuis la proportion θtp,l: q_k_{∼ M(1, θ}tp,l) ii. Choix d’une configuration c au sein du kième motif : c ∼ M(1, Λ(k)).

La modélisation de la structure spatio-temporelle introduite reprend strictement le procédé classique du LDA. Les étapes de calibrage des paramètres αlda et βlda, puis l’optimisation du nombre Klda de motifs latents restent inchangées. Deux sorties du procédé sont particu-lièrement intéressantes à interpréter dans notre contexte de reconstruction de la structure spatio-temporelle du réseau :

– Λ(k)

c ≡ p(c|k), la probabilité de tirer la configuration c sachant que l’on considère le kième

motif. Cette distribution discrète sur les configurations permet l’interprétation des thèmes latents. Plus une configuration a de fortes chances d’être tirée au sein d’un thème latent, plus elle contribue à définir le motif.

– θtp,l(k) ≡ p(k|tp; l), la probabilité de tirer le kième motif sachant que l’on considère la distribution Φtp,l. Cette probabilité est interprétée comme la part de contribution du

k^ièmemotif latent à la distribution sur les configurations de la section l durant la période

tp. Pour une période tp fixée, l’ensemble des θtp,l(k)associées à toute section est exploité pour aboutir au tri des sections suivant leur appartenance au kièmemotif.

Ces deux informations sont exploitées, d’une part, pour donner du sens aux thèmes et, d’autre part, pour ordonner les sections et construire les potentiels jeux de variables à tester.

4.2.2.2.2 Etape 2 : identification du motif critique à partir d’une méthode de prévision globale

Chacun des Kldamotifs latents produits par le LDA caractérise une typologie de comportement local des sections, mais également une composante typique des traces laissées par la structure spatio-temporelle du réseau lors de son activation. L’usage du LDA s’attaque donc à l’aspect résilience aux événements non récurrents lié à la définition des sections critiques en proposant des jeux de variables ordonnés ayant un sens vis-à-vis de la structure spatio-temporelle du réseau.

En revanche, cette nouvelle étape répond purement à l’aspect sélection de variables de la problématique et évalue différents jeux de variables. Les jeux de variables proposés ne sont pas choisis aléatoirement, mais suivant les motifs latents représentant la structure du réseau. Pour toute période temporelle tp, le LDA est évalué, si bien que chacun des K_lda motifs latents dispose de la liste ordonnée par probabilité décroissante des N sections. La fonctionSortRows³

de l’algorithme 2 assure le tri des sections pour chaque période temporelle et tout motif latent. Depuis ces listes et pour un nombre restreint à n(n ∈ [1, N]) variables d’entrée, tout motif latent propose un jeu de n sections évoluant dynamiquement en fonction des périodes de la journée. En faisant varier le nombre de sections sélectionnées (n), l’ensemble des jeux de variables sont testés comme entrées potentielles de l’algorithme de prévision (MKNN), puis leur erreur globale est évaluée. Cette phase correspond alors au travail effectué par la fonctionAssessP erf. La métrique employée pour évaluer les performances de prévision est la M AP E_global.

L’identification du motif critique consiste alors à trouver le motif associé aux jeux de variables sélectionnées minimisant l’erreur globale de prévision et le nombre de variables. Il s’agit donc d’optimiser une fonction de perte liant l’erreur de prévision et le nombre de variables d’entrée. Une telle fonction d’optimisation n’a pas été construite, puisqu’une évaluation graphique visuelle

est rapide et efficace. En effet, le motif latent considéré comme critique tend à minimiser l’erreur de prévision quelle que soit la quantité de variables considérées.

4.2.2.2.3 Etape 3 : recherche du nombre optimum de sections

Cette ultime étape consiste à trouver le compromis entre minimisation de l’erreur globale et réduction du nombre de variables sélectionnées. Elle résulte directement du problème d’optimisation conduisant à l’identification du motif critique, puisqu’en découvrant le critère de criticité, la quantité optimale de variables ˆn est également obtenue. Le procédé résulte d’une lecture graphique par identification du coude (ElbowM ethod) de la courbe retraçant l’évolution des performances de prévision en fonction du nombre n de sections considérées.

Le critère de criticité est alors totalement défini par le motif latent ˆk. Le nombre optimal ˆn de sections à introduire en entrée étant fixé, ainsi que le motif latent correspondant au sections critiques,le procédé de sélection de variables est applicable pour pratiquer de la prévision en temps-réel. Suivant l’appréhension du problème, différentes stratégies sont envisageables :

– Une stratégie stationnaire : pour toute nouvelle prévision, les variables d’entrée sont directement déterminées par l’appartenance du pas de temps à l’une des T P périodes considérées. Pour toute prévision depuis l’instant t appartenant à la période tp(tp ∈ [1, T P ]), les variables d’entrée correspondent aux ˆn premières sections de la période tp selon le motif critique ˆk.

– Une stratégie dynamique : les T P périodes permettant l’identification des sections critiques servent de bases à la construction de périodes glissantes. Les probabilités de contribution des N sections sur la période glissante considérée sont évaluées par application du modèle LDA construit sur les K_ldamotifs et les T P périodes. La probabilité de contribution de chacune des N sections au motif critique ˆk est alors connue et les ˆn sections les plus critiques sont utilisées pour construire les variables d’entrée de l’algorithme de prévision. Pour tout pas de temps, le jeu de sections critiques est réévalué au regard des nouvelles distributions sur les configurations locales dynamiquement mises à jour.

La détermination du motif critique fait systématiquement appel à une stratégie stationnaire lors de l’estimation de la performance de prévision. Seule la mise en oeuvre du procédé de sélection de variables, le motif critique étant connu, peut se voir traitée par diverses stratégies. Quelle que soit la stratégie adoptée, le critère de criticité, dont l’ordonnancement des sections évolue suivant la période tp considérée, fournit pour tout pas de temps un jeu de ˆn sections aboutissant aux variables d’entrée.

4.2.2.3 Illustration de la phase de détermination du critère de criticité par le LDA sur un cas

Dans le document Contributions à la prévision court-terme, multi-échelle et multi-variée, par apprentissage statistique du trafic routier (Page 160-165)