• Aucun résultat trouvé

FIGURE 2.2 – Série temporelle multivariée : trois valeurs évoluent en parallèle et la tâche de la prédiction multivariée consiste à prédire la future évolution de chacune des séries considérées.

récurrentes à "gate". On peut par exemple citer [97, 15].

2.2.4 Autres modèles

De nombreux autres modèles ont été proposés pour la prédiction de séries tem-porelles et il ne serait pas possible de faire ici un état de l’art exhaustif de ceux-ci. Plus précisément, un grand nombre de modèles existe dans des cadres restreints : on peut par exemple citer le modèle de Croston particulièrement adapté dans le cas où les séries temporelles valent souvent zéro. La méthode de lissage exponentielle est également souvent utilisée en pratique mais elle diffère peu des méthodes auto-régressives. Nous nous limitons dans ce travail aux modèles les plus familièrement utilisés dans la communauté de l’apprentissage automatique.

2.3 Données manquantes

L’immense majorité des méthodes d’analyse statistique requiert des datasets rec-tangulaires1, sans valeur manquante. Celà est également vrai pour les séries

tempo-1. Nous parlons ici de jeux de données où tous les exemples ont les mêmes caractéristiques donc la même taille

relles pour lesquelles les modèles le plus souvent développés ne sont valides que si toutes les valeurs d’une série sont définies. Néanmoins, les données réelles dans les différentes applications industrielles et scientifiques présentent communément des données ou des plages de données manquantes ou incomplètes. La méthode usuelle pour faire face au problème de l’incapacité des modèles à traiter des données par-cimonieuse est d’inférer les données manquantes dans un premier temps, comme étape de pré-traitement, puis d’utiliser des méthodes classiques de modélisation de séries sur des données complètes.

2.3.1 Heuristiques

Dans la pratique, les méthodes de complétion de données les plus utilisées sont souvent des méthodes à base d’heuristiques [12] ; celà se justifie par la simplicité de la mise en place de ces méthodes. Le problème de ces approches étant leur préci-sion limitée et l’introduction occapréci-sionelle de biais importants dans les données [54]. Parmi les heuristiques utilisées, on peut citer les suivantes :

— Moyenne : Cette méthode consiste à remplacer les données manquantes d’une série temporelle par la moyenne des valeurs observées sur la séquence, par une moyenne sur les valeurs qui précédent la valeur manquante ou par une moyenne des valeurs observées dans une certaine fenêtre autour d’une valeur manquante.

— Dernière observation : L’idée est de remplacer une valeur manquante par la dernière valeur observée sur la séquence. Dans le cas où les valeurs man-quantes sont peu nombreuses, cette méthode peut donner des résultats sur-prenamment bons [87].

— Knn-substitution : utilisée dans la complétion de données manquantes dans le cas de séries temporelles multivariées, cette méthode consiste à rechercher la série la plus similaire (au sens des plus proches voisins) à une série donnée et de remplacer les valeurs manquantes de cette dernière par celles du plus proche voisin.

2.3.2 Méthodes autorégressives

Plusieurs méthodes ont proposé d’utiliser les modèles autorégressifs pour infé-rer les valeurs non observées dans les séries temporelles. Par exemple, [106] propose de trouver pour une série contenant des valeurs manquantes les K séries les plus si-milaires (au sens de la distance euclidienne) avec K un hyper-paramètre du modèle, puis de calculer les coefficients autorégressifs sur ces séries similaires puis d’enfin utiliser ces coefficients pour estimer les valeurs manquantes de la série temporelle initiale.

2.3. DONNÉES MANQUANTES 15

2.3.3 Maximum de vraisemblance et E.M

Dans [11], une méthode de maximum de vraisemblance basée sur un algorithme EM est proposée. L’idée est que pendant l’étape E(spérance), l’espérance est éva-luée selon les données observées et les paramètres du modèle tandis que lors de l’étape M(aximisation), cette espérance est maximisée. Selon les auteurs, cette mé-thode donne des résultats particulièrement intéressants lorsque les données man-quantes occupent de larges portions continues. De façon générale, E.M a souvent été utilisé pour inférer des données manquantes.

2.3.4 Factorisation matricielle

Ces dernières années, plusieurs modèles de factorisation matricielle ont été pro-posés pour la complétion de données [91] et en particulier dans le domaine des don-nées séquentielles et des séries temporelles [104, 105, 102]. Par exemple, un modèle pour compléter les données de trafic manquantes est formulé dans [102].

Si m séries temporelles (m routes) sont observées pendants t pas de temps, la matrice X est définie telle que :

X = t1 t2 . . . tT           x11 x12 . . . xt1 r1 x12 x22 . .. x2 t r2 .. . . .. ... ... ... x1m x2m . . . xTm rm

Ensuite sont définies des matrices latentes R et T de dimension respectives mxK et K xT , avec K un hyper-paramètre, tel que le coût suivant est minimisé :

L(R, T ) = 12||X − RT ||2

L’apprentissage se fait par descente de gradient alternée ou par descente de gra-dient stochastique. Les facteurs latents appris correspondant aux routes (matrice R) sont utilisés pour obtenir des partitionnements des différents types de route. Cette méthode est étendue pour la prise en compte de l’information géographique et est en ce sens proche de celles que l’on développe dans cette thèse. Les auteurs considèrent une matrice E de contexte géographique correspondant par exemple à une connais-sance expert sur différentes zones de la ville. Si L différentes zones sont considérées et que les experts s’attendent à observer une occupation de ces zones pendant T pas de temps, la matrice suivante est construite :

G = t1 t2 . . . tT           o11 o12 . . . o1t g1 o21 o22 . .. o2 t g2 .. . . .. ... ... ... ol1 ol2 . . . oLT gL

Une nouvelle matrice latente G de dimension LxK est définie, telle que la nou-velle fonction de coût prenant en compte l’information géographique est formulée :

L(R, T, G) = 12||X − RT ||2+ λ12||E − GT ||2

L’apprentissage est réalisé de manière jointe sur l’ensemble des facteurs latents etλ est un hyper paramètre équilibrant l’apport de la connaissance géographique.