• Aucun résultat trouvé

Il est important d'évaluer la précision des modèles en utilisant des prévisions « véritables » sur des séries chronologiques. Autrement dit, il serait invalide d’évaluer un modèle de prédiction uniquement sur sa capacité à estimer les valeurs de façon rétrospective. Un modèle parfaitement ajusté aux données historiques ne signifie pas nécessairement qu’il sera à même d’effectuer des prédictions précises de manière prospective.

Lors du choix d’un modèle, il est courant d'utiliser une partie des données disponibles pour l’entrainement et utiliser la partie restante du jeu de données pour tester le modèle. La taille de l'ensemble du jeu de test est typiquement d'environ 20% de la série totale, sachant que cette valeur est dépendante de la longueur de l'échantillon disponible et de l’horizon de prédiction estimé. La taille de la série test devrait idéalement être au moins aussi grande que l'horizon de prévision maximal requis.

La validation croisée (« cross-validation ») est une méthode d’estimation de fiabilité d’un modèle fondé sur une technique d’échantillonnage. Il existe au moins trois techniques de validation croisée : « tests et validation » ou « holdout method », « k-fold cross-validation » et « leave-one-out cross-validation » (LOOCV).

Tests et validation ou holdout method :

Cette méthode se base sur une division de l'échantillon de taille n en deux sous échantillons. Le premier pour l’'apprentissage (communément supérieur à 60 % de l'échantillon) et le second pour le test. Le modèle est bâti sur l'échantillon d'apprentissage et validé sur l'échantillon de test. L'erreur est estimée en calculant un test, une mesure ou un score de performance du modèle sur l'échantillon de test, par exemple l'erreur quadratique moyenne.

K-fold cross-validation :

Dans cette méthode, on divise l'échantillon original en k échantillons, puis on sélectionne un des k échantillons comme ensemble de validation et les (k-1) autres échantillons constitueront l'ensemble d'apprentissage. On calcule comme dans la première méthode le score de performance. Puis on répète l'opération en sélectionnant un autre échantillon de validation parmi les (k-1) échantillons qui n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi k fois afin que chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de validation. L’indicateur de précision est enfin calculé pour estimer l'erreur de prédiction.

Leave-one-out cross-validation:

La troisième méthode est un cas particulier de la deuxième méthode où k= n, c'est-à- dire que l'on apprend sur n-1 observations puis on valide le modèle sur la énième observation et l'on répète cette opération n fois.

Dans le domaine des statistiques, la précision d'une prévision est le degré de proximité entre la quantité annoncée (prévue) et la valeur réelle (observée) de la série. Diverses mesures directes peuvent être utilisées pour estimer l'erreur de prévision présentant chacune des avantages et des inconvénients. Ces mesures peuvent être en général automatiquement calculées à partir du logiciel statistique utilisé, R par exemple.

Soit yi représente la iième observation et ӯi représente la prédiction de yi. Pour les méthodes de mesures dépendantes de l’échelle des valeurs, l'erreur de prévision est simplement 𝑒𝑒𝑖𝑖 = 𝑦𝑦𝑖𝑖− ӯ𝑖𝑖. Les mesures de précisons étant basées sur 𝑒𝑒𝑖𝑖 elles ne peuvent être utilisées pour établir des comparaisons entre des séries basées sur différentes échelles. Les deux méthodes échelle-dépendante les plus couramment utilisées sont basées sur des mesures des erreurs absolues ou des erreurs au carré :

Moyenne des erreurs absolues : MAE = mean(|ei|)

Racine carré de l’erreur quadratique : RMSE = �mean(e²i)

Lorsque l'on compare les méthodes de prévision sur un ensemble unique de données, le MAE est populaire car il est facile à comprendre et à calculer.

Les mesures des erreurs en pourcentage ont l'avantage d'être indépendantes de l’échelle et sont donc souvent utilisées pour comparer les performances de prévisions entre les différentes séries de données. La mesure la plus couramment utilisée est :

Où le pourcentage d'erreur est donné par pi = 100ei

yi et la moyenne absolue du

pourcentage d’erreur (Mean absolute percentage error ) est donné par : MAPE = mean(|pi|)

Les mesures fondées sur le pourcentage des erreurs ont l'inconvénient d'être infini ou indéfini si 𝑦𝑦𝑖𝑖 = 0 pour tout i dans la période d’étude, et ayant des valeurs extrêmes lorsque 𝑦𝑦𝑖𝑖 est proche de zéro. Cette méthode a aussi l'inconvénient d’associer un poids plus lourd aux erreurs négatives qu’aux erreurs positives. Cette observation a conduit à l'utilisation d’une méthode dénommée "symétrique" MAPE (sMAPE) proposée par Armstrong (1985, p.348). Elle est définie par :

sMAPE = mean(200|yi− ӯi|)/ (yi+ ӯi)

Toutefois, si 𝑦𝑦𝑖𝑖 est proche de zéro, ӯ𝒊𝒊 est également susceptible d'être proche de zéro. Ainsi, la mesure implique la division par un nombre proche de zéro, ce qui rend le calcul instable. En outre, la valeur de sMAPE peut être négative, elle n’est donc pas une mesure d’« erreurs de pourcentage absolu ».

Hyndman et Koehler (2006) ont proposé une alternative à l'utilisation des pourcentages d’erreurs lorsque l'on veut comparer la précision des prévisions dans plusieurs séries à différentes échelles. Il s’agit de pondérer les erreurs en se basant sur une série test à partir d’une méthode de prévision simple. Pour une série chronologique non-saisonnière, un moyen utile de définir une erreur pondérée est d’utiliser les prévisions issues d’un modèle naïf :

qj = 1 ej

T − 1 ∑Tt=2|yt− yt−1|

Parce que le numérateur et le dénominateur impliquent tous deux des valeurs sur l'échelle des données d'origine, 𝑞𝑞𝑗𝑗, cette méthode est indépendante de l'échelle des données. Une erreur pondérée est inférieure à 1 si elle résulte d'une meilleure prévision que la prévision naïve moyenne calculée sur les données d’entrainement. A l'inverse, il est supérieur à 1 si la prévision est moins bonne que la prévision naïve moyenne calculée sur les données d’entrainement.

qj= 1 ej

T − m ∑Tt=m+1|yt− yt−m|

qj = 1 ej N ∑ |yNi=1 i− ӯ|

Dans ce cas, la comparaison se fait par rapport à la moyenne des prévisions. Cela ne fonctionne vraiment pour les données de séries chronologiques car il peut y avoir des tendances et d'autres structures dans les données, ce qui rend la comparaison de la moyenne assez pauvre. Par conséquent, la prévision naïve est recommandée lors de l'utilisation des données de séries chronologiques. L'erreur absolue moyenne est tout simplement :