Prédiction des temps de début des activités

Algorithme 4-3. Création des modèles d'activités

4.4 Prédiction des temps de début des activités

Après la création des modèles d’activités, la reconnaissance d’activité est effectuée en trouvant parmi ces modèles, l’activité qui explique le mieux les récents senseurs activés. Le nombre élevé des modèles d’activités, que nous appelons le nombre d’hypothèses, rend cette recherche difficile surtout qu’elle doit se faire en temps réel. Dans notre première approche, nous nous sommes basés sur la segmentation temporelle

pour spécifier la période où chaque activité est commencée et la réduction du nombre d’hypothèses est effectuée en comparant l’heure courante à ces périodes. Le problème de cette solution est qu’elle ne considère pas la spécificité du jour de la semaine : elle crée une période pour une activité pour tous les jours de la semaine sachant que, par exemple, dans les fins de semaines, l’agent acteur peut être habitué à retarder certaines activités comme Prendre petit déjeuner.

Dans cette approche, après de longues recherches, nous avons décidé d’utiliser les séries temporelles pour bénéficier de la propriété de saisonnalité qui permettra de garder la spécificité de chaque jour de la semaine. L’idée générale de cette solution consiste à utiliser les techniques de prédiction des séries temporelles, avec une saisonnalité égale à 7, pour prédire le temps de début de chaque activité. Cette prédiction peut se faire le soir, par exemple, pour prédire les temps de débuts des activités de la journée suivante. Ensuite, lors de la recherche de l’activité entamée, la réduction du nombre d’hypothèses se fait en ne considérant que les activités avec un temps prédit assez proche de l’heure courante.

La prédiction des temps de débuts des activités est utilisée aussi pour répondre au problème d’équiprobabilité. En effet, quand les récents senseurs activés appartiennent à plusieurs modèles d’activités, ces derniers ont la même probabilité d’être effectués. Dans ce cas, l’activité avec le temps prédit le plus proche de l’heure courante peut être considérée comme les plus probables. Elle répond aussi aux erreurs d’initiations qui empêchent l’agent acteur d’amorcer ses activités et permet la prédiction de l’activité qui doit être entamée même si aucun senseur n’est activé.

Une série temporelle (voir l’Annexe B pour plus de détails) est une séquence d’observations prises séquentiellement dans le temps [18] dénotée (𝑋_𝑡)_𝑡∈𝜃 où 𝜃 est l’espace de temps. Dans notre cas, chaque modèle d’activité est une série temporelle, les jours d’observations constituent l’espace de temps et les heures de débuts des activités sont les observations. Il faut noter que si une activité est effectuée d’habitude n fois dans la même journée, elle est considérée comme n différentes activités et chacune d’entre elles est représentée par une série temporelle. En utilisant les séquences fréquentes, homogènes et fermées trouvées lors de la section précédente, un seul parcours de la base de données permet de créer les séries temporelles schématisées dans le Tableau 4-6 et la Figure 4-4.

Tableau 4-6. Les séries temporelles créées

Activité Jour 1 … Jour N

Se réveiller 1230 … 0

… … … …

Prendre petit déjeuner 6767 … 6760

Dans le Tableau 3-5, les entiers représentent les temps des débuts des activités (la différence en seconde entre l’heure de début de l’activité est 6h00 du matin), tandis que les 0 indiquent que l’activité n’a pas été effectuée pendant cette journée.

Figure 4-4. Série temporelle représentant une activité Jours 0 5 10 15 20 25 200 400 600 800 T emp s d e d éb u t d e l’ ac ti vi té

Les techniques des séries temporelles se basent sur la notion d’autocorrélation pour prédire les prochaines valeurs. Cela veut dire que les valeurs successives des séries dépendent les unes des autres sinon les valeurs sont aléatoires et la prédiction des prochaines valeurs est impossible. Nos séries temporelles ne sont pas aléatoires puisque nous avons tous un mode de vie et des habitudes qui font en sorte que nos activités sont effectuées presque en même temps que le jour précédent ou le même jour de la semaine. De plus, les prédictions seront plus précises pour les activités que nous nous intéressons à reconnaître comme prendre médicament dont le temps de début est rigoureusement respecté.

En tenant compte de plusieurs paramètres comme la stationnarité, l’autocorrélation et la covariance, nous avons opté pour la technique "autoregressive integrated moving average" (ARIMA) [108] qui est une équation linéaire de temps discret avec bruit de la forme :

(1 − ∑ 𝛼_𝑘𝐿𝑘 𝑝 𝑘=1 )(1 − 𝐿)𝑑_𝑋 𝑡= (1 + ∑ 𝛽𝑘𝐿𝑘 𝑞 𝑘=1 )𝜀_𝑡

où 𝑝 est l’ordre du modèle autorégressif, 𝑞 est l’ordre du modèle moyenne mobile, 𝑑 est l’ordre de différentiation, 𝛼_𝑘 et 𝛽_𝑘 sont des paramètres du modèle, 𝜀_𝑡 est le bruit blanc et 𝐿 est l’opérateur de retard : 𝐿𝑋𝑡 = 𝑋𝑡−1

La prédiction des prochaines valeurs avec ARIMA(𝑝, 𝑑, 𝑞) est effectuée en trouvant les trois paramètres 𝑝, 𝑑 et 𝑞 qui donnent les meilleurs résultats. Le premier paramètre à déterminer est l’ordre de différentiation 𝑑 : 𝑑 est égal à 0 si 𝑋𝑡 est

stationnaire, sinon 𝑑 est incrémenté jusqu’à ce que (1 − 𝐿)𝑑_𝑋

𝑡 devient stationnaire. Pour

un modèle KPSS, la série temporelle est représentée comme la somme de trois composantes :

𝑋𝑡= 𝜉𝑡+ 𝑟𝑡+ 𝜀𝑡

Avec 𝑟𝑡= 𝑟𝑡−1+ 𝑢𝑡

où 𝑡 est une tendance déterministe, 𝑟𝑡 est un processus aléatoire, 𝜀𝑡 sont des termes

d’erreurs stationnaires et 𝑢_𝑡 sont des termes d’erreurs avec une variation constante 𝜎_𝑢2_.

KPSS utilise ensuite les règles suivantes pour décider de la stationnarité de 𝑋_𝑡 :

 Si 𝜉 = 0 alors 𝑋𝑡 est stationnaire aux environs de 𝑟0;

 Si 𝜉 ≠ 0 alors 𝑋𝑡 est stationnaire aux environs d’une tendance linéaire;  Si 𝜎_𝑢2 _{> 0 alors 𝑋}

𝑡 n’est pas stationnaire.

Une fois 𝑑 est déterminé et la stationnarité est confirmée, ARIMA cherche les paramètres 𝑝 et 𝑞 qui donnent les meilleurs résultats. Pour trouver ces paramètres, nous choisissons ceux qui minimisent le "Akaike’s information corrected criterion" (AICC) [110]. La formule pour calculer l’AICC est la suivante :

𝐴𝐼𝐶𝐶 = −2𝐿𝑛(𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑(𝜙̂, 𝜃̂, 𝜎̂2_{)) + 2𝑛} (𝑝 + 𝑞 + 1)

𝑛 − (𝑝 + 𝑞) − 2

où 𝜙 est une classe de paramètres autorégressifs, 𝜃̂ est une classe de paramètres du composant moyenne mobile, 𝜎̂2 est la variance du bruit blanc, 𝑛 est le nombre d’observations, 𝑝 est l’ordre du composant autorégressif et 𝑞 est l’ordre du composant moyenne mobile. (Voir l’Annexe B pour plus de détails)

Après la détermination des trois paramètres 𝑑, 𝑝 et 𝑞, ARIMA peut prédire les prochains temps de débuts des activités. Cette prédiction, comme déjà expliquée, est basée sur les anciennes valeurs des jours précédents. S’il y a une exception ou des imprévus le jour même de la recherche de l’activité entamée, nos prédictions ne

prendront pas ces changements en considération. Supposons, par exemple, que l’agent acteur s’est réveillé exceptionnellement une journée en retard d’une heure, les prédictions de cette journée, comme le temps de début de Prendre petit déjeuner, ne changeront pas et seront certainement très loin des temps réels. Pour remédier à ce problème, nous avons programmé une deuxième phase de prédiction effectuée quand le temps prédit pour une activité A est assez loin du temps réel où elle s’est produite. Nous utilisons le même modèle ARIMA pour la prédiction, sauf que cette fois-ci les séries temporelles sont créées juste pour les activités qui se déroulent juste après l’activité A. Les observations d’une de ces séries temporelles (𝑌𝑡)𝑡∈𝜃 sont la différence temporelle entre le temps de

début de cette activité et celui de A pour les différents jours d’observations. La valeur qui sera prédite pour une activité i est donc le délai entre les activités A et i. Le nouveau temps de début 𝑋_𝑖′_{qui sera prédit pour l’activité i est calculé comme suit :}

𝑋_𝑖′= 𝑋𝐴+ 𝑌𝑖

où 𝑋_𝐴 est le temps réel où l’activité A s’est effectuée et 𝑌_𝑖 est la prédiction du délai entre les deux activités A et i.

Dans le document Prédiction et reconnaissance d'activités dans un habitat intelligent basées sur les séries temporelles et la fouille de données temporelles (Page 115-120)