Résultats d'expériences

Grâce à une étude expérimentale approfondie, nous avons montré sur un large jeu de don- nées extraits des archives nancières de Reuters que TSaR est une technique de résumé de séquence d'événements qui permet de produire un résumé avec un temps d'exécution linéaire avec le nombre d'événements à traiter. An d'évaluer la qualité des résumés produits par TSaR, nous introduisons deux mesures, à savoir la précision sémantique et la précision temporelle d'un résumé. Ainsi, TSaR produit des résumés qui permettent d'atteindre des taux de compression élevés tout en conservant une grande précision temporelle. Le taux de compression peut être amélioré si l'utilisateur autorise le processus de généralisation d'abstraire encore plus les données. Ce choix a une incidence directe sur la précision sémantique du résumé produit. Nous montrons empiriquement qu'à chaque fois le niveau de généralisation des descripteurs d'événement est incrémenté de 1, la préci- sion sémantique du résumé est réduit d'environ 50% et le taux de compression augmenté d'environ 50% aussi. Il appartient ensuite à l'utilisateur de décider, dans le but de parvenir à un taux de compression plus fort, s'il est prêt (i) à accepter plus de perte de précision temporelle et de maintenir la précision sémantique ou (ii) d'accepter la perte de plus de précision sémantique et de maintenir la précision temporelle.

3 Le résumé de séquences d'événements: un nouveau prob-

lème de classication

La technique de résumé TSaR présentée précédemment s'articule en trois phases: (i) la généralisation des descripteurs d'événement, (ii) le regroupement des événements ayant des descripteurs généralisés similaires au sein d'une certaine localité temporelle et (iii) la représentation de chaque groupe par un événement représentatif. Si nous regardons l'approche plus en détail, nous pouvons remarquer que les résumés produits par TSaR ont une ressemblance frappante avec des classes qui pourrait être produite par un algorithme traditionnelle de classication de données. En fait, les idées sous-jacentes sont très similaires avec TSaR, à savoir, diviser ou partitionner les événements dans une séquence temporelle en diérents groupes d'événements similaires.

En eet, TSaR rassemble seulement ensemble des événements dont les descripteurs généralisés sont identiques. En d'autres termes, TSaR rassemble des événements dont les descripteurs sont similaires à un niveau d'abstraction donné; Ce niveau d'abstraction est xé par le processus de généralisation. Cette opération de regroupement correspond typiquement à la méthodologie des techniques traditionnelles de classication de données. Ces techniques reposent sur les caractéristiques communes des deux objets et une fonction de mesure basée sur une distance pour calculer leur similarité. Les objets sont regroupés lorsque leur similitude correspond à une condition donnée. En outre, dans TSaR, les événe- ments éligibles pour le groupement doivent être situé dans une certaine localité temporelle dénie par le paramètre de localité temporelle w. Cette condition peut être considérée comme une forme de segmentation temporelle de la ligne temporelle. Nous présentons donc comment nous pouvons redénir le problème de résumé en un nouveau problème de classication.

3.1 Redénition du problème du résumé

Sous la lumière de ces observations, le résumé réalisé par TSaR peut facilement être in- terprété comme une classication qui opère une forme de segmentation temporelle exible

de la ligne temporelle et qui groupe les événements similaires au sein de chaque segment produit (à noter que les limites de la segmentation ne sont pas bien dénies). En contraste avec la classication de données classique, TSaR ajoute une étape de formation de concept pour représenter chaque groupe d'événements par un événement représentatif unique. Par conséquent, une question intéressante à explorer est la suivante: est-il possible de tirer parti des méthodes traditionnelles de classication de données, par exemple, k-means ou la classication hiérarchique ascendante, pour construire un résumé de séquence d'événement tel que nous le dénissons dans ces travaux?

Pour répondre positivement à cette question, une méthode de classication de données doit remplir deux conditions au préalable: (i) manipuler des données catégorielles et (ii) gérer la dimension temporelle associée aux événements. En ce qui concerne les données catégorielles, il existe une multitude de travaux de recherche sur la classication des données catégorielles. En fait, nous pensons que le dé à relever, pour exploiter un algorithme classique de classication de données pour réaliser un résumé de séquence d'événements, est la manière dont l'information temporelle est traitée. La manière la plus intuitive et la plus simple de manipuler le temps associé à des événements dans une séquence temporelle est de considérer le temps comme un attribut numérique qui sera traitée comme tout autre attribut. Toutefois, nous montrons les limites de cette hypothèse au travers des deux exemples suivants.

D'une part, supposons que la dimension temporelle est considérée de manière équiv- alente à tout autre attribut. Mécaniquement, la dimension temporelle a moins de poids lorsque les événements sont décrits sur un grand nombre d'attributs que lorsque les événe- ments sont décrits sur un petit nombre d'attributs. Par conséquent, deux événements très similaires qui se produisent très loin sur la ligne temporelle pourraient être regroupés ensemble.

D'autre part, supposons que la dimension temporelle est considérée comme une dimension discriminante. En d'autres termes, la méthode de classication commencera par segmenter la chronologie des événements, puis une classication sera faite sur les autres attributs dans chaque segment de la ligne temporelle. Cette approche est exactement celle adoptée par Kiernan et Terzi dans [KT08] comme décrit précédemment. L'idée est intéres- sante, mais la segmentation temporelle peut eectuer une coupe trop nette et pourrait empêcher des classes plus compactes d'être formées.

Intuitivement, une solution à ce problème consiste à attribuer un poids approprié à la composante temporelle. Le dé d'utiliser une méthode de classication classique pour faire du résumé de séquence d'événements peut alors être réduit à la question de la dénition d'un poids approprié à la composante temporelle. Nous avons l'intention de relever ce dé et, pour cela, nous reformulons le problème du résumé de séquence d'événements d'une manière qui comprennent totalement la composante temporelle des événements. Ce faisant, nous exprimons en fait un nouveau problème de classication dont la fonction objective à optimiser doit prendre en considération, simultanément, le contenu des événements et le temps associé. Aussi, à travers cette redénition du problème, nous adressons la propriété mise en avant par Kiernan et Terzi, c'est-à-dire, le processus de résumé de séquences d'événement doit se faire sans paramétrage.

De ce fait, nous redénissons résumé séquence temporelle en utilisant la terminologie consacrée à la classication de données. Pour cela , nous dénissons une nouvelle fonction de coût pour évaluer la distance entre les événements sur la ligne temporelle. La nouveauté de ce coût se situe dans la double considération du contenu et le temps associés aux événements. Ainsi, le nouveau problème de classication est présenté comme suit: Étant donné un taux de compression désiré, un résumé de séquence d'événement optimal est un résumé qui a atteint le taux de compression souhaité tout en en minimisant la fonction

de coût qui considère la similarité entre le contenu des événements et la proximité des événements sur la ligne temporelle.

Dans le document Time Sequence Summarization: Theory and Applications (Page 33-35)

3 Le résumé de séquences d'événements: un nouveau prob-

lème de classication

lème de classication