Conclusion - Mise en ÷uvre - Extraction de séquences fréquentes : des données numériques aux va

2.2 Mise en ÷uvre

4.2.3 Conclusion

Ces expérimentations montrent que les résultats d'une complétion basée sur la similarité entre sé- quence incomplète et motifs séquentiels dépend à la fois du taux d'incomplétude de la base à compléter, ainsi que des motifs utilisés pour cette complétion. De plus, on ne peut pas considérer ces résultats comme entièrement satisfaisants.

En eet, dans le meilleur cas, il est possible de compléter correctement, sans intervention humaine, environ 50% des valeurs manquantes d'un base incomplète. Or, ces performances sont nettement infé- rieures à celles obtenues lors d'une complétion basée sur les règles d'association utilisant la conance comme indice d'ordonnancement des propositions.

Il apparaît donc nécessaire d'utiliser pour la complétion des séquences extraites selon un autre critère que la fréquence. L'utilisation d'un autre indice permettrait en eet la sélection d'autres motifs séquentiels, qui contiendraient d'autres items. Ces nouvelles valeurs possibles permettraient alors d'améliorer les propositions de remplacement.

Discussion

La découverte de motifs séquentiels est une méthode de fouille de données intéressante lorsqu'il s'agit d'extraire des connaissances dans une base de données historisée, telle que des relevés de processus industriel ou de fonctionnement de machines. Or, dans ce type de bases de séquences, la présence de valeurs manquantes est inévitable.

Dans cette partie, nous avons présenté deux techniques destinées à extraire des motifs séquentiels dans des bases de données de séquences incomplètes. Ces approches, basées sur une redénition de la notion de fréquence, permettent de traiter les valeurs manquantes, distribuées au hasard, directement pendant la fouille plutôt que de supprimer les enregistrements incomplets lors d'un pré-traitement, comme cela était le cas avec les algorithmes existants.

La première méthode proposée, SPoID, basée sur la désactivation partielle et temporaire d'une partie de la base, est robuste jusqu'à un taux d'incomplétude de 40%. La seconde méthode, ApSPoID, utilise un système d'estimation multivaluée des valeurs manquantes. Les expérimentations ont montré que cette approche, selon la méthode d'estimation utilisée, conduit à des résultats cohérents pour un taux d'incomplétude de l'ordre de 40 à 50%. Ces résultats pourraient être améliorés en utilisant le principe de l'algorithme Expectation-Maximization : les résultats obtenus et les calculs de fréquence seraient utilisés pour réestimer les valeurs possibles des valeurs manquantes à chaque itération, jusqu'à convergence du modèle. De plus, l'utilisation d'une double distribution possibilité/nécessité permettrait le calcul de deux bornes de la fréquence des motifs séquentiels extraits, fournissant ainsi une liste optimiste de schémas et une seconde plus pessimiste.

Par ailleurs, une combinaison des deux techniques ApSPoID et SPoID, pourrait s'avérer être une solution optimale. Ainsi, lors du parcours de la base an de déterminer les items fréquents, le taux d'incomplétude est également calculé, ainsi que la distribution des valeurs manquantes dans la base. Si les valeurs manquent au hasard, l'algorithme le plus approprié, SPoID ou ApSPoID, selon le taux d'incomplétude, est utilisé pour extraire les motifs séquentiels. Ces méthodes devront aussi être étendues an de pouvoir prendre en compte d'autres types de valeurs manquantes (non distribuées au hasard, par exemple), après avoir détecté les diérents types d'informations incomplètes présentes dans la base.

Une autre amélioration de ce travail consiste en la mise en place de mesures permettant de trier les motifs séquentiels en fonction du taux d'incomplétude des séquences de données qui permettent de les trouver. Une fois ces extensions mises en ÷uvre, des expérimentations sur données réelles, ainsi qu'avec diérentes distributions de données, complètes ou incomplètes, devront être réalisées.

En ce qui concerne le processus de complétion des valeurs manquantes que nous avons mis en ÷uvre, les résultats de nos expérimentations montrent qu'une complétion basée sur la similarité entre séquence incomplète et motifs séquentiels, telle que nous l'avons envisagée, n'est pas entièrement satisfaisante.

122 DISCUSSION

comme indice d'ordonnancement des propositions.

Il serait donc intéressant d'étudier la qualité d'une complétion basée non plus sur des motifs séquentiels sélectionnés par rapport à un seuil de fréquence d'apparition minimum, mais sur des séquences fréquentes à forte corrélation entre les items et itemsets qui la composent. Par ailleurs, les résultats présentés ici sont obtenus en utilisant une correspondance entre motifs séquentiels et séquences incomplètes. Ils pourraient sans doute être améliorés en autorisant des correspondances partielles, ainsi qu'une mesure de similarité entre le motif et la séquence à compléter.

L'utilisation d'une telle mesure, ou d'une combinaison de plusieurs mesures, pourrait également per- mettre l'amélioration des performances algorithmiques de la complétion. Pour cela, on peut par exemple envisager un rapprochement des séquences incomplètes et des séquences fréquentes grâce aux principes développés par l'algorithme ApproxMAP [KPWD02], utilisant des techniques de clustering.

Enn, les résultats d'une telle complétion devraient également pouvoir être améliorés en prenant en compte les apports des extensions proposées pour les motifs séquentiels, telle que la gestion de certaines paramètres temporels ou la prise en compte de valeurs numériques.

Bilan, perspectives et conclusion

Prévoir consiste à projeter dans l'avenir ce qu'on a perçu dans le passé. Henri Bergson (1859-1941) L'évolution créatrice

L

a masse d'informations disponibles, collectées et stockées a augmenté de façon exponentielle au cours des vingt dernières années, rendant impossibles l'analyse, la description ou l'extraction manuelle de ces connaissances potentielles. An de remédier à ce problème, de nombreuses techniques ont été propo- sées, aussi bien en apprentissage automatique qu'en statistique, permettant la découverte de schémas et modèles de ces données. Ces outils, regroupés sous le terme de fouille de données, fournissent diérents types d'informations et de connaissances.

Dans le présent manuscrit, nous nous sommes intéressés à la recherche de corrélations fréquentes dans des bases de données temporelles, grâce à l'extraction de motifs séquentiels. Cette technique développée il y a une quinzaine d'années dans le but d'analyser le comportement de clients supermarché est aujour- d'hui appliquée dans de nombreux domaines. En eet, les données biologiques, médicales, textuelles ou industrielles comportent très souvent une notion d'ordre, assimilable à une chronologie temporelle.

Cependant, les données de ces nouveaux champs d'application comportent de nouvelles caractéris- tiques. En particulier, ce type de bases de données contient de nombreux attributs numériques, alors que la technique originale d'extraction de motifs séquentiels visait à exploiter des données symboliques, de type binaire. Par ailleurs, ces nouvelles bases de données comportent un certain nombre d'imperfections dont la présence de nombreux champs non renseignés, les valeurs manquantes.

Notre travail a donc eu pour objectif de faciliter le traitement de ces données, en proposant dans un premier temps un cadre général pour l'extraction de motifs séquentiels dans des données numériques puis des méthodes de gestion des valeurs manquantes lors de la découverte de motifs séquentiels.

Toutefois, si le travail que nous avons réalisé permet de répondre à ces problématiques et ore à l'utilisateur la possibilité de traiter de nouveaux types de données de façon plus précise, certains problèmes demeurent non résolus. Nous présentons donc, pour conclure ce manuscrit, un bilan du travail réalisé ainsi qu'un certain nombre de perspectives issues plus ou moins directement des propositions que nous avons formulées.

La première section dresse un bilan de nos propositions ainsi que de leurs améliorations éventuelles. La section 2 développe ensuite quelques pistes pour la dénition de mesures d'intérêt pour les motifs séquentiels. Enn, la section 3 s'intéresse à de travaux futurs sur l'utilisation de techniques permettant de guider la fouille, pour en améliorer l'ecacité et faciliter parallèlement l'interprétation des motifs extraits.

124 BILAN, PERSPECTIVES ET CONCLUSION

1 Travail réalisé

Dans le cadre de cette thèse, nous nous sommes intéressés à la gestion des données numériques puis incomplètes lors de l'extraction de motifs séquentiels. Nous dressons dans cette section un bilan de notre travail, ainsi que des perspectives résultant directement de celui-ci.

Dans le document Extraction de séquences fréquentes : des données numériques aux valeurs manquantes (Page 123-127)