• Aucun résultat trouvé

Repr´ esentation symbolique des donn´ ees : transcription

Chapitre 4 Caract´ erisation de motifs graduels 91

4.3 Repr´ esentation symbolique des donn´ ees : transcription

valide si est seulement si le motif graduel sous-jacent est valide et le r´esultat de l’´equation (4.2) est sup´erieur `a un seuil sc, fix´e par l’utilisateur.

4.2.3 Principe g´en´eral

Afin d’identifier les motifs graduels caract´eris´es valides, une approche na¨ıve et trop coˆ u-teuse pourrait consister `a r´ealiser une discr´etisation pr´ealable. Selon cette approche, on pou-vait introduire des modalit´es binaires pour chaque clause de caract´erisation possible (valant 1 si la valeur appartient `a l’intervalle candidat, 0 sinon) sur lesquelles on pourrait appliquer l’approche du renforcement. Cependant, cela conduit `a un grand nombre de possibilit´es et ne permet donc pas d’identifier les modalit´es pertinentes de mani`ere efficace.

Aussi, une m´ethode int´egr´ee recherchant directement des intervalles associ´es est propo-s´ee. Celle-ci est bas´ee sur l’utilisation d’outils morphologiques math´ematiques d´etaill´es dans la section 4.4.1 et d´ecompose la tˆache d’identification des attributs caract´eristiques et de leurs intervalles d’int´erˆet associ´es, en consid´erant successivement chaque attribut composant le motif graduel consid´er´e I ainsi que chaque chemin supportant I : le calcul du support graduel restreint SGD0(I) et l’intervalle d’int´erˆet sont bas´es sur la restriction des chemins as-soci´es `a I. Pour cela, nous identifions d’abord, pour chaque chemin, la restriction candidate : nous proposons de passer de la repr´esentation num´erique `a une repr´esentation symbolique o`u chaque objet appartenant au chemin consid´er´e est repr´esent´e par des + et o`u les objets restant sont repr´esent´es avec l’un des deux symboles {−, ◦}. Cette phase correspond `a la phase de transcription des donn´ees, d´ecrite dans la section 4.3. La repr´esentation symbolique est ensuite trait´ee par un filtrage morphologique, d´etaill´e dans la de section 4.4. La restric-tion que nous souhaitons identifier correspond `a la plus grande s´equence de + induite par le processus de filtrage morphologique. Les op´erateurs de morphologie math´ematique refl`etent de mani`ere pertinente la recherche des meilleures restrictions et conviennent pour assurer le compromis entre les deux ´equations (4.1) et (4.2). Une fois qu’une restriction est identifi´ee pour chaque chemin, un post-traitement est effectu´e sur les diff´erents chemins : les restric-tions sont combin´ees pour s´electionner les limites optimales qui correspondent aux limites de la plus grande restriction identifi´ee. Cette phase est d´etaill´ee dans la section 4.5.

4.3 Repr´esentation symbolique des donn´ees : transcription

Cette section pr´esente le processus de passage de la repr´esentation num´erique des donn´ees `

a une repr´esentation symbolique, en d´etaillant les r`egles de transcription. Elle illustre ensuite le calcul de support graduel `a partir de cette nouvelle repr´esentation. Enfin, la derni`ere partie de cette section prend en compte l’information de la densit´e des donn´ees et pr´esente de nouvelles r`egles de transcription permettant de consid´erer cette information.

4.3.1 R`egles de transcription

D´efinition 4.3 (R`egles de transcription). La transcription des donn´ees de D pour un motif graduel I, un chemin D et un attribut A pour lequel un intervalle d’int´erˆet est recherch´e, est d´efinie par le mot compos´e des symboles {+, −, ◦} tel que le i`eme caract`ere est obtenu, selon les r`egles suivantes :

— o → + ssi o ∈ D

— o → − ssi (o /∈ D) ∧ (AmD≤ A(o) ≤ AM D) — o → ◦ sinon

o`u AmD et AM D repr´esentent respectivement les valeurs minimale et maximale de l’attribut A observ´ees pour les objets dans D : AmD = mino∈DA(o) et AM D= maxo∈DA(o).

Le symbole ◦ code les donn´ees en dehors des limites du chemin trait´e ; il est n´ecessaire pour traiter le cas de plusieurs chemins maximaux, comme d´etaill´e dans la section 4.5.1.

Les donn´ees de la figure 4.2 conduisent par exemple au mot v repr´esent´e sur la partie inf´erieure de la figure et redonn´e ci-dessous

v = + - - + - + - + + + + + - + + + + - + - + ◦ ◦

4.3.2 Calcul du support graduel `a partir de la repr´esentation symbolique

L’objectif formalis´e dans les ´equations (4.1) et (4.2) peut alors ˆetre transpos´e `a la re-pr´esentation d’un chemin sous la forme d’un mot : la restriction de l’ensemble de donn´ees correspond `a une sous-partie du mot, et |D0| `a sa longueur. Le support restreint SGD0(I) est d´efini par le nombre d’objets compatibles, qui sont exactement les objets du chemin ayant ´et´e transcrits comme + . On peut donc d´efinir SGD0(I) comme le nombre de +, normalis´e par le nombre total d’´el´ements contenus dans cette sous-partie. Dans ce qui suit, pour un mot v, on note l(v) sa longueur et N P (v) le nombre de + qu’il contient.

D´efinition 4.4 (Expression symbolique du support graduel). Le support d’un motif graduel est ´etendue `a un mot v comme :

SG(v) = N P (v)

l(v) (4.3)

Le support le plus ´elev´e est obtenu lorsque la sous-partie consid´er´ee du mot est une s´equence de + qui ne contient pas de symbole −, conduisant `a SGD0 = 1. La plus longue s´equence de + identifi´ee dans v, not´ee S(v), a pour taille l(S(v)) et pour support SG(S(v)) = 1.

La question est alors d’´etendre la taille d’une telle s´equence, S(v), en tol´erant quelques symboles −, de mani`ere `a augmenter la taille de l’ensemble de donn´ees restreint, sans trop d´egrader la proportion des + dans la sous-partie consid´er´ee. On peut, par exemple, avoir

4.3. Repr´esentation symbolique des donn´ees : transcription dans v, deux s´equences de +, s1 et s2, plus courtes que S(v), et s´epar´ees seulement par une courte s´equence de −, not´ee s. Dans ce cas, la sous-partie du mot compos´ee de la concat´enation s0 = s1ss2 conduit `a une longue s´equence avec un nombre de + qui reste ´elev´e. Plus pr´ecis´ement, l(s0) = l(s1) + l(s) + l(s2) et SG(s0) = (l(s1) + l(s2))/l(s0).

Le compromis entre la taille et le support ´equivaut `a se demander si l’on pr´ef`ere consid´erer le sous-ensemble de donn´ees correspondant `a S(v), qui maximise le support, ou plutˆot celui induit par s0, qui a une plus grande longueur au d´etriment d’un support inf´erieur. Pour cela, nous proposons d’exploiter les outils de morphologie math´ematique que nous rappelons dans la section suivante. Le support est calcul´e `a partir de la s´equence finale qui sera identifi´ee par ces outils. Cette s´equence appel´ee s´equence caract´eristique est d´efinie ci-dessous.

D´efinition 4.5 (S´equence caract´eristique). Pour un mot v0 r´esultant de l’application des outils de morphologie math´ematique, une s´equence caract´eristique est d´efinie comme par un sous-mot de v0 repr´esentant la plus longue s´equence de +.

La s´equence caract´eristique est donc la symbolique des objets appartenant `a la restriction de l’ensemble de donn´ees. L’intervalle d’int´erˆet est d´efini par ses limites qui sont repr´esent´ees par les limites de la s´equence caract´eristique : il s’agit des valeurs minimale et maximale de l’attribut pris en compte.

4.3.3 Prise en compte de la densit´e

Le principe g´en´eral de la caract´erisation illustr´ee dans la section pr´ec´edente ne tient pas compte de la densit´e des donn´ees. Cette section illustre la pertinence de la prise en compte de cette information pour la caract´erisation de fa¸con g´en´erale. Cet objectif est traduit par des r`egles de transcription modifiant l´eg`erement celles introduites dans la d´efinition 4.3.

Motivations

Dans le cas g´en´eral, il peut arriver que deux sous-ensembles de donn´ees diff`erent par leur densit´e mais qu’ils soient de mˆeme cardinalit´e et donnent le mˆeme intervalle caract´eristique, comme illustr´e sur la figure 4.3. Les deux cas repr´esentent un sous-ensemble d’une base de donn´ees pour lequel le support est de 100% et qui conduit `a l’intervalle caract´eristique [8, 42]. N´eanmoins, pour le cas de droite, il semble plus satisfaisant de restreindre encore l’intervalle, pour d´efinir la clause surtout si A ∈ [26; 29] : le fait d’ignorer les deux premiers objets et le dernier, isol´es du reste des objets, permet d’identifier une zone dense qui est en effet plus caract´eristique du motif.

La densit´e est mesur´ee par le nombre d’objets rapport´e `a la taille de l’intervalle, et permet de diff´erencier les deux intervalles caract´eristiques.

En appliquant ce principe `a l’exemple de la figure 4.2, on consid`ere l’intervalle [32; 53] plutˆot que [32; 65] : les trois objets repr´esent´es `a droite du chemin consid´er´e ne sont pas pris en compte, parce qu’ils sont isol´es du reste des objets de l’intervalle [32; 65]. Le support de cette nouvelle restriction est plus ´elev´e que celui de la restriction pr´ec´edente, qui est de 90%.

Figure 4.3 – Deux sous-ensembles de donn´ees de mˆeme cardinalit´e mais de densit´e diff´erentes, donnant le mˆeme intervalle caract´eristique.

En revanche, cette restriction contient moins d’objets que la pr´ec´edente, ce qui signifie que le compromis effectu´e et souhait´e est diff´erent du compromis pr´ec´edent.

Nous proposons d’int´egrer l’information de densit´e dans l’extraction d’une s´equence ca-ract´eristique : nous voulons des s´equences denses, c’est-`a-dire que nous ne souhaitons pas int´egrer les + isol´es dans une s´equence caract´eristique. La d´efinition d’un symbole « isol´e » est li´ee `a la taille de l’´ecart qui le s´epare du symbole voisin.

L’objectif consiste alors `a trouver un compromis qui maximise `a la fois le support du motif consid´er´e I sur D0, le nombre d’objets dans D0 et la densit´e des donn´ees dans R.

Insertion et transcription des objets fictifs

Afin de prendre en compte la densit´e, nous proposons de g´en´erer des objets fictifs, ins´er´es entre les objets de la base initiale, afin de garantir que l’´ecart entre deux valeurs succes-sives observ´ees pour l’attribut A soit inf´erieur ou ´egal `a e, o`u e est un ´ecart minimum fix´e par l’utilisateur, appel´e ´ecart de base. Les r`egles permettant de passer `a la repr´esentation symbolique sont similaires `a celles d´ecrites dans la section 4.3.1, mais contiennent une r`egle suppl´ementaire qui permet de repr´esenter les objets fictifs ins´er´es.

D´efinition 4.6 (R`egles de transcription avec pr´esence d’objets fictifs). Pour une base de donn´ees D0 compos´ee de donn´ees de D et des objets fictifs ins´er´es, un motif graduel I, un chemin D et un attribut A pour lequel un intervalle d’int´erˆet est recherch´e, la transcription de D0 est d´efinie par le mot compos´e des symboles {+, −, ◦} tel que le i`eme caract`ere est obtenu, selon les r`egles suivantes :

— o → − si o est un objet fictif — o → + si o ∈ D

— o → −si (o /∈ D) ∧ (AmD ≤ A(o) ≤ AM D) — o → ◦ sinon

4.4. Filtrage morphologique