• Aucun résultat trouvé

Dans cette section, nous allons intéresser à introduire les règles d’association ainsi que les notations utilisées qui visent à découvrir des tendances, a priori inconnues, au sein des données.

4.3.1 Présentation

Nous présentons un domaine de recherche assez mature en fouille de données [CR06], [TJY12] celui de l’extraction des règles d’association. Ce thème fut introduit par « Agrawal et al. » [AIS93], dans le but d’analyser les bases de données transactionnelles pour découvrir des habitudes d’achat des clients dans un supermarché, comme les articles qui sont souvent achetés ensemble. Connu sous le nom de panier du consommateur, ce problème est très courant en ECD et il a reçu beaucoup d’attention de la part des chercheurs [AIS93], [MKT97]. Il s’agit de découvrir parmi les ensembles des transactions (une transaction est constituée de l’ensemble des articles ou éléments achetés par un client), un ensemble de règles qui exprime une possibilité d’association entre différents articles. L’extraction des règles d’association est ainsi une technique visant à extraire des corrélations intéressantes des modèles fréquents ou

des associations entre les ensembles d’éléments dans les bases de données de transaction ou autres dépôts de données [KK06], [RZC10].

TID Lait Banane Café Pizza Sucre

1 1 0 1 0 1

2 1 1 1 0 1

3 1 0 1 0 0

4 0 1 0 1 0

5 1 1 1 1 0

Tableau 4.1 – Représentation binaire des données de « paniers » de clients

On se situe dans le cadre d’une base de données binaire D = (T, I, R), définie par un ensemble I = {i1, i2, ..., ip} de p attributs également appelés items et un ensemble T = {t1, t2, ..., tnT} de nT éléments, reliés par une relation binaire R. Chaque transaction ti désigne donc un sous-ensemble de I, ayant un identifiant TID (Transaction Identifiée). Un sous-ensemble de I est appelé itemset ou motif.

Le Tableau 4.1 illustre ce type de données en restituant un exemple de 5 paniers d’achats. Nous sommes donc en présence d’un ensemble T de 5 transactions, {t1, t2, ..., t5}, décrites par 5 items : i1 = Lait, i2 = Banane, i3 = Café, i4 = P izza, i5 = Sucre où ii sont des articles achetés par les clients. Le jeu de données du Tableau 4.1 sera utilisé, par la suite, pour décrire, en cas de besoin, les notions introduites tout au long de ce manuscrit. Dans ce qui suit, nous présentons les notations usuelles des règles d’association avant de les définir.

4.3.2 Notations

Nous nous plaçons toujours dans le cadre d’un contexte de fouille de données binaires D = (T, I, R) [WFM91], [BA96], [FUM96], [KR96] [Gri13], où I est un ensemble fini non vide d’attributs ou de variables, T un ensemble fini d’entités ou d’objets, R une relation binaire de T vers I et P la probabilité discrète uniforme sur l’espace probabilisable (T, P(T )) [Tot08]. Parlons de cette probabilité, dans la suite, nous utilisons les notations illustrées sur la figure

4.2 relatives aux motifs X et Y de D qui sont explicitées juste tout de suite après.

En premier lieu, on définit l’événement X0 par : X0 = {ti ∈ T / ∀ii ∈ X ; tiRii} i.e. l’ensemble de toutes les transactions contenant le motif X autrement dit le dual d’un motif X où X ⊆ I et X0 ⊆ P(T ) [Tot03], [Tot08].

H nT = |T | représente la taille de la base nT 6= 0 ;

H nX0 = |TX0| représente le nombre de transactions satisfaisant le motif X ;

H nX0Y0 = |TX0∩Y0| représente le nombre de transactions satisfaisant à la fois X et Y ; H nX0 = |T | − |TX0|, le nombre de transactions qui ne contiennent que le motif X, où X

représente la négation de X ; H nX0

nT = |TX0|

|T | représente le support du motif X ;

H nX0Y0 = |TX0∩Y0| représente le nombre de transactions satisfaisant à la fois X et Y . Par ailleurs, pour plus de clarté, désormais, nous ne gardons plus les notations probabilistes usuelles et considérées chaque fois comme provisoires utilisées par plusieurs auteurs qui sont définies par : P (X), P (XY ) et P (XY ). En fait, cette notation est assez gênante en tant que P désigne la probabilité discrète uniforme sur l’espace probabilisable (T, P(T )), alors que X indique un motif de I et P (X) est telle que P (X) = nX

nT. Ainsi, par souci de cohérence avec le principe de dualité dans l’analyse des concepts formels, nous les caractérisons selon les propriétés de leurs extensions respectives X0 et Y0 en tant qu’événement de P(T ). De ce fait, dans toutes la suites, nous gardons également les notations P (X0∩ Y0) au lieu de P (XY ) ou P (X ∪ Y ), P (X0) au lieu de P (X) et P (Y0) pour celle de P (X) [Tot08].

Ayant introduit ces différentes notations, nous pouvons définir une règle d’association.

Définition 20. Une règle d’association [AIS93] est un couple (X, Y ), noté X → Y , où X et Y sont des motifs (ou conjonctions de variables binaires) disjoints. Nous avons donc les relations suivantes : X ⊆ I, Y ⊆ I et X0∩ Y0 6= ∅.

Propriété 2. Soient X et Y deux motifs positifs. Dans le contexte de la fouille de données nous avons quatre types de règles d’association possibles obtenus à partir de X et de Y dont :

H une règle dite positive de la forme : X → Y ou Y → X ;

H une règle dite négative à droite de la forme : Y → X ou X → Y ; H une règle dite négative à gauche de la forme : X → Y ou Y → X ;

H une règle dite bilatéralement négative de la forme : X → Y ou Y → X [Fen07]. Une règle d’association de type X → Y prend la forme « si condition alors résultat ». Elle comporte une partie prémisse (ou antécédent) composée d’un ensemble d’items X et une partie conclusion (ou conséquent) composée d’un ensemble d’items Y disjoint de X. Une telle règle permet de découvrir si les transactions qui vérifient le motif X ont tendance à vérifier également le motif Y . Un exemple de règle qui pourrait être extraite des données du tableau4.1, est « Café → Lait » [TS02], [LLC09],[Gri13], [LNH15], [BS16].

En outre [Gri13], une règle d’association est entièrement caractérisée par son tableau de contingence (cf. Tableau 4.2), qui est la base pour le calcul des mesures d’évaluation des règles d’association [HV18]. Les cellules du tableau de contingence sont liées par les deux relations ci-dessous, où P (X0 ∩ Y0) est alors exprimée comme le rapport nX0Y 0

nX0 . H P (X0) + P (X0) = 1.

Y0 Y0 Profil colonne X0 P (X0∩ Y0) P (X0∩ Y0) P (X0) X0 P (X0∩ Y0) P (X0∩ Y0) P (X0) Profil ligne P (Y0) P (Y0) 1

Tableau 4.2 – Tableau de contingence

Les règles d’association ont été utilisées avec succès dans une large variété de domaines d’application [Hue09], parmi lesquels le secteur médical pour la recherche par exemple de complications dues à des associations de médicaments [MMS91], [MJPS97], [GSM94], l’ana-lyse d’images de données génomiques [Czy96], [OO98], [ORZm98], de données graphiques et statistiques [KK06], l’amélioration des services de télécommunications [KHT96], [MKT97], [KAS97], la fouille de textes [Kod99], [HY02]. Cette technique peut aussi être appliquée à tout autre secteur d’activité où il serait intéressant de découvrir des conjonctions d’articles ou services qui apparaissent fréquemment ensemble tels que les services bancaires.

4.4 Conclusion partielle

Nous venons de vous présenter brièvement sous la forme introductive ci-dessus les notions de « base de données » et de la « règle d’association ». Notons encore une fois que le domaine a fait et continue à faire objet de plusieurs recherches, et constitue le lieu privilégié du présent travail. Ce fait est confirmé par la littérature scientifique : le nombre élevé d’articles consacrés à l’Extraction de Connaissance à partir de Données (ECD) (en anglais Knowledge Discovery in Databases (KDD)) suffit de s’y convaincre. Son intérêt à l’humanité est donc considérable, ce qui démontre de façon indiscutable l’actualité du thème que nous avons choisi. Dans ce contexte, la normalisation des mesures d’intérêt figure parmi les points à ne pas négliger vu son importance ; à cet effet, il serait avantageux de dresser la subdivision suivante : premièrement, nous définissons la notion de « mesure d’intérêt » ou « mesure de qualité » et après, nous allons présenter où l’on est actuellement sur la mesure de qualité.