• Aucun résultat trouvé

4.5 Introduction partielle de MPQ

4.5.3 Dix premiers problèmes cruciaux

 P (Y0/X0) P (Y0) k − 1  (P (Y0/X0)P (X0))m 40 Support à sens unique P (Y0/X0) logP (XP (X0)P (Y0∩Y0)0)

41 Support à double sens P (X0∩ Y0) log P (XP (X0)P (Y0∩Y0)0)

42 Couverture P (X0)

43 Prévalence P (Y0)

44 Jaccard P (X0)+P (YP (X00∩Y)−P (X0) 0∩Y0)

45 Zhang P (X0∩Y0)−P (X0)P (Y0)

max(P (X0∩Y0)P (Y0),P (X0∩Y0)P (X0∩Y0))

46 Q de Yule P (X0∩Y0)P (X

0

∩Y0)−P (X0∩Y0)P (X0∩Y0) P (X0∩Y0)P (X0∩Y0)+P (X0∩Y0)P (X0∩Y0)

47 Y de Yule √ P (X0∩Y0)P (X0∩Y0)−P (X0∩Y0)P (X0∩Y0)P (X0∩Y0)P (X0∩Y0)+P (X0∩Y0)P (X0∩Y0)

48 J-Mesure P (X0∩ Y0) logP (XP (X0)P (Y0∩Y0)0) + P (X0 ∩ Y0) log P (X0∩Y0)

P (X0)P (Y0)

Tableau 4.4 – MPQ

Nous allons voir à juste titre quelques propriétés ou définitions associées à une Mesure Pro-babiliste de Qualité.

Définition 22. H Une mesure de qualité µ sera dite implicative si pour toute règle d’association X → Y , on a : (Y → X) = (X → Y ) [Tot03].

H Une mesure de qualité des règles d’association µ sera dite symétrique si pour toute règle d’association (X → Y ) on a : (X → Y ) = (Y → X), elle sera dite parfaitement symétrique, si pour toute règles d’association X → Y , on a : (X → Y ) = (X → Y ) [Tot03].

H Une mesure de qualité des règles d’association µ sera dite orientée, s’il existe au moins une règle d’association (X → Y ) telle que : (Y → X) 6= (X → Y ).

4.5.3 Dix premiers problèmes cruciaux

Sur le domaine de la recherche en science de données, en 2009 dans [WK09], Qiang Yang et Xindong Wu annonçaient les dix principaux défis qui suivent :

H développement d’une théorie unificatrice de l’exploration de données (Developing a Unifying Theory of Data Mining) ;

H mise à l’échelle les données de haute dimension et les flux de données à haute vitesse (Scaling Up for High Dimensional Data and High Speed Data Streams) ;

H connaissance des données des séquences d’extraction et des données des série tempo-relles (Mining Sequence Data and Time Series Data) ;

H connaissance de complexe minier à partir de données complexes (Mining Complex Knowledge from Complex Data) ;

H exploration de l’extraction de données dans un paramètre réseau (Data Mining in a Network Setting) ;

H répartition des données sur l’exploration et l’extraction de données distribuées (Distri-buted Data Mining and Mining Multi-agent Data) ;

H application de la fouille de données pour les problèmes biologiques et environnementaux (Data Mining for Biological and Environmental Problems) ;

H application de la fouille de données sur les problèmes liés au processus (Data-Mining-Process Related Problems) ;

H sécurisation, confier et intégrer des données (Security, Privacy and Data Integrity) ; H traitement de données non statiques, déséquilibrées et sensibles aux coûts (Dealing

with Non-static, Unbalanced and Cost-sensitive Data).

Beaucoup de méthodes avec des mesures appropriées d’extraction de connaissances à partir des données de grande taille sont proposées dans la littérature pour tenter d’améliorer la qualité des règles d’association découvertes et d’en éviter la surabondance. Par ailleurs, sur le plan de la recherche sur le développement d’une théorie unificatrice de l’exploration de données (Developing a Unifying Theory of Data Mining) plus précisément sur une vision unificatrice des mesures probabilistes de qualités dans la littératures, André Totohasina a introduit une normalisation de ces mesures dans laquelle, elle est l’objet de l’une de ces études, tendant à dégager des relations fonctionnelles entre les différentes mesures d’intérêt.

4.5.4 Conclusion partielle

Comme cette liste d’exemples l’indique, la littérature atteste que sur la façon d’attribution d’un nom à une mesure de qualité, trois catégories se profitent : il y a les mesures qui portent le nom de l’auteur ou de groupe d’auteurs (telles : mesure de Lovinger, Laplace, Sebag, MGK etc), puis celle dont le nom reflète les propriétés mathématiques effectives ou la sémantique intrinsèque de l’Indice (c’est le cas : Indice de l’implication (IndImp), mesure de similarité, coefficient de corrélation linéaire, etc.), et les mesures dont le nom exprime le souhait (pour ne pas dire marqueting) de son auteur (comme Conviction, Confiance, Facteur de Certitude, etc.) [Tot08]. Cette diversité d’appellations d’un même concept au sein d’un même domaine témoigne la jeunesse de cette discipline de la fouille de données. Il y convient donc d’avoir une action d’harmonisation et d’unification devant ce foisonnement des mesures de qualité de règle d’association. Remarquons que la plupart de ces mesures de qualité de règle peuvent s’exprimer en fonction de la probabilité conditionnelle sachant la permisse du conséquent dite confiance de la règle par Agrawal et al.[Tot08]. Alors que la probabilité conditionnelle sachant le conséquent de la prémisse mesure ce qui est appelée la complétude de la règle selon Freitas ou son rappel selon Azé et Kodratoff, c’est à dire l’importance du concept de probabilité conditionnelle pour ces types de mesure d’intérêt de règle d’association [Tot08]. Nous avons déjà dit, dans le souci de contribuer à une mise en place d’une théorie unificatrice vivement souhaitée dans la communauté de ladite science des données, face au foisonnement des mesures d’intérêt existant dans la littérature (une soixantaine !), André Totohasina a proposé le concept de mesure normalisée de la qualité des règles d’association sous cinq conditions, la procédure de normalisation d’une mesure non normalisée, mais normalisable, basée sur un homéomorphisme affine. Nous allons en effet voir ledit processus au chapitre5.

Chapitre 5

Normalisation par homéomorphie affine

5.1 Introduction et notions partielles de normalisation de

MPQ

Parlons maintenant de la normalisation de mesures, c’est-à-dire d’une partie intégrante de notre travail. Comme l’on peut le voir dans le Tableau 4.4 et lire dans la littérature sur la fouille de données [Gri13], on distingue déjà plusieurs mesures de qualité, toutes importantes. L’on n’ignore que les mesures de qualité servent à évaluer, à classifier les règles d’association d’un contexte de la fouille de données, et il n’est pas toujours facile de donner satisfaction aux utilisateurs dans leur choix de mesure lors du traitement des données.

Face au nombre susmentionné de mesures, les chercheurs poursuivent toujours leurs « re-cherches » des moyens permettant de mieux satisfaire les utilisateurs, ce qui fait que toutes les mesures en main seront mises à l’épreuve. En d’autres termes, plusieurs algorithmes des règles d’association sont disponibles dans la littérature. La mesure « confiance » et le « sup-port » dans le domaine des travaux de recherche présentés aux utilisateurs ont montré leurs premières importances. Le temps passe, et les recherches ne cessent d’évoluer. Parallèlement à cela, et encore dans le contexte de fouille de données, les chercheurs ont obtenu plusieurs résultats dont les diverses définitions plus pertinentes et les propriétés. Il est apparu que les deux mesures reconnues alors importantes présentent de nombreuses critiques à savoir, d’abord, les algorithmes utilisés pour générer les règles d’association d’un contexte binaire engendrent un très grand nombre de règles qui sont très difficiles à gérer et dont beaucoup n’ont que peu d’intérêt. Ensuite la condition de Support qui est le moteur du processus d’extraction écarte les règles ayant un petit Support alors que certaines peuvent avoir une très forte Confiance et peuvent se présenter réel intérêt [Fen07].

Plusieurs chercheurs se sont déjà efforcés à trouver des moyens permettant de mettre en liaison toutes les mesures avec la mesure de confiance vu son importance. Comme cela a été déjà dit, ces derniers temps, beaucoup de critiques ont été portées sur le contexte de fouille de données pour diverses raisons. Par exemple, l’an 2000 Guillum-Khenchaff [Gui00] a fait sortir la mesure nommée MGK qui, jusqu’à ce jour, est considérée pertinente selon la définition et les propriétés des mesures utilisées dans la fouille de données. Dans ces condi-tions, quelles solutions seront à adopter ? Les data-scientistes sont alors obligés à trouver des moyens menant au rapprochement de toutes les mesures connues vers la mesure MGK. C’est dans ce sens qu’en 2003 André Totohasina [Tot03] est arrivé à mettre en évidence la voie de rapprochement de cette mesure au moyen de la « normalisation de mesures de qualité ». Certes ses recherches ont permis d’obtenir des résultats que l’on peut qualifier bons, car elles

ont ouvert voie au ralliement de la majorité des mesures. Daniel Rajaonasy Feno a poursuivi son travail et a pu attribuer des propriétés relatives à la normalisation. Pour cela, ils ont tous les deux utilisé l’homéomorphisme affine conformément à la démarche suivante.