• Aucun résultat trouvé

Partie I Problématique et état de l'art

6.6 Bilan et perspectives

6.6.3 Un jeu de règles signicatif

Bien que le tableau soit généré dans son ensemble, chaque règle est ensuite jugée douteuse ou non indépendemment des autres règles. On pourrait envisager une façon plus globale de le faire. Nous allons l'exposer sur un petit exemple.

Reprenons la matrice du tableau 1 et les quatre matrices du tableau 2 pour comparer leur jeux de règles d'association. En nommant A, B et C leurs propriétés, nous obtenons les supports suivants des motifs :

Motifs Matrice n ∅ A B C AB AC BC ABC 1 4 3 2 3 1 2 2 1 2 4 3 2 3 1 3 1 1 3 4 3 2 3 2 2 1 1 4 4 3 2 3 1 2 2 1 5 4 3 2 3 2 2 1 1

Tab. 6.7  Les motifs des 5 matrices de la classe d'équivalence de la matrice du tableau 1 On constate dans le tableau 1 que les motifs des matrices 1 et 4 ont tous les mêmes supports. Si on retourne aux tableaux de données 1 et 2, on voit que la seule diérence entre ces deux matrices est que les réponses des sujets s1 et s4 ont été échangées. Et entre les matrices 3 et 5, le même phénomène s'est produit. Si on considère que la numérotation des sujets peut se faire de façon quelconque, on peut alors dire qu'il n'y a pas de diérence entre les matrices 1 et 4, et entre les matrices 3 et 5, et fusionner les matrices en ajoutant leurs probabilités ce qui donne les matrices 1&4, 2, et 3&5 de probabilités respectives 0,4, 0,2 et 0,4.

Si on se limite aux règles exactes de support non nul, les 3 jeux de règles produits sont {C>B, AB>C}, {A>C, C>A, AB>C, BC>A }, {A>B, BC>A} avec des probabilités respectives de 0,4, 0,2 et 0,4. Le premier jeu de règles étant issu de la matrice d'origine, si on examine chacune de ses deux règles, comme dans le chapitre précédent, on décide que la première

est plus signicative que la seconde, car elle ne se trouve que dans le premier jeu de règles c'est-à- dire avec une probabilité de 0,4 et la seconde dans le premier et le deuxième, avec une probabilité de 0,6122.

Mais on peut également examiner la signicativité du jeu de règles pris dans son ensemble, sa probabilité étant de 0,4, si on estime que les propriétés ne peuvent pas être échangées, comme les sujets l'ont été. Ce point de vue est le plus courant, mais le point de vue autorisant à échanger les propriétés existe aussi123. En comparant dans le tableau de motifs les lignes des matrices 1,

3, 4 et 5, on voit qu'elles ne dièrent que par les valeurs des colonnes AB et BC. On vérie dans les tableaux 1 et 2 qu'on peut passer de la matrice 1 à la matrice 3 par échange des colonnes A et C, et de la matrice 4 à la matrice 5 de la même façon. Si on accepte de renommer les propriétés, on peut fusionner les 4 matrices 1, 3, 4 et 5, et ainsi le jeu de règles de la première obtient une probabilité de 0,8, ce qui le rend encore moins signicatif.

Cette façon d'étendre la signicativité des règles aux jeux de règles, nécessite non seulement des modications de nos simulations, mais encore la construction de jeux de règles d'association sur les tableaux simulés, et d'une distance entre jeux de règles d'association.

122L'agrégation des matrices ne change pas la signicativité des règles car elle s'obtient par addition des proba-

bilités, ou des fréquences quand on simule.

Conclusion de la partie II

Le fait de se référer au hasard pour renforcer après coup le pouvoir d'induction d'une règle n'est pas nouveau en intelligence articielle. Il est notamment utilisé pour faire de l'"apprentissage" sur les données lors de l'élaboration des arbres de décision. Jensen [131] signale que bien qu'il y ait une variable à expliquer (dans le cas de l'arbre de décision, c'est le classement du sujet) on ne cherche pas à tester une hypothèse préalable, mais à la trouver, et qu'il est impossible de le faire en testant toutes les hypothèses possibles car on met alors en défaut les hypothèses préalables à l'utilisation de la quasi-totalité des tests statistiques :

¿...some investigators use conventional software "inductively". They examine tens or hundreds of models while searching for useful generalizations. This invalidates the assumptions of nearly all statistical tests, and these investigators are often chastised for their statistical naiveté.À Il conclut cette remarque en disant que le chercheur désire un système qui l'assiste à la recherche de modèles, et qui teste si ces modèles ne sont pas dus au hasard.

Puis ayant indiqué par là qu'on ne peut pas utiliser les tests statistiques d'hypothèses, il décrit la méthode alternative, qui assure un processus inductif, comme formée de deux étapes. La pre- mière est de générer un ou plusieurs modèles, c'est-à-dire les trouver et ajuster leurs paramètres, la seconde est de mesurer les diverses qualités de ces modèles (on suppose qu'il y a toujours un modèle naïf au départ). En principe, la qualité du modèle est estimée sur de nouvelles données. Si elle correspond à la qualité trouvée sur les données qui ont permis de construire le modèle, tout va bien, mais c'est en général moins bon, c'est ce qu'on appelle le "sur-apprentissage". La qualité d'un modèle inductif peut se tester en calculant pour chaque point l'écart entre la valeur observée et la valeur prédite. La diculté de tester sur les données de départ les divers classements (problème dit des comparaisons multiples [131] ) conduit naturellement à tester ces modèles sur de nouvelles données.

Nous voyons que la démarche que nous avons choisie pour les règles d'association ressemble à celle que nous venons de décrire. Dans les deux cas, le pouvoir inductif d'une règle trouvée sur un tableau T ne peut plus être assuré par les statistiques inférentielles, qui "légifèrent le hasard" ; il convient donc de vérier que la règle n'est pas spécique aux sujets du tableau T, et on le vérie en comparant la qualité de la règle sur les sujets à partir desquels elle a été construite à celle qu'elle a sur d'autres sujets. La façon de "mettre le hasard" est la diérence essentielle entre ces deux techniques. D'un côté, on dénit un hasard lié au contexte, un seuil de signicativité α, en général 0,10 0,05 ou 0,01, des indices de qualité avec leurs seuils, et on recommence 100 fois des tirages indépendants ce qui donne 100 exemplaires "aléatoires" de ce tableau. Une règle donnée est reconnue comme signicative si elle apparaît dans plus de 100xα tableaux avec des indices de qualité dépassant les seuils. De l'autre on coupe de façon aléatoire le tableau T en deux tableaux T1 et T2 contenant les mêmes propriétés mais pas les mêmes sujets, et une règle trouvée sur T1 est reconnue comme valable si elle apparaît dans T2 avec les indices de qualité dépassant les

seuils124. La première méthode est plus lourde, mais on obtient plus de sûreté dans le jugement

qu'avec la seconde, car on dispose non d'une valeur d'un indice, mais de sa loi de distribution sur nos données. Le risque de cette méthode est qu'elle peut fournir des résultats biaisés, comme certaines estimations obtenues par un bootstrap naïf [74]. Si le nombre de sujets est petit par rapport au nombre de propriétés, on préférera la première méthode. S'il est très grand et a du mal à tenir en mémoire centrale et/ou sur le disque dur, on préférera la seconde. Entre ces deux extrêmes, si on désire comparer l'ecacité de plusieurs indices de qualité sur des données ou trouver des seuils de décision pour ces indices adaptés aux données on préférera la première.

124Pour les tâches de classement, on peut recommencer plusieurs fois la manipulation qui consiste à couper T

en deux. Mais on doit alors extraire à chaque fois les règles sur T1 et les valider sur T2. Ce qui risque de ne pas redonner les mêmes règles. Ce n'est pas important pour une tâche de classement qui consiste à prédire la classe d'un sujet. La qualité de la tâche de classement est en eet liée à la prédiction, pas au jeu de règles qui peuvent changer d'une manipulation à une autre.

Troisième partie

La prise en compte des liaisons

complexes : position du problème et

7

Les dicultés d'interprétation d'une

règle

Nous avons déjà exposé précédemment (voir chapitre 2) les divers types de problèmes ren- contrés dans le raisonnement courant en sciences humaines lorsqu'on passe de l'association de deux propriétés à celle de trois propriétés, qu'on appellera indiéremment variables ou attributs comme c'est l'habitude en sciences humaines. Nous constatons d'abord que ces problèmes se posent également dans certains modèles de l'intelligence articielle. Nous décrivons ensuite les eets les plus courants de l'arrivée d'une troisième variable sur la liaison entre deux variables pour les règles d'association. Pour rendre ces eets plus faciles à appréhender, nous les repré- sentons par des nuages de points, donc avec des variables quantitatives A et B, en utilisant le modèle de la corrélation et de la régression [10], puis nous transformons A en variables binaires, ce qui donne une représentation selon un modèle d'analyse de la variance [121], pour nalement coder B également de façon binaire et arriver ainsi au modèle loglinéaire [181] qui est une repré- sentation des règles d'association. Puis nous terminons l'exposé de ces problèmes par un bilan de l'importance de leur eet sur les règles d'association.

Sommaire

7.1 Les problèmes posés par les liaisons complexes en IA . . . 175

7.2 Les problèmes des relations complexes dans les règles d'asso- ciation . . . 176

7.2.1 L'indépendance entre A et B, et une liaison positive . . . 177

7.2.2 L'ajout de C ne modie rien à la règle A→B . . . 181

7.2.3 L'ajout de C modie la règle A→B . . . 184

7.3 Le type de liaison indiqué par une règle d'association . . . 188

7.1 Les problèmes posés par les liaisons complexes en IA

Nous avons déjà évoqué précédemment le problème de codage dans la partie du chapitre de l'état de l'art concernant les dépendances fonctionnelles. Les chercheurs en intelligence articielle rencontrent également des problèmes liés aux relations complexes entre attributs dans les tâches de classement, la plus connue étant la construction d'un arbre de décision [246].

Les algorithmes de classement par apprentissage procèdent par sélection d'un ensemble de variables qui forment la partie gauche de la règle [140]. La sélection de ces variables est parfois

délicate comme en attestent de nombreux articles. Citons notamment l'introduction [110] au numéro spécial de Machine Learning consacré à ce problème, ainsi que l'étude du biais de sélection dû aux liens des bases de données relationnelles [132]. Les relations complexes entre attributs ont été mises en évidence lors de comparaisons entre des performances de classieurs. Par exemple, on a constaté que ce qui rendait l'algorithme Relief [143] plus ecace était sa résistance aux interactions, due à un choix local des attributs. Si le choix des variables intervenant dans les règles ne tient pas compte de ces relations complexes, c'est-à-dire se fait de façon "myope" d'après le terme employé par I. Konenko [145], les performances de certains classieurs diminuent. Ce sont d'après A. Jakulin [129] les techniques de classement par apprentissage qui utilisent des fonctions linéaires telles que les arbres de décision, la régression logistique, le classieur naïf bayésien, les Support Vector Machines, le perceptron qui en pâtissent le plus. Parmi les relations complexes gênant la discrimination, il pointe non seulement l'interaction, repérée par de nombreux spécialistes des règles de décision, mais également l'eet Simpson mis en évidence dans les données de l'UCI Repository par Fabris C.C. et A.A. Freitas [76] - cf. annexe B de ce mémoire.

Pour dénir ces liens complexes entre 3 variables, ou plutôt entre deux variables explicatives A et B et une variable de classement C, il considère l'association entre l'indépendance marginale entre A et B (quand on ignore C), et l'indépendance conditionnelle entre A et B (pour chaque valeur de C), l'indépendance étant dénie de la façon probabiliste : pAB = pApB). Et il reprend

les 4 possibilités de [5] :

marginal conditionnel commentaires : indépendance indépendance inintéressant

indépendance dépendance dépendance conditionnelle dépendance indépendance indépendance conditionnelle dépendance dépendance dépendance conditionnelle

Tab. 7.1  Liens de dépendances entre deux variables booléennes sachant une troisième selon [5] Et il met l'"interaction" dans le deuxième cas, qui présente un danger en classement quand on sélectionne A et B de façon qu'il appelle "myope" c'est-à-dire sans tenir compte de C, et le paradoxe de Simpson dans le dernier cas, quand la dépendance marginale et la dépendance conditionnelle s'opposent.

7.2 Les problèmes des relations complexes dans les règles d'asso-