• Aucun résultat trouvé

CHAPITRE 3 EXPLORATION

3.3 Nombre de degrés

Le nombre de degrés permis est une borne supérieure sur le nombre de termes (attributs) que peut contenir un patron. Lorsqu’on travaille avec 4 degrés, les patrons de degré 1, 2 et 3 sont inclus également, donc plus le degré est élevé, plus l’on peut s’attendre à obtenir un grand nombre de patrons. En revanche, pour qu’une donnée soit recouverte par un patron, elle doit satisfaire à chacune de ses conditions; à priori des patrons plus spécifiques devraient donc permettre de faire moins d’erreurs de classification, car les observations seraient similaires en plus de points.

Afin de déterminer quel est le nombre de degrés optimal à utiliser, il faut tenir compte du temps de résolution requis, de la quantité des patrons générés, mais aussi de leur qualité qui se mesure par les erreurs dans le classement et par la dégradation entre l’apprentissage et la validation. Après plusieurs essais en faisant varier le nombre de degrés de 1 jusqu’à 6, il apparaît que les patrons de degré 4 sont ceux qui offrent le meilleur équilibre et qui conviennent le mieux pour les expérimentations requises.

Il est facile de rejeter les options degrés 1 et 2, car très peu de patrons de degré aussi faible existent. En fait, ils existent, mais à des homogénéités très permissives. Ceci s’explique très aisément: supposons que parmi les passagers qui possèdent des billets électroniques, 94% sont venus. Pour qu’un patron ne comportant que cet attribut soit généré, il faudrait que l’homogénéité permise soit de 94% ou moins. C’est donc dire que pour créer des groupes qui ont des taux de présence le plus près de 100%, il est nécessaire de combiner plusieurs facteurs, car il n’en existe aucun qui ait une corrélation parfaite et directe avec la présence des passagers. Rappelons qu’il s’agit là d’une des principales forces de la méthode LAD car elle offre la possibilité de combiner les effets des attributs sur le comportement des passagers.

Les tests avec les degrés plus élevés, comme 5 ou 6, ont été moins convaincants que prévu. Il n’est pas clair que leur apport est significatif. D’abord ils nécessitent des temps de résolution qui sont très longs, allant de 30 minutes à plusieurs heures, et le nombre de patrons qui apparaît est faramineux, même que la plupart du temps, il est plus élevé que le nombre d’observations. Ceci est causé par l’algorithme utilisé pour générer les patrons dans le LAD Datascope, car il permet les redondances. Par exemple, si les quatre premiers attributs forment déjà un patron valide, on retient ce patron, en plus de lui ajouter par la suite différents attributs de manière à créer cinq ou six autres patrons, tous dérivés de celui-ci, mais de degré supérieur. Le phénomène observé est la présence de plusieurs patrons pour décrire une ou plusieurs mêmes données. Sans doute que l’utilisation d’un algorithme qui génère moins de redondances pourrait résorber une partie de ce problème. De plus, les résultats du classement ne sont pas significativement de meilleure qualité, ils demeurent essentiellement les mêmes à quelques données près.

L’équilibre entre le nombre de patrons et le temps de résolution se situe donc entre les degrés 3 et 4, qui prennent respectivement de 2 à 3 minutes, selon le nombre de données,

et de 8 à 11 minutes, sur le logiciel. Voici des tableaux qui présentent deux essais ayant chacun été réalisés pour 3 degrés et pour 4 degrés.

Essai 1

Homogénéité positive: 100% - négative: 15% Prévalence: 8%

Tableau 3.13: Résultats de l’essai 1, avec 3 degrés, 24 patrons positifs Apprentissage

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 100,00% --- 87,18%

Prévalence 23,39% 0 % 76,61%

Validation

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 93,86% --- 88,93%

Prévalence 25,09% 0 % 74,76%

Ensemble des observations

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 96,82% --- 88,04%

Prévalence 24,24% 0 % 75,76%

Tableau 3.14: Résultats de l’essai 1, avec 4 degrés, 282 patrons positifs Apprentissage

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 100,00% --- 82,97%

Prévalence 42,30% 0 % 57,70%

Validation

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 95,35% --- 86,07%

Prévalence 44,17% 0 % 55,83%

Ensemble des observations

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 97,63% --- 84,50%

Essai 2

Homogénéité positive: 99% - négative: 20% Prévalence: 10%

Tableau 3.15: Résultats de l’essai 2, avec 3 degrés, 24 patrons positifs Apprentissage

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 98,66% --- 86,98%

Prévalence 27,35% 0 % 72,65%

Validation

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 93,23% --- 88,97%

Prévalence 28,17% 0 % 71,83%

Ensemble des observations

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 95,90% --- 87,97%

Prévalence 27,76% 0 % 72,24%

Tableau 3.16: Résultats de l’essai 2, avec 4 degrés Apprentissage

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 97,61% --- 83,02%

Prévalence 49,05% 0 % 50,95%

Validation

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 95,22% --- 85,30%

Prévalence 49,08% 0 % 50,92%

Ensemble des observations

Groupe Positif Groupe Négatif Groupe Non classés

Homogénéité 96,41% --- 84,16%

Prévalence 49,06% 0 % 50,94%

Pour chacun des deux essais, on remarque que le nombre de patrons créés lorsque le degré 4 est permis est dix fois plus élevé que le nombre de patrons de degré 3 seulement. Tandis que les patrons de degré 3 ne réussissent à classifier que 27,76% des données, les

patrons de degré 4 peuvent en classifier près de la moitié, 49,06%, soit presque deux fois plus. Un deuxième phénomène rend les patrons de degré 4 beaucoup plus intéressants que ceux de degré 3: lorsqu’on examine plus spécifiquement les taux de présence (homogénéités) des deux parties de la base de données, apprentissage et validation, on s’aperçoit immédiatement que lorsqu’on utilise 4 degrés, il y a moins d’écarts entre les deux groupes. Ceci est très important car la première partie de la base de données sert à la création; il est donc normal que les résultats y soient meilleurs. Quant à la deuxième, il s’agit de la validation des patrons sur un ensemble de données différentes, donc il est souhaitable de voir les résultats se dégrader le moins possible du premier tableau au deuxième, et aussi d’y observer des homogénéités qui sont semblables.

Non seulement y a-t-il moins d’écarts entre les deux groupes lorsque l’on travaille avec 4 degrés, mais de plus, si on regarde le total des observations, les essais réalisés avec 4 degrés comportent des taux de présence plus près de 100% que ceux du degré 3 (96,41% vs 95,90%). Donc avec 4 degrés, on classifie plus de données, les résultats se comportent de manière plus stable lors du passage de la phase d’apprentissage à la validation et le taux de présence est plus près de ce que l’on cherche à obtenir. C’est pour l’ensemble de ces raisons que le nombre de degrés a été fixé à 4 pour les expérimentations subséquentes.

Documents relatifs