Étude de simulations - Regroupement optimal d'objets à l'intérieur d'un nombre imposé de classe

Dans les chapitres 4, 5 et 7, trois méthodes de partitionnement ont été développées pour tenter de trouver le regroupement optimal de n objets en c classes de taille égale. Ces nouvelles techniques de classification ont été illustrées à l’aide d’un jeu de données contenant des caractéristiques géographiques des trente équipes de la Ligue nationale de hockey. Un seul ensemble de données n’est cependant pas suffisant pour bien comparer l’efficacité des trois approches de partitionnement. On peut donc simuler des jeux de données ayant différentes particularités afin d’évaluer la performance des trois techniques présentées dans ce mémoire.

Les ensembles de données simulés se caractérisent par la taille de la population, par le nombre de variables présentes dans le jeu de données et par le nombre de groupes à former. Trois types de taille de population sont considérés. Plus particulièrement, certains jeux de données contiennent une petite population (entre dix et vingt individus), d’autres comportent une population moyenne (entre vingt-et-un et cent individus) et les autres ensembles de données sont composés d'une grande population (entre cent un et mille individus). Le nombre de variables dans le jeu de données se divise en trois catégories. Les jeux de données contenant entre deux et quatre variables ont peu de variables. Les jeux de données comprenant entre cinq et quinze variables ont un nombre moyen de variables. Si un ensemble de données contient entre seize et trente variables, on dira qu’il contient beaucoup de variables. Le nombre de classes à créer dans la population se divise aussi en trois catégories, soit « peu de classes », « moyennement de classes » et « beaucoup de classes ». Le nombre réel de classes correspondant à chacune de ces catégories dépend de la taille de la population. Les caractéristiques des ensembles de données sont résumées dans le tableau 8.1.

Taille de population Identifiant Nombre de variables Identifiant Nombre de classes Identifiant

Petite (10 à 20) A Peu (2 à 4) D Peu G

Moyenne (21 à 100) B Moyennement (5 à 15) E Moyennement H

Grande (101 à 1000) C Beaucoup (16 à 30) F Beaucoup I

Tableau 8.1 - Catégories des caractéristiques des jeux de données simulés

Comme on le constate, chacune des trois caractéristiques des jeux de données se divise en trois catégories. Ainsi, si l’on désire soumettre les trois approches de partitionnement à chaque combinaison des trois caractéristiques, il faut créer vingt-sept jeux de données différents. Un résumé des particularités de ces jeux de données est présenté dans le tableau 8.2. La taille de chaque population et le nombre de variables dans chaque jeu de données ont été déterminés aléatoirement. Le nombre de classes à former à l’intérieur des populations simulées a été choisi de façon non aléatoire.

Jeu de données Combinaison Taille de la _population _{(numériques, catégoriques)}Nombre de variables _{de classes}Nombre

1 ADG 16 3 (1, 2) 2 2 ADH 20 3 (2, 1) 4 3 ADI 10 4 (4, 0) 5 4 AEG 14 14 (1, 13) 2 5 AEH 16 9 (3, 6) 4 6 AEI 18 11 (3, 8) 9 7 AFG 15 26 (19, 7) 3 8 AFH 20 16 (13, 3) 5 9 AFI 12 30 (16, 14) 6 10 BDG 28 4 (0, 4) 2 11 BDH 49 2 (0, 2) 7 12 BDI 93 3 (3, 0) 31 13 BEG 55 6 (2, 4) 5 14 BEH 99 11 (10, 1) 11 15 BEI 62 9 (4, 5) 31 16 BFG 27 27 (25, 2) 3 17 BFH 100 23 (17, 6) 10 18 BFI 85 16 (3, 13) 17 19 CDG 174 3 (3, 0) 3 20 CDH 437 2 (1, 1) 19 21 CDI 123 4 (2, 2) 41 22 CEG 730 7 (6, 1) 10 23 CEH 768 11 (0, 11) 24 24 CEI 434 12 (10, 2) 217 25 CFG 125 18 (11, 7) 5 26 CFH 987 27 (14, 13) 47 27 CFI 365 29 (9, 20) 73

Tableau 8.2 - Caractéristiques des jeux de données simulés

Les valeurs prises par les variables numériques présentes dans les jeux de données sont simulées à l’aide de lois de probabilité connues telles que la loi normale, la loi uniforme et la loi de Poisson. Les valeurs des paramètres de ces lois ont été choisies tout à fait spontanément. Il est en de même pour le nombre de modalités que peuvent prendre les variables catégoriques dans les jeux de données simulés. Ce qu'il faut retenir des simulations effectuées est la valeur prise par le critère d’optimisation du regroupement optimal proposé par chaque approche de partitionnement pour chacun des vingt-sept ensembles de données. Pour cette raison, peu d’attention est portée ici à la simulation des variables incluses dans les jeux de données.

Le critère d’optimisation calculé pour chaque jeu de données dépend de la nature des variables d’intérêt. Ainsi, si elles sont toutes de type numérique, les méthodes de classification tenteront de minimiser la variance intraclasse. À l’opposé, si l’une des variables d’intérêt est catégorique, on tentera plutôt de maximiser la somme des indices de similarité intraclasse.

Au chapitre 4, il a été mentionné qu’il peut être très long d’utiliser la méthode algorithmique pour tenter de découvrir le partitionnement optimal de certains jeux de données. C’est le cas, notamment, lorsque le nombre de combinaisons de tailles de sous-populations et le nombre de permutations de tailles de sous- populations pour chaque combinaison sont très élevés. Il en est de même si le jeu de données à classer est constitué d’une grande quantité de variables d’intérêt. Ainsi, pour ces raisons, il se peut que certains des ensembles de données simulés ne soient partitionnés qu'à partir de certaines possibilités de tailles de sous- populations proposées par l’approche algorithmique.

Jeu de données Combinaison _{d’optimisation}Indice _{algorithmique}Approche _probabilisteApproche _markovienneApproche

1 ADG Similitude 56,753 56,753 56,753 2 ADH Similitude 67,296 67,296 67,296 3 ADI Variance 10,552 10,552 10,552 4 AEG Similitude 31,904 31,904 31,904 5 AEH Similitude 30,762 30,762 30,762 6 AEI Similitude 23,886* 23,957 23,957 7 AFG Similitude 20,793 20,793 20,793 8 AFH Similitude 28,901 29,354 29,354 9 AFI Similitude 13,883 13,883 13,883 10 BDG Similitude 108,000 109,000 116,000 11 BDH Similitude 206,000* 215,000 219,000 12 BDI Variance 70,781* 69,549 72,022 13 BEG Similitude 194,347* 214,263 235,911 14 BEH Similitude 212,590* 247,240 249,496 15 BEI Similitude 84,255* 87,284 87,069 16 BFG Similitude 39,518 38,028 40,118 17 BFH Similitude 173,734* 176,797 205,022 18 BFI Similitude 159,342* 170,465 177,212 19 CDG Variance 366,936 486,241 305,087 20 CDH Similitude 5317,886 3700,657 7800,471 21 CDI Similitude 247,918* 262,761 271,130 22 CEG Similitude 8788,112 7867,652 13002,020 23 CEH Similitude 5688,727 3986,727 6185,273 24 CEI Similitude 513,026* 486,408 540,086 25 CFG Similitude 425,760 430,477 507,563 26 CFH Similitude 3068,198 3031,005 3816,252 27 CFI Similitude 612,973* 581,158 682,693

Tableau 8.3 - Valeur des indices d’optimalisation associés au regroupement « optimal » proposé par les trois approches de partitionnement pour chaque jeu de données simulé

Un maximum de mille échantillons est pigé lors de l’utilisation de l’approche probabiliste. De plus, lors de l’exécution de cette approche, on répète la procédure de formation de classe cent mille fois au maximum. Cent mille tentatives de changements de groupe sont effectuées quand l’approche markovienne est utilisée. Deux cents annulations successives de changements de groupe sont considérées comme étant suffisantes

pour qualifier un regroupement de localement optimal lors de l’exécution de l’approche markovienne. Le choix du nombre d’échantillons pigés et de répétitions du processus de formation de classes de l’approche probabiliste est tout à fait arbitraire. Il en est de même pour le nombre de tentatives de changements de groupe et pour le nombre d’annulations successives nécessaires à la convergence vers un partitionnement optimal lors de l’exécution de l’approche markovienne.

Le tableau 8.3 résume les indices d’optimisation associés au regroupement « optimal » proposé par les approches algorithmique, probabiliste et markovienne pour chaque ensemble de données simulé. Un astérisque accompagne parfois l'indice d'optimisation associé à l'approche algorithmique. Ceci signifie que ce ne sont pas toutes les combinaisons de tailles de sous-populations qui ont été considérées lors de l'exécution de l'approche algorithmique. On remarque également dans ce tableau que des indices d'optimalisation sont surlignés en vert et que d'autres indices sont surlignés en rouge. Les indices en vert sont ceux associés au regroupement le plus optimal trouvé pour un certain jeu de données. Inversement, les indices en rouge correspondent aux indices les moins optimaux proposés par une méthode de partitionnement pour un certain jeu de données.

Le tableau 8.3 permet de constater que les trois méthodes de classification développées dans ce mémoire proposent sensiblement le même regroupement optimal quand la population à classer est de faible taille. En effet, dans ces circonstances, les indices de similarité associés aux trois méthodes sont soit identiques, soit presque égaux.

Lorsque la taille de la population à classer se situe entre vingt-et-un et cent individus, il semble que l'approche probabiliste soit à privilégier lorsque le nombre de classes à créer est relativement grand dans un jeu de données contenant un petit nombre ou un nombre moyen de variables. En effet, dans ces circonstances, c'est cette approche qui propose les regroupements les plus optimaux lors des simulations. Quand le nombre de variables est élevé ou quand il y a peu ou moyennement de groupes à construire, il semble cependant plus efficace d'utiliser l'approche markovienne. On note également dans le tableau 8.3 que l'approche algorithmique donne les moins bons résultats pour sept des neuf ensembles de simulations associés à une population moyenne. Ne pas utiliser cette approche dans ces circonstances peut donc s'avérer être un choix judicieux.

Les simulations laissent croire que l'approche markovienne est l'approche à privilégier lorsque la population à classer est relativement grande. En effet, cette méthode est celle qui donne les meilleurs résultats pour les neuf ensembles de données contenant plus de cent observations. À l'opposé, l'approche probabiliste ne semble pas être très efficace dans ces circonstances. C'est la méthode proposant le moins bon regroupement optimal pour sept des neuf jeux de données contenant une grande population.

Après avoir analysé les résultats des simulations selon les caractéristiques des jeux de données à classer, on peut tenter de voir les forces et les faiblesses des trois méthodes de partitionnement à l'aide de ces simulations. L'approche algorithmique est très efficace pour des jeux de données contenant peu d'observations. Elle y propose effectivement le regroupement le plus optimal la grande majorité du temps. Ceci s'explique par le fait qu'il existe un petit nombre de regroupements possibles de n objets en c classes de même taille lorsque n est petit. En réalité, le nombre de partitionnements est souvent assez petit pour que le logiciel R puisse calculer l'ensemble des possibilités de regroupements. Il est par conséquent certain que la méthode algorithmique trouve le regroupement optimal. En effet, dans ces cas bien précis, l'une des combinaisons de tailles de sous-populations que l'on crée avec cette approche correspond à la totalité de la population à classer. Cependant, l'approche algorithmique n'est pas la méthode la plus performante lorsque la taille de la population à classer dépasse vingt individus. Dans cette situation, le nombre de combinaisons de tailles de sous-populations et le nombre de permutations possibles de ces tailles de sous-populations à l'intérieur d'une combinaison peuvent être très élevés. Ainsi, il peut être décourageant de vouloir classer le jeu de données selon toutes ces possibilités. Trouver le partitionnement relié à toutes les combinaisons et à toutes les permutations de tailles de sous-populations pourrait prendre des jours ou des semaines, surtout si le nombre de variables dans le jeu de données est grand. Ainsi, seulement certaines de ces combinaisons et de ces permutations peuvent être effectuées. Ceci diminue donc les chances pour l'approche algorithmique de trouver le regroupement optimal. De plus, lorsque la taille des groupes que l'on désire obtenir est relativement élevée, une seule taille de sous-populations est envisageable, soit la taille des groupes à créer. Par exemple, dans le vingt-cinquième jeu de données, on désire séparer la population en cinq classes de vingt-cinq individus. La plus petite taille de sous-populations que l'on peut considérer dans ce cas est vingt-cinq. Ainsi, la seule combinaison de tailles de sous-populations à utiliser dans cet exemple est {25, 25, 25, 25, 25}. Cette unique combinaison ne permet pas de considérer beaucoup de regroupements possibles de la population. Il est donc plus difficile de trouver le partitionnement optimal.

L'approche probabiliste est elle aussi très performante pour partitionner une petite population. En effet, elle propose le regroupement le plus optimal pour les neuf plus petites populations simulées. Une partie de l'efficacité de la méthode probabiliste dans ce cas précis s'explique de la même façon que pour les résultats optimaux de l'approche algorithmique. Plus particulièrement, lorsque la taille de la population est assez petite pour que le logiciel R puisse obtenir tous les regroupements de n individus en c classes de taille

k, la taille des échantillons tirés lors de l'exécution de l'approche probabiliste peut être égale à taille de la

population. Ainsi, il est certain que l'approche probabiliste trouve le partitionnement optimal de la population en tirant un seul échantillon. Dans le cas où le nombre d’individus à classer est petit, mais trop élevé pour pouvoir considérer la totalité des regroupements possibles, l'approche probabiliste est aussi très efficace. En effet, en classant optimalement un échantillon dont la taille n'est pas tellement plus élevée que le nombre d'individus de

la population, on obtient une excellente idée des observations qui se retrouvent ensemble dans le regroupement optimal. Il a été mentionné précédemment que l'approche probabiliste ne donne pas vraiment de bons résultats lorsque la population est grande. Cette situation n'est pas nécessairement due au trop grand nombre d'individus à classer. Ceci se produit plutôt en raison du fait que, dans bien des cas où la population à classer est volumineuse, la taille des groupes à créer peut être relativement grande. Dans ces circonstances, le nombre d'individus pigés dans les échantillons formés lors de l'exécution de l'approche probabiliste est égal à la taille des classes que l'on désire obtenir. Ainsi, un seul groupe est formé à l'intérieur de chaque échantillon. En d'autres mots, lorsque deux observations sont sélectionnées dans un même échantillon, il est certain qu'elles se retrouvent dans la même classe. Il faut se rappeler que la procédure de formation de groupes prévue dans l'approche probabiliste utilise la probabilité pour deux observations d'appartenir à la même classe, sachant qu'elles ont été tirées dans un même échantillon. Cette probabilité est égale à un pour toutes les combinaisons de deux observations. Par conséquent, dans le cas où la taille des classes à former est relativement grande, le processus de création de groupes de l'approche probabiliste équivaut à choisir aléatoirement un partitionnement de la population parmi l'ensemble des partitionnements possibles. Il est donc peu probable que l'on trouve le regroupement optimal de cette manière.

Parmi les trois procédures de classification décrites dans ce document, l'approche markovienne semble être la méthode la plus efficace. En effet, c'est la méthode proposant le regroupement le plus optimal pour vingt-cinq des vingt-sept jeux de données simulés. Comme il est expliqué dans le chapitre 7, le regroupement optimal suggéré par l'approche markovienne est tout simplement le partitionnement le plus optimal parmi l'ensemble des partitionnements localement optimaux visités par la chaîne de Markov de l'approche markovienne. Sachant cela, il est possible de déceler les forces et les faiblesses de l'approche markovienne. En fait, plus le nombre de regroupements possibles de n individus en c classes de même taille est élevé, plus il y a de chances que le nombre de regroupements localement optimaux soit élevé. Ainsi, si le nombre de regroupements possibles est faible, il risque d'y avoir aussi un faible nombre de regroupements localement optimaux. De ce fait, l'approche markovienne devrait converger rapidement vers le partitionnement globalement optimal. À l'opposé, si le nombre de regroupements possibles est très grand, la quantité de classements localement optimaux devrait être grande. Lorsque cela se produit, il faut s'assurer que l'approche markovienne effectue un très grand nombre d'échanges de groupe. Par exemple, il est possible de croire que cent mille tentatives d'échanges de groupe n'étaient pas suffisantes lors de la classification des douzième et quinzième jeux de données simulés. En effet, ces deux ensembles de données sont les seuls pour lesquels l'approche markovienne n'est pas la meilleure des trois méthodes. Cent mille échanges étaient probablement tout aussi insuffisants pour les jeux de données contenant une grande population, même si l'approche markovienne semble très efficace dans ce cas si l'on se fie au tableau 8.3. Si l'on y pense bien, l'efficacité apparente de la procédure markovienne existe peut-être seulement en raison de la très grande inefficacité des

approches algorithmique et probabiliste lorsque la taille de la population à classer est trop grande. Par contre, il est beaucoup plus facile d'augmenter l'efficacité de l'approche markovienne en de pareilles circonstances que d'augmenter celle des deux autres approches. En effet, pour l'approche markovienne, il suffit d'augmenter le nombre de tentatives d'échanges de groupe à plus de cent mille. Ceci prendra seulement quelques minutes de plus à exécuter par un ordinateur. Pour ce qui est des approches algorithmique et probabiliste, il est impossible d'améliorer leur efficacité.

Conclusion

Le déménagement de l'équipe des Trashers d'Atlanta vers Winnipeg implique une réorganisation des divisions de la Ligue nationale de hockey. Pour découvrir le « meilleur » remaniement de ces divisions, on peut se définir un critère et trouver le regroupement d'équipes qui optimise ce critère. Cependant, à l'aide du logiciel R, il est souvent impossible d'obtenir l'ensemble des possibilités de regroupements. Il faut donc tenter de trouver des méthodes de partitionnement permettant d'obtenir les divisions optimales. Plus généralement, ces méthodes peuvent être utilisées pour trouver le partitionnement optimal de n objets en c classes de cardinal k.

Deux indices sont utilisés dans ce document pour statuer qu'un regroupement est optimal. En fait, si toutes les variables d'intérêt sont numériques, le partitionnement optimal est celui minimisant la variance intragroupe. Dans le cas où au moins une variable d'intérêt est catégorique, la minimisation de la somme des similitudes à l'intérieur d'une classe est le critère d'optimisation à considérer. Pour illustrer les trois approches de classification développées dans le document, un jeu de données décrivant quatre caractéristiques géographiques des trente équipes de la Ligue nationale de hockey est utilisé. L'utilisation des trois techniques de partitionnement présentées dans ce mémoire est intéressante seulement s'il y a plus d'une variable d'intérêt caractérisant les individus à classer. En effet, il est relativement évident de trouver un regroupement optimal d'objets selon une seule variable d'intérêt.

L'approche algorithmique est la première approche développée dans ce document pour tenter de trouver le partitionnement optimal de n objets en c classes de même taille. Cette méthode de classification consiste à diviser la population en plusieurs sous-populations selon la valeur des variables d'intérêt. La taille de ces sous-populations doit être assez petite pour que l'on puisse obtenir explicitement le regroupement optimal à l'intérieur de ces sous-populations. On utilise ensuite le groupement optimal de chaque sous- population pour former un partitionnement « optimal » pour l'ensemble de la population. L'approche algorithmique est relativement simple à comprendre et à utiliser. Son fonctionnement est aussi très intuitif. Par contre, cette technique peut s'avérer être très longue à exécuter. En effet, il se peut que cette méthode prenne plusieurs heures, voire quelques jours, à être exécutée. De plus, elle ne permet pas nécessairement de découvrir le vrai regroupement optimal de l'ensemble de la population.

Plutôt que de diviser la population selon la valeur des variables d'intérêt, l'approche probabiliste utilise des échantillons aléatoires de cette population pour réduire le problème global de partitionnement en plusieurs sous-problèmes. En fait, cette méthode trouve le regroupement optimal que l'on peut former à

l'intérieur d'un grand nombre de ces échantillons. Pour que ceci soit possible, il faut que la taille des échantillons soit assez petite pour que le logiciel R puisse calculer l'ensemble des regroupements possibles de taille k dans les échantillons. À partir de tous les partitionnements optimaux obtenus, il est possible d'estimer la probabilité pour deux individus d'être classés dans un même groupe. On réunit ensuite les observations ayant une forte chance d'appartenir à une même classe pour obtenir un partitionnement « optimal » de la population en c classes de même cardinal. La procédure de classification probabiliste est facile à assimiler et à utiliser. Elle est aussi très intuitive. Puisqu'elle utilise l'ensemble des individus de la population lors de la formation des classes, l'approche probabiliste a de fortes chances de trouver le regroupement optimal. Cette affirmation est d'autant plus vraie si l'on répète un très grand nombre de fois la

Dans le document Regroupement optimal d'objets à l'intérieur d'un nombre imposé de classes de taille égale (Page 71-85)