• Aucun résultat trouvé

La procédure de partitionnement du chapitre 4 utilise la valeur prise par les variables d'intérêt pour réduire la question du partitionnement en plusieurs sous-questions. La méthode probabiliste utilise plutôt des échantillons aléatoires pour diviser ce type de problème en sous-problèmes. Plus particulièrement, au lieu de séparer la population en plusieurs sous-populations selon les valeurs des variables d'un jeu de données, l’approche probabiliste consiste à tirer au hasard un grand nombre d’échantillons indépendants de la population. Si la taille des échantillons est assez petite, il sera possible d’obtenir l’ensemble des façons de classer les individus de l’échantillon en groupes de k individus. Il sera ainsi possible de trouver les regroupements d’objets qui minimisent la variance intraclasse ou qui maximisent l’indice de similitude à l’intérieur de chaque échantillon.

Pour qu’elle puisse fonctionner, l’approche probabiliste doit être effectuée sous les mêmes deux contraintes que l’approche algorithmique. Plus particulièrement, la taille de chaque échantillon de la population à classer doit être relativement petite. En fait, il faut qu’un ordinateur soit capable de calculer l’ensemble des façons de classer les objets de l’échantillon dans des groupes de taille k. Pour savoir si la taille de l’échantillon est assez petite, il suffit d’utiliser la fonction setparts du logiciel R (HANKIN et WEST, 2007) de la même manière que lors de l’exécution de l’approche algorithmique. De plus, il faut que la taille des échantillons pigés soit un multiple de k, puisque l’on veut classer des objets dans des groupes dont la taille est égale à k.

Pour tenter de trouver le classement optimal des n objets à classer en c groupes de même cardinal, il est préférable de considérer la plus grande taille d’échantillon possible. Autrement dit, le cardinal t des échantillons de la méthode de classification probabiliste doit être le plus grand multiple de k pour lequel il est possible de calculer rapidement l’ensemble des possibilités de classer t objets dans des classes de taille k. Considérons, par exemple, le cas où l’on désire grouper les trente équipes de la Ligue nationale de hockey en six divisions de cinq équipes. Pour effectuer la méthode probabiliste, il faut d’abord trouver le plus grand multiple de cinq, disons t*, pour lequel il est possible de trouver l’ensemble des regroupements des t* équipes en groupes de taille k.

Après avoir trouvé la valeur de t*, il suffit de tirer un très grand nombre d’échantillons de taille t*. Pour chaque tirage d'un échantillon, on note les individus qui ont été sélectionnés. On trouve le regroupement optimal de ces objets en classes de taille k. Il faut ensuite noter les individus qui appartiennent à un même groupe. Ainsi, lorsque la procédure de sélection d'échantillons est terminée, il est possible de calculer la fréquence où deux individus ont été tirés dans un même échantillon. On connaît également le nombre de fois

26

où des objets ont été classés dans un même groupe lors de la procédure de regroupement optimal. Connaissant ces deux dernières quantités, on peut calculer la probabilité pour deux objets d'appartenir à une même classe sachant qu'ils ont été sélectionnés dans un même échantillon. Il est donc possible d’obtenir une matrice de dimensions n par n présentant les probabilités pour deux observations du jeu de données d’appartenir à une même classe.

On peut ensuite créer des regroupements d'objets en utilisant les probabilités calculées précédemment. Pour ce faire, il faut d’abord classer un premier individu choisi au hasard dans la population avec les k - 1 individus avec lequel il a la plus forte probabilité d’être classé. Il reste donc n - k objets à classer. On sélectionne ensuite aléatoirement un de ces individus. On classe celui-ci avec les k - 1 individus restants avec lesquels il a le plus de chances d’être regroupé. On répète ces étapes jusqu’à ce que les c groupes de k objets aient été formés. On obtient ainsi un premier regroupement des n objets en c classes. Si l’on veut tenter d’obtenir le regroupement optimal de nos objets, il suffit d’obtenir un très grand nombre de regroupements selon la méthode présentée dans le présent paragraphe.

Pour s’assurer de bien comprendre l’approche probabiliste décrite précédemment, on peut se doter d’une marche à suivre claire et précise.

1. Choix du nombre de classes à créer dans la population;

2. Obtention de la taille d’échantillon t correspondant au plus grand multiple de k pour lequel il est possible de considérer toutes les combinaisons de classement de t objets en groupes de taille k; 3. Tirage d’un échantillon de taille t;

4. Prise en note des individus ayant été pigés;

5. Obtention du partitionnement optimal à l'intérieur de l’échantillon selon le critère d’optimisation s’adaptant le mieux aux types de variables du jeu de données;

6. Prise en note des individus choisis aléatoirement ayant été classés dans une même partition; 7. Répétition de la troisième à la sixième étape un grand nombre de fois;

8. Calcul du nombre de fois où chaque individu a été sélectionné avec les autres individus de la population à classer;

9. Calcul du nombre de fois où chaque individu a été classé dans une même partition que les autres individus de la population à classer;

10. Obtention d’une matrice de dimensions n par n présentant la probabilité pour deux individus d’être classés dans une même partition sachant qu’ils ont été pigés dans un même échantillon;

11. Tirage aléatoire d’un individu de la population à classer;

12. Classement de cet individu avec les k - 1 individus avec lesquels il a le plus de chance d’être classé; 13. Tirage aléatoire d’un individu parmi les individus restants;

14. Répétition des étapes douze et treize jusqu’à ce qu’il n’y ait plus d’individus à classer; 15. Prise en note du partitionnement obtenu et du critère d'optimalisation correspondant; 16. Répétition des étapes onze à quinze pour un très grand nombre de fois;

17. Comparaison de l'ensemble des valeurs des critères d'optimisation obtenus et rétention du partitionnement optimisant le critère retenu.

Il est possible d’utiliser l’algorithme précédent pour tenter de trouver le regroupement des équipes de la Ligue nationale de hockey en six divisions de cinq équipes.

En utilisant la fonction setparts, on s’aperçoit que quinze est le plus grand multiple de cinq pour lequel il est possible pour le logiciel R de calculer rapidement l’ensemble de possibilités de former des groupes de cinq équipes. On pige donc un premier échantillon de quinze individus. Par la suite, on trouve le partitionnement optimal des quinze équipes sélectionnées en trois groupes de taille cinq. Le tableau 5.1 présente ce partitionnement optimal. La maximisation de l’indice de similarité est le critère d’optimalisation utilisé pour qualifier un partitionnement d’optimal. Les variables « Lattitude », « Longitude », « Pays » et « Province / État » du jeu de données du chapitre 2 jouent le rôle des variables d’intérêt.

Groupe 1 Groupe 2 Groupe 3

Boston Chicago Colorado

Columbus Edmonton Nashville New York (Islanders) Tampa Bay Phoenix

New York (Rangers) Toronto San Jose Washington Winnipeg St. Louis

Tableau 5.1 - Partitionnement optimal des objets sélectionnés lors d’un premier échantillon de quinze individus On sélectionne ensuite d’autres échantillons, disons 999 autres fois, pour obtenir mille échantillons de quinze équipes. Pour chacun de ces nouveaux échantillons, on considère également l’ensemble des possibilités de former trois classes de cinq équipes. On peut ainsi obtenir le partitionnement optimal des quinze équipes de chaque échantillon en trois groupes de cinq équipes. À l'annexe B, on retrouve trois matrices représentant respectivement le nombre de fois où les équipes ont été sélectionnées dans un même échantillon, le nombre de fois où les équipes sélectionnées dans un même échantillon ont été classées dans un même groupe et la probabilité que les équipes sélectionnées dans un même échantillon soient classées dans un même groupe.

Selon l’algorithme, il est maintenant temps de choisir aléatoirement une équipe parmi les trente que l’on désire grouper en six divisions de cinq équipes. On peut, par exemple, tirer l’équipe d’Edmonton. Selon le tableau B.3 présent à l’annexe B, ce sont les équipes de Calgary, Montréal, Ottawa et Winnipeg qui ont le plus de chances d’être classées avec l’équipe d’Edmonton. On obtient ainsi notre première division de cinq équipes. Parmi les vingt-cinq équipes restantes, on pige une deuxième équipe. On obtient l’équipe de Pittsburgh. Toujours selon le tableau B.3, l’équipe du New Jersey, les deux équipes de New York et l’équipe de Philadelphie sont celles, parmi les équipes restantes, pour lesquelles la probabilité est la plus élevée d’être groupées avec l’équipe de Pittsburgh. Une deuxième division est ainsi formée. L’équipe de Washington est ensuite sélectionnée. Les équipes de Boston, de Buffalo, de la Caroline et de Columbus sont ensuite classées dans la même division que l’équipe de Washington vu leur forte probabilité d’appartenir au même groupe que

28

cette équipe. Il ne reste maintenant que quinze équipes n’appartenant pas à une division. Parmi celles-ci, il est possible de sélectionner aléatoirement l’équipe du Colorado. Les équipes ayant la plus forte probabilité d’appartenir à la même classe que cette équipe sont les équipes d’Anaheim, de Los Angeles, de Phoenix et de San Jose. Les cinq équipes précédentes forment la quatrième division. On tire enfin au hasard une dernière équipe, soit l’équipe de Dallas. Celle-ci est placée dans la même division que les équipes de la Floride, de Nashville, de St. Louis et de Tampa Bay. Après avoir groupé ces cinq équipes, il ne reste plus que cinq équipes à classer dans une dernière division. Cette dernière est composée des équipes de Chicago, de Detroit, du Minnesota, de Toronto et de Vancouver. Le partitionnement ainsi obtenu est résumé dans le tableau 5.2.

Division 1 Division 2 Division 3 Division 4 Division 5 Division 6

Anaheim Boston Calgary Chicago Dallas New Jersey

Colorado Buffalo Edmonton Detroit Floride New York (Islanders) Los Angeles Caroline Montréal Minnesota Nashville New York (Rangers)

Phoenix Columbus Ottawa Toronto St. Louis Philadelphie San Jose Washington Winnipeg Vancouver Tampa Bay Pittsburgh Tableau 5.2 - Divisions obtenues lors d’un premier partitionnement basé sur l’approche probabiliste

L'indice de similarité intraclasse associé à ce partitionnement s'élève à 92,615. On peut ensuite répéter à plusieurs reprises la procédure de partitionnement. Par exemple, si l'on réitère les étapes du paragraphe précédent cent mille fois, on obtient cent mille indices de similarité associés à cent mille partitionnements. Parmi tous ces partitionnements, celui qui est associé au plus grand indice de similarité est présenté dans le tableau 5.3. Cet indice s'élève à 95,645. Ainsi, si l'on compare cet indice à tous ceux obtenus par l'approche algorithmique, on s'aperçoit que l’indice maximal obtenu par l’approche probabiliste est égal à celui obtenu par la méthode algorithmique. Ainsi, le partitionnement « optimal » ci-dessous est équivalent à celui suggéré par la méthode présentée dans le chapitre 4.

Division 1 Division 2 Division 3 Division 4 Division 5 Division 6

Anaheim Boston Calgary Caroline Chicago Columbus

Colorado Buffalo Edmonton Dallas Detroit Philadelphie

Los Angeles New Jersey Montréal Floride Minnesota Pittsburgh Phoenix New York (Islanders) Vancouver Nashville Ottawa St. Louis San Jose New York (Rangers) Winnipeg Tampa Bay Toronto Washington Tableau 5.3 - Divisions optimales d’un point de vue de la maximisation de l'indice de similitude intraclasse

obtenues par l'approche probabiliste

Comme pour l’approche algorithmique, on peut illustrer la méthode probabiliste en ne traitant que les variables continues du jeu de données décrivant la position géographique des équipes de la Ligue nationale de hockey. L’approche probabiliste pourra ainsi être utilisée dans un cas où le critère d’optimisation serait la minimisation de la variance intragroupe basée sur les variables « Latitude » et « Longitude ». Pareillement au

cas de la maximisation de l’indice de similitude intraclasse, on peut piger mille échantillons de quinze individus. À partir de cet échantillon, on forme les trois groupes de cinq individus minimisant la variance intraclasse. Pour chaque échantillon, on prend note des observations se trouvant dans l’échantillon. On retient également les individus qui ont été classés dans une même partition. L’annexe B présente, sous forme matricielle, le nombre d’échantillons contenant chaque paire d'équipes dans le tableau B.4, le nombre de fois où deux équipes d’un même échantillon ont été groupées dans une même classe dans le tableau B.5 et la probabilité pour deux équipes d’un même échantillon d’être classées dans une même partition dans le tableau B.6.

À l’aide du tableau B.6, il est possible d’obtenir cent mille partitionnements des trente équipes de la Ligue nationale de hockey en six divisions de cinq équipes. On compare ensuite la variance intraclasse de ces cent mille regroupements. On obtient ainsi le partitionnement qui possède la plus petite variance. En fait, la variance minimale observée s’élève à 8,284. Le tableau 5.4 présente le regroupement associé à cette variance intraclasse « optimale ».

Division 1 Division 2 Division 3 Division 4 Division 5 Division 6

Anaheim Boston Calgary Caroline Chicago New Jersey

Colorado Buffalo Edmonton Dallas Columbus New York (Islanders) Los Angeles Montréal Minnesota Floride Detroit New York (Rangers)

Phoenix Ottawa Vancouver Nashville Pittsburgh Philadelphie San Jose Toronto Winnipeg Tampa Bay St. Louis Washington

Tableau 5.4 - Divisions optimales d’un point de vue de la minimisation de la variance intraclasse obtenues par l'approche probabiliste

Si l’on compare la valeur du critère d’optimisation du paragraphe précédent à celle obtenue par l’approche algorithmique, on s’aperçoit que le partitionnement proposé par l’approche probabiliste semble meilleur que celui suggéré par la méthode décrite au chapitre 4 dans le tableau 4.8.

L'approche probabiliste possède sensiblement les mêmes avantages que la méthode algorithmique. En effet, cette deuxième approche de partitionnement est, elle aussi, relativement simple à exécuter. Il suffit en fait de suivre les dix-sept étapes présentées précédemment dans ce chapitre pour mettre en pratique la méthode. De plus, la compréhension de l'approche probabiliste ne nécessite aucune connaissance avancée dans les domaines de la statistique et des mathématiques. Par conséquent, cette méthode est à la portée de toutes les personnes désirant classer n objets en c classes de même taille k. La méthode probabiliste est elle aussi assez intuitive, et ce, pour deux principales raisons. D'abord, lors de l'exécution des étapes trois à dix de la méthode, on réduit à plusieurs reprises un problème de partitionnement impossible à résoudre rapidement en plusieurs sous-problèmes. Ensuite, la procédure de partitionnement effectuée lors des étapes onze à quatorze de la méthode utilise une matrice présentant une probabilité pour chaque individu d'appartenir à la

30

même classe que les autres individus à grouper. Ainsi, lorsque vient le temps de regrouper les observations à classer, on réunit les observations ayant une forte probabilité d'être classées ensemble. Du même coup, on sépare les observations pour lesquelles les chances d'appartenir à un même groupe sont faibles. L'approche probabiliste bénéficie enfin de quelques avantages que ne possède pas l'approche algorithmique. À vrai dire, cette méthode est facile à exécuter même si certaines variables sont catégoriques. De plus, le nombre de variables d’intérêt dans le jeu de données influence très peu le temps nécessaire à l’exécution de cette méthode. Enfin, la procédure de création des classes de l'approche probabiliste utilise l'ensemble des individus du jeu de données. Ainsi, si les étapes onze à quinze sont répétées une infinité de fois, il est certain que le regroupement optimal obtenu par cette approche devrait être celui associé à l'optimum global des critères d'optimalisation. Donc, si l'on reproduit ces cinq étapes un très grand nombre de fois, les chances de trouver le regroupement optimal sont fortes.

Il faut par contre souligner qu'il peut être très long d'obtenir le regroupement optimal à l'intérieur d'un grand nombre d'échantillons aux étapes trois à sept de la méthode probabiliste. Par exemple, il a fallu près de neuf heures à un ordinateur équipé d’un processeur de 4,1 gigahertz pour obtenir les mille partitionnements optimaux associés aux mille échantillons tirés lors de l'exécution de la méthode probabiliste dans le cas où l'on désirait maximiser l'indice de similitude intraclasse. Cependant, aussitôt que l'étape sept est terminée, la méthode de classification développée dans le présent chapitre est très rapide à exécuter. De plus, la méthode probabiliste ne peut être utilisée si la taille des classes que l'on veut créer est relativement grande. Pour pouvoir se convaincre de ce fait, rappelons que k est la taille des groupes à obtenir et que t est le plus grand multiple de k pour lequel il est envisageable de calculer l'ensemble des possibilités de classer t objets en un certain nombre de classes de taille k. Si k est trop grand, la valeur de t sera égale à k. Ainsi, on ne pourra former qu'une seule classe dans l'échantillon d'observations que l'on pigera à la troisième étape de la méthode probabiliste. Cette situation entraînera le fait que toutes les observations sélectionnées seront classées dans le même groupe. Conséquemment, la probabilité pour deux individus de se retrouver dans le même groupe sachant qu'ils ont été pigés dans un même échantillon sera égale à un, et ce, pour toutes les paires d'individus. Il devient donc inutile d'entreprendre la procédure de partitionnement à l'aide des probabilités calculées à la dixième étape, puisque celles-ci sont toutes identiques. En fait, classer les individus du jeu de données en considérant ces probabilités équivaut à laisser le hasard former les classes. Trouver le classement optimal est donc très peu probable.

Documents relatifs