• Aucun résultat trouvé

Chapitre 2. Revue de littérature

2.10. Revue de littérature sur les classements

La considération des égalités dans les classements n’est pas récente. En effet, en 1945 Kendall en parle déjà dans [79]. Il propose de caractériser les classements qui contiennent des éléments à égalité en assignant pour chaque élément un rang qui est la moyenne des positions des éléments avec qui il est à égalité. Par exemple, pour le classement [[1,3],[5],[6,7,8],[4],[2]] les positions littérales (de gauche à droite) sont [[1,2],[3],[4,5,6],[7],[8]]. Quand la moyenne est appliquée pour chaque ensemble d’élé- ments à égalité, on a les rangs caractéristiques suivantes : [[11

2,1 1

2],[3],[5,5,5],[7],[8]].

Alors le rang caractéristique de l’élément 3 est 11

2, celui de l’élément 8 est 5 alors que

celui de l’élément 2 est 8. Kendall poursuit avec des mesures de corrélation entre des classements en utilisant cette caractérisation des classements.

Ce n’est que quelques décennies plus tard que le sujet est repris et que la distance de Kendall-τ généralisée, qu’on utilise maintenant, fait son apparition.

Dans [56], Dwork et al. traitent les classements incomplets sans égalités qu’ils nomment "listes partielles"(partial lists). Il généralisent le score de Kemeny en utilisant la projection pour calculer la distance de Kendall-τ entre deux listes partielles qui ne partagent pas les mêmes éléments. Cette mesure est nommée distance de Kendall-τ induite (induced

Kendall-tau distance) même si elle n’est pas une mesure de distance. La distance de

Kendall-τ induite se calcule entre un classement complet sans égalité T et un classement

R sans égalité. Dans la première étape on effectue la projection TR de T sur l’ensemble

des éléments de R. Dans la deuxième étape on calcule la distance de Kendall-τ habituelle

dKT(TR,R) où TRet R peuvent être considérés comme des permutations car ils partagent

les mêmes éléments et ne contiennent pas d’égalité.

Dans l’article [59] de Fagin et al., une première étude est réalisée sur les classements et la généralisation du consensus de Kemeny. Dans ce travail très théorique, la distance de Kendall-τ généralisée est introduite dans laquelle une pénalité p = 12 est donné pour une égalité non-respectée. Une généralisation de la distance de Spearman [54] est aussi présenté où entre deux classements, on additionne pour chaque élément les différences de positions des paniers qui les contiennent. Par la suite, la métrique de Hausdorff [47] est appliquée à ces deux distances et les liens entre ces deux métriques sont discutés. Il est montré que ces deux métriques sont de la même classe d’équivalence et qu’une solution minimisante pour une est une approximation d’un facteur constant pour l’autre. Ainsi, les deux métriques se partagent les mêmes heuristiques comme approximation de facteur constant. Finalement, un algorithme d’approximation basé sur la programmation

dynamique, et sur les positions des éléments FaginDyn, est décrit pour minimiser ces métriques prenant seulement des classements complets en entrée.

Dans [2], Ailon traite des classements partiels avec égalités. Il s’intéresse particulière- ment aux top-m lists et aux p-rating. Les top-m lists sont des classements incomplets qui ne contiennent pas d’égalité. Les éléments retrouvés ordonnés dans ces classements sont les m éléments de l’univers U jugés les plus importants selon une méthode de classement, d’où le nom de top-m lists. Un exemple d’application serait la liste des m sites web don- nées par les k premières pages résultats d’un moteur de recherche. Les autres sites web, qui n’apparaissent pas sur cette liste sont jugés moins pertinents. Les p-rating sont des classements incomplets pouvant contenir des égalités. Un exemple d’application serait un classement ne contenant que les objets (restaurants, parcs, etc.) ayant une mention de 3, 4 ou 5 étoiles. Cela donne un classement de 3 paniers. Les autres objets sont jugés non intéressants. La mesure introduite est une autre généralisation de la distance de Kendall-τ qui compte entre deux classements r1 et r2le nombre de paires d’éléments u et v telles que

u≺ v dans r1 et v≺ u dans r2. C’est-à-dire le nombre de paires dont l’ordre avant-après est

inversé. Cela revient à utiliser une pénalité de p= 0 dans la définition 1.3.5. Notez qu’on utilise le terme "mesure" car on ne peut plus parler de distance, l’inégalité du triangle n’étant pas respectée (avec r1 = [[1],[2]], r2 = [[1,2]] et r3 = [[2],[1]] on a m(r1,r2) = 0,

m(r2,r3) = 0 mais m(r1,r3) = 1). Dans ce modèle, les égalités sont considérées comme un

manque d’information dans lequel l’électeur ne peut pas différencier deux ou plusieurs candidats. Le problème d’agrégation consiste ici à trouver une permutation qui minimise la somme des mesures généralisées aux classements de l’ensemble d’entrée R. L’opération de "bris" (shattering) consiste à créer un classement rs à partir d’un classement r1 et d’un

autre classement r2 tel que rs reprend l’ordre des paires ordonnées avant-après dans r1 et

quand elles sont à égalité dans r1, rsreprend l’ordre de ces paires dans r2(noté rs← r2∗r1).

Un algorithme de 2-approximation, RepeatChoice, qui généralise l’algorithme Pick-a- Perm [117] est présenté : un classement, qui au départ consiste en un seul grand panier contenant tous les éléments, est itérativement "brisé" (shattered) avec tous les classements d’entrée (r← r

i∗ r, ri ∈ R). Un deuxième algorithme de 32-approximation "Ailon 3/2"

ou LpKwikSort se base sur la relaxation du modèle ILP. Dans cet algorithme, le modèle standard ILP relaxé est résolu. Les variables xuv∈ [0,1], qui désignent l’ordre entre deux

éléments dans la permutations, sont arrondies au sixième près à 0 ou à 1, celles qui sont

1 6 < xuv ≤ 5 6 deviennent 3 2xuv− 1

place tous les éléments soit à gauche soit à droite du pivot de façon probabiliste en fonc- tion des variables arrondies. L’algorithme est appelé récursivement sur la partie gauche et la partie droite. Finalement, le travail discute de la complexité du problème et de d’autres métriques sur les classements.

Dans [19, 21], Betzler et al. présentent des algorithmes à paramètres fixes pour le problème du consensus de classements incomplets et avec égalités. Leur fonction de coût utilise p = 1/2 comme pénalité pour défaire une égalité. De plus, si un élément d’une paire n’est pas présent dans un classement alors cette paire est ignorée de la distance de Kendall-τ généralisée. Le problème de la médiane de classements avec égalité peut être résolu en O((6d+2)!×dlogd×nm) et le problème de la médiane de classements incomplets peut être résolu en O((1.48k)k× poly(n,m)) (voir Section2.6 pour les paramètres).

Une première heuristique, nommée BioConsert, spécialisée pour le problème du consensus de classements est donnée dans [40]. Dans ce travail, la distance de Kendall-τ généralisée est utilisée avec le paramètre 0< p ≤ 1 comme pénalité de défaire des égalités. Le procédé d’unification est utilisé pour compléter les classements incomplets. Un panier est rajouté à la fin de chaque classement, contenant tous les éléments manquants. L’heuris- tique part d’un classement d’entrée comme classement de départ et effectue itérativement des opérations sur ce classement pour diminuer le score de Kemeny généralisé. Deux types d’opérations sont permises : 1) déplacer un élément d’un panier à un autre (changeBucket) et 2) créer un nouveau panier et déplacer un élément d’un panier existant dans ce panier (addBucket). Lorsqu’aucune opération diminuant le score est possible, l’heuristique garde le classement résultat comme potentiel candidat de consensus et recommence le processus avec un nouveau classement d’entrée. Lorsque chacun des classements d’entrée a été uti- lisé comme point de départ, l’heuristique retourne le classement candidat avec le score de Kemeny le plus bas. L’heuristique a été testé sur des petits classements aléatoires et sur des données biologiques. Les donnés biologiques proviennent de deux centres médicaux et sont des ensembles de quatre classements de gènes ayant trait à des maladies (voir Section 3.2). Des tests démontrent la supériorité de cette heuristique sur celles de [2] et de [59].

Dans [31], un premier travail de comparaison pour ce problème du consensus de clas- sements utilisant la distance de Kendall-τ généralisée est présentée dans laquelle une pénalité p = 1 est donné pour briser une égalité et le score de Kemeny entre un classe- ment et un ensemble de classement est la somme des distances généralisées. Il est montré que le problème n’est pas plus facile que celui de la médiane de permutations en utili- sant un lemme d’un rapport interne [29]. Des adaptations de nombreuses heuristiques

du problème de la médiane de permutations au problème du consensus de classements sont étudiées. De plus, un important travail de classification et de comparaison entre ces heuristiques est fait. Il en ressort que très peu d’heuristiques existantes sont adaptables et celles qui le sont, sont difficilement applicables sur des instances de grandes tailles. Un premier modèle de programmation en nombres entiers (ILP) est donné pour ce problème (Voir Section 1.3.4) et une implémentation est faite utilisant CPLEX. L’article offre aussi un important ensemble de jeux de données (réelles ou synthétiques) sur lesquelles les tests sont fait. Finalement, l’article fait des recommandations sur le choix d’heuristiques ou d’algorithmes en fonction du temps alloué, de la qualité attendue du consensus, de la taille et de la similarité des données. Les méthodes qui en sortent gagnantes sont l’algo- rithme exact (ILP), l’heuristique BioConsert [40] et les généralisations des heuristiques KwikSort, BordaCount et Copeland.