Formats des données - Données et formats

Chapitre 2. Revue de littérature

2.11. Données et formats

2.11.3. Formats des données

Plusieurs formats de données sont retrouvés dans la littérature du problème de la médiane. Certains sont conçus pour accepter les classements avec égalités et certains peuvent contenir des identifiants non-numériques.

L’exemple d’introduction présenté à la Figure 1.1 sera utilisé pour présenter chaque format. Les cinq activités suivantes sont ordonnées par trois personnes : 1) faire un projet de peinture, 2) jouer au ballon, 3) aller au cinéma, 4) visiter le centre des sciences et 5) aller au parc nature. Les mots surlignés représentent les identifiants non-numériques et les identifiants numériques précèdent chaque activité.

Le premier format l’ensemble de permutations est un format simple qui provient de la notation mathématique d’un ensemble de permutations :

{[4,5,1,2,3],[1,5,3,4,2],[5,2,3,4,1]}

Un version simplifiée et plus compacte omet les virgules et les crochets dans les permutations :

{45123,15342,52341}

Ce format est utilisé dans [26] et [96].

Le seconde format, l’ensemble de classements, généralise le premier format aux clas- sements. Celui-ci peut contenir des éléments à égalité et s’écrit comme un ensemble de liste ordonnées d’ensembles d’éléments :

{[{4},{5},{1},{2},{3}],[{1},{5},{3},{4},{2}],[{5},{2},{3},{4},{1}]}

On retrouve ce format dans le projet BioConsert [40]http://bioguide-project.net/bioconsert/

Le troisième format est celui de la liste de classements specifiés. Dans ce format, chaque classement a un identifiant propre et les identifiants non-numériques sont acceptés :

R1 := [[Sciences],[Nature],[Peinture],[Ballon],[Cinéma]] R2 := [[Peinture],[Nature],[Cinéma],[Sciences],[Ballon]] R3 := [[Nature],[Ballon],[Cinéma],[Sciences],[Peinture]]

La version numérique est :

R1 := [[4],[5],[1],[2],[3]] R2 := [[1],[5],[3],[4],[2]] R3 := [[5],[2],[3],[4],[1]]

On retrouve ce format sur la plateforme CoRankCo disponible à l’adresse

https://corankco.lri.fr/.

Le quatrième format est la liste de préférences. Dans ce format, chaque ligne représente un vote ou une permutation et les éléments sont séparés par des signes > représentant la préférence. Les identifiants non-numériques sont aussi acceptés :

Sciences > Nature > Peinture > Ballon > Cinéma Peinture > Nature > Cinéma > Sciences > Ballon Nature > Ballon > Cinéma > Sciences > Peinture

La version numérique est :

4 > 5 > 1 > 2 > 3 1 > 5 > 3 > 4 > 2 5 > 2 > 3 > 4 > 1

Ce format est retrouvé dans [18].

Le dernier format est celui des élections PrefLib [91] http://www.preflib.org/ (voir Section 2.11.1). Il y a quatre variantes de type de données qui nous intéressent ici :

— "soi" ordres stricts, incomplets — "toc" ordres avec égalités, complets — "toi" ordres avec égalités, incomplets

Les ensembles de permutations sont de type "soc".

Le format de PrefLib est un peu plus élaboré que les autres formats. La première ligne d’un fichier indique le nombre n de candidats (éléments). Les candidats sont ensuite énu- mérés avec des identifiants numériques associés. La ligne suivante indique le nombre total d’électeurs m, la somme des votes et le nombre de votes uniques. Dans notre cas, le nombre total d’électeurs et la somme des votes sont identiques, alors que pour d’autres types de données ces deux mesures peuvent être différentes (par exemple, quand les électeurs ex- priment plusieurs votes). Chacun des différent votes uniques est ensuite énuméré, précédé par le nombre de fois où ce vote apparaît dans l’élection. On peut considérer ce nombre comme le poids associé au vote.

nombre de candidats ID, nom du 1er candidat ID, nom du 2e candidat ...

nombre total d’électeurs, somme des votes, nombre de votes uniques nombre de votes, 1er vote

nombre de votes, 2e vote ...

Pour notre exemple d’activités, cela donne :

5 1, Peinture 2, Ballon 3, Cinéma 4, Sciences 5, Nature 3,3,3 1,4,5,1,2,3

1,1,5,3,4,2 1,5,2,3,4,1

Pour les votes avec égalités (toc, toi), les éléments à égalité vont se retrouver dans le même ensemble dénoté par des accolades (i.e. 1,4,{2,3,5}). Pour les votes incomplets (soi, toi), les éléments absents ne sont simplement pas présentés dans ces votes.

Dans cette section ont été présentées plusieurs sources de données, quelles soient de provenance réelle ou artificielle, et différents formats utilisés pour représenter ces données. Le chapitre présent a fait un tour de travaux qui ont été réalisés mais seulement au niveau de la compréhension et de la résolution du problème. Le prochain chapitre va, quant à lui, présenter diverses applications du problème de la médiane de permutations et du consensus de classements qui originent de plusieurs domaines en sciences.

Schalekamp et van Ali et Meila

Algorithme Articles Zuylen 2009 [117] 2012 [6]

Pick-a-perm [117] x x BestOfA (best-of-k) [117] x x Random permutation [117] x Borda [27] x x Copeland [45] x x CopelandWins [42] Schulze [119] RankedPairs [130] Plurality [112] Raynaud [112] Minimax [112] MC4 [56] x x MC4Approx [117] x x Footrule aggregation [54] x x MEDRank [61] CSS [39] x

Greedy graph heuristic [51]

KwikSort [3] x x DetQuickSort [117] x x LogQuickSort [117] x x MergeSort [117] x x InsertionSort [117] x x Chanas [35] x x ChanasBoth [41] Beam search [92] x

LPRelaxation (borne inf.) [6, 44, 117] x x

LpKwikSort (Ailon-3/2) [2] FindMedian [25] VNS [15] QUICK [8] FAST [8] Subiterative Convergence [12] Greedy Algorithm [12] FUR [12] SIgFUR [12] GA [4] DECoR [49] Simulated Annealing [97]

Tableau 2. III. Récapitulatif des heuristiques présentées dans la Section 2.4. Les "x" indiquent les heuristiques comparées dans les travaux de Scha- lekamp et van Zuylen 2009 [117] et de Ali et Meila 2012 [6].

Schalekamp et van Ali et Meila

Algorithme Articles Zuylen 2009 [117] 2012 [6]

LocalSearch [6, 117] x x

IS [6, 117] x x

MS [6, 117] x x

KS [6, 117] x x

2-opt (Local Kemenization) [56]

3-opt et k-opt [95]

Tableau 2. IV. Récapitulatif des heuristiques de raffinement présentées dans la Section 2.4. Les "x" indiquent les heuristiques comparées dans les travaux de Schalekamp et van Zuylen 2009 [117] et de Ali et Meila 2012 [6].

Schalekamp et van Ali et Meila

Algorithme Articles Zuylen 2009 [117] 2012 [6]

branch-and-bound [92] x

branch-and-bound [44] branch-and-bound [48] branch-and-bound [97]

ILP avec CPLEX [6, 44, 117] x x

Tableau 2. V. Récapitulatif des algorithmes exactes présentées dans la Section2.3. Les "x" indiquent les algorithmes comparés dans les travaux de Schalekamp et van Zuylen 2009 [117] et de Ali et Meila 2012 [6].

Dans le document Étude algorithmique et combinatoire de la méthode de Kemeny-Young et du consensus de classements (Page 80-86)