Cas d’étude : enquête de recensement de 1990 aux États-Unis Ce cas d’étude utilise un jeu de données public composé d’un échantillon de l’enquête de

Performance des traitements

5.5 Cas d’étude : enquête de recensement de 1990 aux États-Unis Ce cas d’étude utilise un jeu de données public composé d’un échantillon de l’enquête de

recen-sement de 1990 aux États-Unis, mis à disposition sur le répertoire de l’UCI Machine Learning [48].

Ce jeu de données est un échantillonnage à 1 % des archives du Public Use Microdata Samples relatives à ce recensement et comporte 125 dimensions pour environ 2,50 millions d’entités (individus). La plupart de ces dimensions sont de nature binaire (p. ex. Worked in 1989, Language Other Than

English), d’autres sont catégoriels (p. ex. Place of Birth), ordinaux (p. ex. Ability to Speak English) ou numériques (p. ex. Age). Plusieurs hiérarchies sont fournies pour certains dimensions catégoriels, notamment pour le pays de naissance (classification des zones géographiques à plusieurs échelles : continents, etc). Afin de montrer l’usage et l’efficacité de la représentation focus+contexte et de la navigation hiérarchique, nous sélectionnons principalement des dimensions avec ce type de hiérarchie ainsi que des dimensions numériques. Nous nous intéressons à l’ensemble des individus de l’échantillon et sélectionnons les huit dimensions suivant : le pays de naissance

Figure 5.35 – Vue initiale 2,50 millions d’individus et 8 dimensions.

Figure 5.36 – Vue résultant de trois ouvertures sur les trois premiers axes, respectivement sur « United States » (POB), « Manufacturing » (INDUSTRY) et « Managerial and professional specialty occupations » (OCCUPY).

(POB), le secteur (INDUSTRY) et l’intitulé de leur poste (OCCUPY) s’ils travaillent, leur âge (AGE),

leur genre (SEX), leur nombre d’enfants (FERTIL), et leur niveau de pauvreté (POVERTY).

Dans ce cas d’étude, nous nous proposons d’étudier la relation entre des emplois, selon les

dimensionsOCCUPYetINDUSTRY, et des données démographiques sur le modèle d’une étude

menée par Vosough et al. [161] sur un jeu de données similaire. La ﬁgure5.35présente la vue

initiale : les dimensionsPOB,INDUSTRY, etOCCUPYsont agrégées selon les hiérarchies fournies.

Les catégoriesSEXetFERTILsont plates, avec deux valeurs pourSEX, et 14 valeurs pourFERTIL

dont la valeur la plus représentée est une valeur de substitution (n/a) pour les hommes. Les

dimensionsAGEetPOVERTYsont numériques et regroupées hiérarchiquement de façon à obtenir

une arité de 15 pour les arbres résultants. La vue initiale présente une vue générale de la distri-bution des données sur chaque dimension ainsi qu’entre les paires de dimensions représentées, avec la hauteur des nœuds et l’épaisseur des arêtes codant pour le nombre d’individus inclus dans l’agrégat. La vue initiale montre immédiatement que la plupart des individus de l’échantillon sont nés aux États-Unis, représentés par un nœud par état, ce qui n’est pas surprenant. On remarque que l’échantillon semble avoir été conçu de manière à inclure autant de femmes que d’hommes, et ce également au sein de chaque catégorie d’âge comme le suggère l’allure des arêtes entre les

dimensionsSEXetAGE.

Sur la ﬁgure5.36, nous avons augmenté le détail sur les trois premiers axes, respectivement

sur les individus nés au États-Unis, le secteur de la confection de produits et les professions de directions et de spécialistes. Cela permet de sélectionner le lien correspondant aux individus occupant des positions de spécialité professionnelle dans la confection de biens durables. La

ﬁgure5.37représente le résultat de cette sélection qui couvre une très faible portion des individus

de l’échantillon. Lorsque les sélections sont de faible taille par rapport aux nœuds et liens de la représentation, la jauge montrant la proportion de chaque nœuds/liens couverte par la sélection est peu visible. Dans ce cas, le survol des nœuds et liens donne accès aux valeurs numériques correspondant aux jauges.

5.6 conclusion 101

Figure 5.37 – Sélection des individus occupant des postes de spécialistes dans le secteur de la confection de biens durables par clic sur un lien entre les dimensionsINDUSTRYetOCCUPY. Le survol du nœud pour le genre féminin indique qu’environ 16 % de ses individus sont des femmes.

Figure 5.38 – Sélection des ingénieurs dans le secteur de la confection de biens durables. Le survol du nœud pour le genre féminin indique qu’environ 8 % de ces individus sont des femmes.

La ﬁgure5.37montre que les individus sélectionnés ont plus de 14 ans, ce qui est cohérent avec

le fait qu’ils travaillent. On peut aussi voir que cette population est constituée d’environ 16,21 % de femmes.

Après quelques étapes de drill-down supplémentaires sur l’axeOCCUPY, le focus est établi sur

la catégorie des ingénieurs, architectes et géomètres-experts. Nous sélectionnons les individus occupant des postes d’ingénieur dans le domaine de confection de biens durables en cliquant sur le

lien connectant les deux nœuds correspondant ce qui résulte en la vue de la ﬁgure5.38. Les femmes

représentent 7,64 % de cette sélection comme indique par le survol sur le nœud correspondant et n’ont pas plus de six enfants à la différence de celle de la catégorie professionnelle parente dans la

hiérarchie, représentée sur la ﬁgure précédente (cf. ﬁgure5.37).

En rafﬁnant encore la sélection aux femmes exclusivement, on peut noter que la plupart ont

entre 21 et 34 ans et que la moitié n’ont pas d’enfants (ﬁgure5.39). La faible portion des femmes

dans ce secteur est aussi visible par la couleur du lien connectant le nœud de confection de biens durables et celui des ingénieurs. En comparant cette vue et la vue précédente, on peut également voir que certains hommes de cette catégorie professionnelle sont plus âgés que ses femmes : en effet, 60 % des femmes de cette sélection ont entre 21 et 34 ans.

5.6 Conclusion

Dans ce chapitre, nous avons proposé une approche combinant l’agrégation et le calcul des interactions sur une infrastructure distribuée pour répondre au besoin de scalabilité visuelle et computationnelle dans l’exploration de grands jeux de données multi-dimensionnelles.

Nous avons introduit un formalisme utilisant un graphe pour décrire les représentations de coordonnées parallèles abstraites et leurs interactions. Le formalisme permet d’exprimer

Figure 5.39 – Sélection des femmes ingénieures dans le domaine de la confection de produits durables. Plus de 50 % de ces femmes n’ont pas d’enfants.

plusieurs formes d’agrégation et d’interactions existantes et d’évaluer le nombre d’états qu’elles induisent ainsi que la taille des abstractions.

Pour remédier aux limites des représentations abstraites contraignant l’analyse à un unique niveau de granularité, nous avons proposé une interaction de navigation hiérarchique associée à une vue focus+contexte qui utilise l’agrégation du contexte pour maintenir un nombre borné d’éléments visuels et la déformation spatiale pour préserver la visibilité des niveaux de détail les plus ﬁns, ce quel que soit le niveau d’exploration. Ces deux techniques permettent l’exploration des données jusqu’au niveau de détail le plus ﬁn, celui des entités.

Les deux systèmes présentés (avec et sans navigation hiérarchique) couvrent plusieurs tech-niques pour le passage à l’échelle computationnel : le pré-calcul, le calcul à la volée pas un système d’indexation distribuée (Elasticsearch) et par une application ad hoc (Spark), ainsi que le calcul parallèle. Leurs performances ont été évaluées en termes d’efﬁcacité sur une plateforme d’une quinzaine de machines et en termes de scalabilité pour montrer les possibilités de réduction de latence supplémentaire par l’ajout d’unités de calcul.

Ces deux systèmes utilisent une notion de système budget, c.-à-d. borne supérieure, en nombre d’entités visuelles pour n’importe quelle vue résultant de n’importe quelle interaction. Cette borne dépend dans notre implémentation du paramètre k choisi en amont, avant l’exploration et utilisé pour initialiser les hiérarchies calculées automatiquement de telle sorte qu’elles soient k-aire. Pré-calculer ces hiérarchies à l’avantage de fournir un support de navigation initial pour l’utilisa-teur; cependant ce support est aussi limitant, notamment car la vue focus+contexte restreint chaque dimension à ne représenter que des nœuds frères comme nœuds focus. Les interactions d’édition des hiérarchies sont une manière de remédier à ces restrictions puisqu’elles permettent à l’utilisateur de modiﬁer l’arité des hiérarchies et de réorganiser les fraternités si certaines sont séparées par exemple. Nous pouvons supposer qu’à travers ces interactions d’édition, un utili-sateur ne modiﬁerait pas l’arité, initialement choisie raisonnablement en fonction de la bande passante du réseau, jusqu’à en changer l’ordre de grandeur.

Dans le document Passage à l'échelle pour la visualisation interactive exploratoire de données : approches par abstraction et par déformation spatiale (Page 108-112)