Les fondations techniques de la visualisation d’information

2.2 La visualisation d’information

2.2.2 Les fondations techniques de la visualisation d’information

La visualisation des résultats de recherche ne peut se prévaloir des avantages cognitifs et perceptuels que dans la mesure où le concept se concrétise en un dispositif technique qui s’appareille au système de repérage d’information.

Entre 1989 et 1999, la recherche est centrée principalement sur la conception de ces techniques de la visualisation appliquées au système de recherche d’information. L’augmentation de la puissance de calcul des systèmes informatiques fait entrer la visualisation d’information dans l’ère interactive en temps réel (Bederson et Shneiderman 2003) et dans de nouvelles dimensions d’affichage (du 2D au 3D). C’est durant cette décennie que les cartes d’information auto- organisées sont inventées (Olsen et al. 1993), montrant que des algorithmes d’affichage peuvent représenter des masses d’information selon une structure graphique et interactive, et aussi manipulable et dynamique (Shneiderman 1996). De nombreuses études comparent et mettent au point différentes visualisations en deux dimensions, en trois dimensions pour des structures d’information souvent multidimensionnelles.

À cette époque, la visualisation d’information est d’abord vue comme une opportunité de gérer la surcharge informationnelle (Chen 2006, 27). Puis, utilisée dans le domaine du repérage d’information, d’autres opportunités se dégagent :

• proposer une façon autre d’évaluer la pertinence d’un résultat de recherche que la façon actuelle : par la fréquence des termes de la requête contenus dans le document auquel réfère le résultat de recherche.

• renouveler l’interaction centrée sur la formulation de la requête pour une interaction plus centrée sur la navigation des résultats de recherche et sur l’exploitation des relations révélées par la visualisation entre les résultats de recherche. Il s’agit de découvrir ce que le système peut offrir.

Nous proposons une revue des techniques de la visualisation des résultats de recherche principalement sur un corpus de monographies et de compilations d’études. Deux ouvrages (Card, Mackinlay, et Shneiderman 1999; Bederson et Shneiderman 2003) compilent les études qui ont contribué à l’avancement des techniques au niveau de la modélisation de la structure des informations sous une forme spatialisable, et au niveau de leur représentation graphique pluridimensionnelle et interactive. Plus tard, Chen (2006, Chapitres 2 et 3) présente les théories et les techniques fondatrices de la visualisation d’information, et dédie deux chapitres aux techniques de structuration sémantique (modélisation de la structure à afficher) et aux techniques de modélisation graphique en vue de l’affichage de l’information. Enfin, Zhang (2008) consacre son ouvrage à la visualisation pour le repérage d’information et considère les techniques associées à la structuration des informations en vue de leur affichage interactif comme le cœur de son livre (Zhang 2008, chapitres 3 à 7).

Dans cette partie, nous procédons tout d’abord à une explicitation des techniques utilisées pour analyser, extraire les attributs structurels de l’information, afin de mettre au point une modélisation structurelle spatialisable à laquelle on peut associer des algorithmes de transformation graphique. Ensuite, nous présentons les principes de distorsions graphiques interactives ainsi que les principes des fonctionnalités interactives dédiées à la visualisation des résultats de recherche. Lorsque des techniques sont spécifiques au contexte du Web, celles-ci sont détaillées.

2.2.2.1 Modélisation de la structure : de l’information abstraite à sa représentation graphique

Avec les systèmes d’information qui se modernisent, les possibilités de calculs et de mémoire qui s’étendent très rapidement, et les premières années du Web accessible au grand

public, de nombreuses techniques d’organisation, de structuration et d’affichage interactif d’information sont mises au point.

Techniquement, selon Chen (2006, 27), la visualisation comprend deux étapes fondamentales et interdépendantes : la structuration spatiale de l’information et sa présentation interactive et visuelle. Ces deux étapes s’articulent sur des traitements algorithmiques de structuration de l’information permettant sa modélisation en vue de sa représentation graphique interactive. Zhang (2008, 4-5) souligne par ailleurs l’apport indispensable des techniques d’organisation et de repérage aux étapes de structuration de l’information pour la visualisation des résultats de recherche.

Nous présentons le cadre technique qui sous-tend la visualisation des résultats de recherche. Ce cadre a, en raison de l’intrication de la visualisation d’information et de la recherche d’information, de nombreuses frontières communes au cadre technique de la recherche d’information (Zhang 2008). Étape par étape sont présentés les modèles techniques existants de structuration de l’information. L’objectif n’est pas tant de discuter des techniques en détail, mais d’en comprendre la logique.

La structuration de l’information, préalable à l’affichage de la représentation qui en est dérivée, est établie selon les attributs de proximité sémantique et de connectivité qu’entretiennent les informations entre elles.Ces attributs de connectivité peuvent introduire aussi des logiques que l’on peut extraire des données : des hiérarchies, des chronologies, des éléments que l’on peut indexer sur l’ensemble des informations, comme par exemple, les auteurs, les titres, les mots-clefs, etc. L’extraction de cette structure permet la transformation de l’objet abstrait qu’est l’information en un objet concret multidimensionnel manipulable graphiquement qu’est le résultat de recherche. Dans le cas d’informations hautement hétérogènes, comme les documents web, on peut extraire une structure à partir d’un calcul de distance ou de la similarité. On établit ainsi une matrice des informations. À partir de cet espace informationnel matriciel, il est possible de dériver un environnement visuel pluridimensionnel (Card, Mackinlay et Shneiderman 1999) pour représenter graphiquement et interactivement les informations (Keim 2002).

Pour ce faire, il est utilisé des techniques d’indexation et d’analyse qui structurent logiquement l’information pour en représenter son contenu et aboutir à la modélisation d’un espace informationnel (Korfhage 1997). Zhang (2008, 21) identifie plusieurs méthodes de structuration

d’information issues des techniques d’indexation utilisées pour le repérage d’information dont bénéficient directement les modèles de visualisation.

2.2.2.1.1 Le modèle vectoriel et les calculs de similarité

Central, selon Zhang (2008, 21) mais aussi Chen (2006, 35), le modèle vectoriel défini par Salton (1989) est un modèle d’indexation qui organise les informations en leur conférant une structure vectorielle spatialisable. Le principe est que le partage d’un vocabulaire commun entre deux informations est gage que celles-ci ont un contenu assez similaire, qu’elles traitent du même thème, qu’elles entretiennent un lien de similarité :

The basic premise underlying most current IR systems is that documents that are related in some way will use the same words. If two documents have enough terms in common, then we can assume that they are related, and should therefore have a link placed between them. (Chen 2006, 35)

Ce modèle d’organisation de l’information est utilisable par l’ensemble des modèles de visualisation (Zhang 2008, 24) :

• les cartes auto-organisationnelles ou « SOM » (Korfhage 1997) utilisées dans le dispositif VIBE (Visualization by Example) (Olsen et al. 1993),

• les réseaux associatifs Pathfinder,

• le modèle de mise à l’échelle multidimensionnelle (Multi-dimensionnal Scaling), • les modèles de visualisation sur les points de référence multiples,

• et les modèles de visualisation euclidiens.

Le modèle vectoriel sert de structure en décomposant les informations en attributs indépendants leur permettant d’être spatialisées grâce à une matrice de terme * document où le terme d’un document est un vecteur.

La structuration vectorielle du modèle de Salton va comme suit. Les termes sont indexés selon le niveau d’indexation choisi. Dans le cas du texte intégral, tous les termes sont indexés. L’importance des termes est définie grâce à des méthodes de pondération ou des calculs de similarité.

Une des méthodes de pondération connues est le tf * idf. Il s’agit de déterminer la pondération du terme en calculant le produit du nombre d’occurrences du terme dans le document – « term frequency » par l’importance de ce terme dans l’ensemble du corpus déterminé en fonction de sa rareté « inverse document frequency » (plus le terme est rare dans le corpus, plus

d’importance il lui sera attribué). Il y a d’autres méthodes de pondération recensées par Zhang (2008, 25-27). L’objectif de la pondération ou du calcul des similarités est d’attribuer à chaque terme des documents son propre poids ou sa propre valeur de similarité. On peut ainsi aboutir une matrice des documents (ou informations) et des termes utilisés dans ses documents. La matrice (Figure 8, 95) rassemble dans une représentation en deux dimensions les poids (aij) de chaque

terme (i) pour chaque document (j):

Figure 8 Matrice de terme-document issu du modèle d'indexation vectoriel, extrait de Zhang (2008, 23)

Ces calculs de pondération ou de similarités sont nécessaires à l’établissement des relations de distance ou de proximité sémantique potentiellement existantes entre les informations.

2.2.2.1.2 Algorithmes de classification ou « clustering »

À partir de ces matrices de documents, des algorithmes de classification sont utilisés pour établir les relations de connectivité ou de similarité entre les documents. Ils ont l’avantage d’avoir été développés pour maîtriser plus efficacement la masse d’information et d’en tirer parti. Ces algorithmes de classification automatique favorisent l’émergence de motifs informationnels à travers les données. Ces algorithmes de classification calculent les rapports de similarité et de distance entre les informations, sans requérir pour autant une catégorisation prédéfinie. On parle alors d’algorithme ou de méthode de classification non supervisée. Les algorithmes de classification peuvent être de type hiérarchique (Aglomerative Hierarchical Clustering ; suffix tree clustering) ou être de type non hiérarchique (K-means) (Rasmussen 1992; Zhang 2008, 40).

Ainsi, si on visualise les résultats classifiés selon une méthode de classification hiérarchique non supervisée, voici ce que l’on peut obtenir visuellement. Dans l’illustration ci- après (Figure 9, 96), nous avons la représentation graphique extraite de Zhang (2008, 41) illustrant le résultat d’un algorithme de classification non supervisée hiérarchique (à gauche), non

hiérarchique (à droite). La capture d’écran (Figure 10, 96) du métamoteur de recherche Grokker (2003-2008) montre ce que l’usage d’un algorithme non supervisé hiérarchique peut donner visuellement en servant de structure pour organiser des résultats de requêtes.

Figure 9 Affichage de résultats selon un algorithme de classification hiérarchique (à gauche représentation de Zhang 2008, 41; à droite capture d'écran de Grokker en 2008)

Figure 10 Vue des résultats de recherche de Grokker - classification non supervisée hiérarchique

De plus, outre la structure donnée à l’affichage des résultats, la vue de l’interface de la présentation des résultats de recherche de Grokker laisse entrevoir un autre enjeu : celui de la labellisation des classes de résultats de recherche. Ce qui peut constituer un détail est un des enjeux de la classification des résultats de recherche web, d’autant que la classification s’effectue non pas au niveau de la page web à laquelle réfère le résultat, mais au niveau du résultat de recherche en lui-même, composé souvent du titre de la page web, d’une courte description extraite du document

(souvent un extrait ou des extraits de la page web mis bout à bout). Dans les figures suivantes, on voit bien apparaître, au niveau de la page des résultats de recherche, l’hétérogénéité dans la composition des résultats de recherche, en fonction des sources et en fonction des moteurs de recherche sur le Web. Malgré des constantes comme le titre de la page web, la description peut être différente et ressemble parfois à une phrase tronquée, parfois les sous-sections de la page web sont listées.

Figure 11 Capture d'écran de la page des résultats de recherche de Bing Canada, prise le 5 décembre 2015

Figure 12 Capture d'écran de la page des résultats de recherche de Google Canada, prise le 5 décembre 2015

Figure 13 Capture d'écran de la page des résultats de recherche de Yahoo Canada, prise le 5 décembre 2015

La section suivante détaille les traitements algorithmiques spécifiques au contexte du Web pour classifier les résultats de recherche en vue de leur visualisation.

2.2.2.1.3 Algorithmes de classification des résultats de recherche web

L’information est indexée généralement selon le modèle vectoriel. Sur le Web, la classification intervient au niveau des résultats de recherche retournés par le moteur de recherche en réponse à la requête initiale.

Le principe de structuration sous-jacent est le suivant :

Cluster hypothesis.Documents in the same cluster behave similarly with respect to relevance to information needs. (Manning, Raghavan, et Schütze 2008, 350) Sur le Web, les algorithmes de classification utilisés par les moteurs de classification, « clustering search engine », s’alignent sur ce principe de « cluster hypothesis » à cela près que le regroupement s’effectue avec quelques variations. Le regroupement en classe ou « cluster » peut être centré sur l’information, centré sur la description, ou à la conjonction c’est-à-dire centré sur les informations, mais incluant la description des informations.

La classification web repose d’abord sur des opérations d’acquisition des résultats retournés par le moteur de recherche qui font suite à la requête – les informations – et de prétraitement, étape consistant à aboutir à un modèle de représentation textuelle des résultats, devenant classifiables automatiquement (Carpineto et al. 2009, 9‑18).

Tout d’abord l’acquisition des résultats de recherche effectuée le plus communément maintenant à l’aide des APIs publiques founies par les moteurs de recherche commerciaux comme Google Search API ou Bing API.

Puis, des opérations préparent les résultats de recherche de sorte qu’ils soient classifiables. Ces opérations permettent aussi une vue représentative standard des résultats de recherche sur la base de leur similarité sémantique. Il s’agit d’abord de reconnaître la langue du document. Puis, l’étape de tokenisation découpe le texte de chacun des résultats de recherche en unité, autrement dit en « token ». Selon Carpineto et al. (2009, 9), la méthode du trigramme (Grefenstette 1995) est appropriée pour effectuer ce type de découpage avec ce type de données d’entrées que sont les résultats de recherche, remarquables par le fait que leur contenu textuel est faible en quantité et tronqué de surcroît. Aussi, Carpineto et al. (2009, 17 : 9) soulignent l’importance de la tolérance au bruit dans le sens où l’algorithme de découpage en unités textuelles (« tokenization ») doit être capable de repérer et d’éliminer le bruit dans les résultats. Une fois les résultats de recherche découpés en unité, l’étape de « stemming » qui suit consiste à ôter les suffixes et les préfixes, donc en un sens d’opérer une troncature systématique afin d’extraire les radicaux des unités textuelles. Si cette étape est discutable dans le cas d’une grande quantité de données textuelles, dans le cas des résultats de recherche, cette opération est indispensable pour obtenir une classification automatique de qualité (Stefanowski et Weiss 2003). Dès lors les résultats sont réduits à un modèle de représentation textuelle manipulable par les algorithmes de classification.

Sur la base de ce modèle de représentation textuelle des résultats, différents algorithmes sont utilisés sur le Web pour pouvoir bâtir des classes de résultats et les étiqueter automatiquement. Selon l’étude de Carpineto et al. (2009), sur le Web, on a aussi recours aux algorithmes utilisés dans les contextes traditionnels du repérage en ligne :

• Les algorithmes centrés sur les données tels que l’AHC (Agglomerative hierarchical clustering) et les K moyens.

• Les algorithmes tenant compte de la description, tel que l’algorithme « suffix tree clustering » ou STC (Zamir et Etzioni 1999).

• Les algorithmes centrés sur la description, tels que les algorithmes utilisés par les systèmes commerciaux Vivismo (racheté par IBM et devenu Infosphere Data Explorer), AccumoClassifier (qui n’existe plus) ou encore l’algorithme dénommé Lingo, utilisé par le système Carrot2search (Osiński, Stefanowski, et Weiss 2004; Osiński et Weiss 2005).

2.2.2.1.3.1 Les algorithmes centrés sur les données : AHC et K-means

Les algorithmes centrés sur les données s’inscrivent dans la droite lignée du modèle vectoriel de Salton et al. (1975). L’idée est que chaque résultat est un vecteur et s’agglomère aux deux plus proche jusqu’à atteindre le nombre k souhaité de classes. Si numériquement ces algorithmes sont très efficaces considérant alors chaque document comme un sac de mots représentant des vecteurs avec une certaine pondération (Carpineto et al. 2009, 11), l’étiquetage qui résulte de cette méthode est beaucoup plus difficile dans la mesure où toute notion de sémantique est évacuée. On peut trouver ce type d’algorithme à l’usage dans les systèmes Scatter/Gather développé par Xerox Parc en 1992 (Cutting et al. 1992), et plus récemment par Lassi (Maarek et al. 2000) , CIIRarchie (Lawrie, Croft, et Rosenberg 2001; Lawrie et Croft 2003), EigenCluster (Cheng et al. 2005), et Armil (Geraci et al. 2006).

2.2.2.1.3.2 Les algorithmes tenant compte de la description : « suffix tree clustering » ou STC

À l’inverse des précédents algorithmes, ce type d’algorithme de classification tient compte de la nécessité d’intégrer, dans le modèle de représentation textuelle, des résultats une description sémantiquement intelligible pour pouvoir en dériver un étiquetage intelligible et réinterprétable par l’utilisateur final. Le principe repose sur l’ajout au modèle de représentation textuel des résultats de phrases ou de séquences de mots ordonnés. En plus d’un découpage en unité, il est associé un découpage en morceau d’unités qui se suivent. La méthode de Zamir et Etzioni repose sur le repérage et l’utilisation de séquences répétitives, considérant le nombre d’occurrences de ces séquences comme une qualité de description sémantique représentative des résultats. Carpineto et al. (2009) soulignent l’originalité et l’avantage de cette approche dans l’attention portée à la méthode ainsi mise au point pour permettre un étiquetage efficace des classes de résultats, c’est- à-dire automatique et intelligible. Par contre, ils identifient une déficience de la hiérarchisation des classes et des concepts produite par l’algorithme dérivé HSTC (Maslowska 2003) où finalement les classes les plus intéressantes finissent être extraites comme des sous-classes des classes qui ne sont pas dominantes du point de vue hiérarchique. L’algorithme produit alors le résultat inverse de la hiérarchisation escomptée. Autre problème identifié par Carpineto et al. (2009, 14) est le fait que la description repose uniquement sur le découpage en séquence de mots qui se suivent. Or, le sens de l’ordre des mots a une signification syntaxique et sémantique différente d’une langue à

l’autre. Par exemple, en allemand la place des mots dans la phrase est beaucoup plus rigide qu’en anglais ou en français.

2.2.2.1.3.3 Les algorithmes centrés sur la description : Lingo

Ces algorithmes centrés sur la description inversent radicalement le processus des algorithmes centrés sur les données. L’allocation du résultat à une classe est la dernière étape. La première étape est l’extraction de la description. Lingo est un de ces algorithmes.

Lingo est un algorithme procédant en quatre étapes (Carpineto et al. 2009, 17 : 15) : le prétraitement des résultats (1), le découpage et l’extraction des séquences de mots fréquentes (2), l’étiquetage qui en découle (3) et enfin l’allocation des résultats à une classe (4). Carpineto et al. (2009) constatent ainsi que Lingo s’inscrit dans la lignée du STC pour établir la description qui permet l’étiquetage des classes. Par contre, à la différence de l’algorithme STC qui ne traite pas les effets de chevauchement et de cooccurrences qui peuvent advenir de l’utilisation des séquences fréquentes (qui peuvent se retrouver dans plusieurs classes), Lingo s’appuie sur le repérage de ces cooccurrences et de ces chevauchements pour extraire des concepts abstraits dominants. Il s’agit de la méthode par « décomposition de la valeur singulière » — fréquemment utilisé pour le traitement automatique textuel — qui attribue une valeur à la force des relations qui existent entre les résultats, modélisés initialement selon une matrice vectorielle. Ainsi, des thématiques sur la base de la force de ces relations peuvent être repérées. Lingo apparie ces thématiques aux séquences fréquentes de mots qui sont situées dans le même espace vectoriel de terme. Et enfin, le résultat est alloué à la classe correspondante, en fonction de la séquence fréquente de mots qui se retrouve dans le résultat et dans la classe.

Les avantages de ce type d’algorithmes se résument principalement au fait qu’ils s’appuient sur les avantages des précédents qu’ils modifient pour améliorer l’intelligibilité de la classification laquelle repose sur l’exploitation des forces des relations qui existent entre les résultats. En ce sens, ces algorithmes centrés sur la description sont plus performants au sens où ils sont plus utilisables dans un contexte d’usages, d’interaction et d’activités informationnelles menées par des êtres humains.

Le système visuel de recherche d’information sur le Web Carrot2Search propose l’utilisation des algorithmes Lingo et STC pour classifier les résultats de recherche du métamoteur de recherche qui lui fournit les résultats correspondant à la requête (eMetasearch, par Concepta).

2.2.2.1.4 Conclusion partielle

L’ensemble de ces traitements algorithmiques propose une analyse de l’information qui permet d’en extraire les attributs communs, à partir desquels peut s’esquisser une structure commune. À partir de la structure brute issue du modèle vectoriel, des calculs de similarités vont réduire les liens à ceux qu’on considère comme essentiels selon le modèle de visualisation. Dans le contexte du Web, le modèle de visualisation repose sur la classification des résultats de recherche. Il est ainsi possible de visualiser l’information spatialisable et structurée selon des

Dans le document Visualisation des résultats de recherche classifiés en contexte de recherche d’information exploratoire : une évaluation d’utilisabilité (Page 90-108)