Mâchage visuel : Etude et construction d’un prototype de génération automatique

3.2 Analyse et visualisation d'information

3.2.8 Mâchage visuel : Etude et construction d’un prototype de génération automatique

Récemment (1er trimestre 2011), le moteur de recherche Google modifiait drastiquement son algorithme de classement des résultats de recherche -modification portant le nom de « Google Panda »- (Leportois, 2011) avec, pour but avoué, de pénaliser les fermes de contenu dont nous avons discuté dans la partie intitulée « e-

griculture » (2.5.3.3 ci-dessus).

En effet, un certain nombre de sites web sont conçus -codés- afin de favoriser l‟apparition de leurs diverses pages, de façon à générer un nombre pléthorique d‟entités indexables –soit des pages web possiblement générées automatiquement- pour qu‟elles apparaissent dans les premiers résultats de recherche retournés par le moteur en question. Ces entités doivent présenter du contenu dont la qualité98, en fond et en forme, ainsi que la quantité, vont contribuer à déterminer leur capacité à une bonne indexation, à figurer parmi les premiers résultats de recherche en regard d‟un mot clé, à générer du trafic là où l‟on parlait d‟audience à l‟ère de la télévision, à pouvoir tirer une contrepartie monnayable dudit trafic par divers procédés. Le maximum de trafic étant l‟idéal, tant en termes de gains économiques que pour celui qui souhaite voir les informations qu‟il diffuse connues d‟un maximum de personnes –visibles.

« Les combinaisons d‟applications et de services web, nommés mashups99, constituent une partie importante du « nouveau » Web : Certaines des caractéristiques clés du web 2.0 sont la collaboration et la participation et la masse, l'évolutivité qui met à profit la longue traine, l‟expérience utilisateur riche, et la propension au remix. »

(Thibodeau et Boroditsky, 2011 p.1). Tout comme il est possible de créer un très grand nombre de sites web, un immense territoire virtuel, il est tout à fait faisable de les alimenter de façon automatique grâce aux concepts susmentionnés.

Par qualité, la firme de Mountain View qui par ailleurs garde son algorithme d’indexation dans le plus grand secret, entend -du contenu si possible original- entre autres choses.

Mashup : Site ou page Web présentant un compendium d’informations agrégées depuis d’autres sites web.

L‟opération est automatisable100_{soit par une API}101_{, soit en codant un processus} automatisé d‟extraction de données depuis les sources visées. Nous avons opté pour la seconde solution –du web scraping (4.4.3 ci-dessous)- pour plusieurs raisons : La première réside dans le fait que Google traque le contenu dupliqué et attribue aux

pages ou sites web présentant du tel contenu un score de pertinence amoindri et par conséquent une visibilité, une position dans les SERPs moins proche des premiers résultats concernant les mots clés ayant trait au contenu. Il était préférable pour nous, afin d‟obtenir un contenu original, de développer une solution « maison ». La deuxième est notre volonté de fournir du contenu pertinent à l‟utilisateur, au visiteur

du site, et non pas une pseudo-information qui privilégierait l‟aptitude à être bien référencé au détriment d‟une teneur informationnelle -du contenu barbare que l‟on rencontre souvent en l‟espèce traduit plusieurs fois de suite à travers de nombreuses langues dans le but de duper les algorithmes des moteurs de recherche et qui au final n‟a plus de sens dans aucun dialecte.

C‟est pourquoi nous avons constitué un outil de génération de contenu automatisé prenant ses sources à la fois dans l‟encyclopédie en ligne wikipedia, dans le service d‟indexation d‟articles scientifiques « Google Scholar » et dans le service d‟indexation d‟informations quotidiennes « Google News », et qui implémente une fonctionnalité de traduction du contenu, traduction que nous rapatrions depuis l‟outil

Google Translate. Ainsi, nous fournissons à l‟utilisateur des données raffinées

spécifiquement pour ses besoins : la longueur, la teneur, la présentation graphique qui tient compte des capacités cognitives. Nous générons donc des glocadonnées : à partir de données globales, nous créons des données locales puisqu‟elles sont adaptées précisément pour l‟individu qui les consulte.

100

L’automation étant, selon nous, la clé de voute dans tout le cycle de l’intelligence du point de vue du 2.0 : « l’organisation informationnelle est la clé de l’utilisation, la manipulation, la transformation, le contrôle de plus en plus complexe, précis et économique de l’énergie » (Morin, 1977, p.343) (bis). Il est essentiel d’être en mesure de récolter tout comme disséminer massivement, sans que la nature du milieu soit une entrave à la bonne circulation de l’information, ici à son remix.

101

API : Application Programming Interface, soit un jeu de fonctions de programmation, ici destinées à faciliter l’opération de réutilisation de l’information de la part du fournisseur.

Pour Thibodeau et Boroditsky, (2011, op. cit., p.1) « au sein des industries actuelles de

l’information –et du savoir- riche, un knowledge management bien mené résulte en un avantage compétitif. L’élaboration et l’intégration d’outils et de services émergents basée sur le web s’est avérée convaincante quant à la collecte et à l’organisation de la propriété intellectuelle. A cause d’une surcharge informationnelle augmentant sans cesse, les visualisations de l’information et du savoir sont devenus des méthodes efficaces quant à la représentation de corpi complexes de savoirs en tant que modalité alternative par l’usage des langages visuels. »

Nous avons, dans le cadre de l‟élaboration de notre outil, effectué une comparaison entre l‟une de nos sources –Google Scholar- illustré en Figure 24, L‟interface graphique du logiciel « Harzing’s Publish or Perish » illustré en Figure 25 qui permet d‟avoir une vision plus englobante, et notre interface de type Treemap illustré en Figure 26 dans laquelle la taille de chaque rectangle est proportionnelle au nombre de citations dont l‟article a fait l‟objet. Il est ainsi possible pour l‟utilisateur de se rendre compte de l‟importance, la notoriété des articles pour chaque requête effectuée. En outre, la taille des titres respecte cette proportionnalité, permettant une lisibilité immédiate des articles les plus cités.

3.2.8.1 Google scholar

Google Scholar, à son lancement, fût accueilli plutôt positivement car il permettait, de façon jusque-là inédite, un accès gratuit à des données bibliographiques souvent assorties d‟un résumé. A ses débuts, Google Scholar n‟était en coopération qu‟avec 45 éditeurs pour atteindre 2900 courant 2009. Ce service, élaboré par la société Google, fut lancé à la fin de l‟année 2004. Cinq ans plus tard, La firme de Mountain view décidait que sa branche scholar n‟était plus en version béta, mais bel et bien fonctionnelle. Neanmoins, (Jacso, 2010, p.176) observe un certain nombre de traitements erratiques de la part de ce moteur :

 Problème à grande échelle quant à l‟analyse de grandes collections digitales des plus grands éditeurs académiques.

 Mauvaise gestion de l‟opérateur booléen « OR » pourtant très simple d‟implémentation ainsi qu‟une mauvaise gestion de la prise en compte des mots tronqués

 Agrégation de résultats mélangeant des enregistrements majeurs quant à des papiers écrits par l‟auteur d‟une part et des résultats où le même auteur et simplement cité

Jacso observe que « l’origine de la plupart de ces problèmes et un mélange

d’incompétence et d’incurie de la part des développeurs de Google Scholar »

puisqu‟ils ont largement ignoré un grand nombre de métadonnées bibliographiques (tels que les COinS utilisés par un très grand nombre d‟éditeurs, et d‟autant plus parmi les plus réputés).

Et même si les développeurs de Google Scholar ont dû, comme nous, remarquer que certains éditeurs gèrent de manière erratique les métadonnées de leurs publications, ils pouvaient s‟appuyer sur des systèmes réputés fiables, là aussi largement utilisés par un grand nombre d‟éditeurs, tels que les DOI.

Figure 24 résultats rendus verticalement pour la requête "médiation" sur le service Google Scholar

Lors de nos multiples utilisations de cet outil, outre les métadonnées, nous avions remarqué l‟aspect fastidieux de son utilisation qui était orientée, a l‟instar du moteur Google classique, vers la recherche passant par un unique champ et il fallait chaque fois cliquer sur une option afin d‟accéder au mode de recherche dit « avancée ». En outre, la présentation des résultats, en plus d‟être verticale et donc d‟entraîner

voulu nous tourner vers d‟autres solutions. Nous avons, entre autres, testé le logiciel Harzing‟s Publish or Perish.

Figure 25 Interface du logiciel "Harzing's Publish or Perish" et résultats de requête "médiation"

3.2.8.2 Harzing’s Publish or Perish

Ce logiciel, édité sous la direction d‟Anne Will Harzing, se base sur Google Scholar dont il récupère les résultats. Les principaux avantages que nous lui avons trouvé par comparaison avec le service de Google sont :

 Une organisation de l‟interface qui permet de paramétrer très finement la recherche (par domaine scientifique, par auteur, par publication, restriction des dates de publication une fourchette donnée…)

 La possibilité d‟obtenir des statistiques quant à un auteur (H-Index, nombre de citations…)

 La possibilité de modifier très rapidement les critères de tri  Un système qui permet de sauvegarder les recherches antérieures

Il n‟en reste pas moins que ce logiciel, puisqu‟il est basé sur Google Scholar, souffre des mêmes défauts que lui quant à la gestion des métadonnées.

3.2.8.3 Notre outil « active treemap »

Concernant notre outil, nous souhaitions qu‟il offre un potentiel d‟analyse. Selon Schneiderman (2006, p.1), inventeur du concept de treemap, celui qui gère, au sens large, par exemple le veilleur, pour réussir, doit être « habile à repérer les

événements exceptionnels, en identifiant les signaux émergents… ». Schneiderman a

développé le concept de treemap par analogie avec les naturalistes qui observent les arbres. Il est cognitivement adapté à la détection de signaux. C‟est pourquoi nous avons opté pour un tel type de représentation visuelle. C‟était aussi l‟occasion d‟éviter les biais et des moteurs de recherche verticaux.

Figure 26 Notre outil de représentation des données de type treemap pour la requête "médiation", uniquement sur la base de connaissances Google Scholar, le principe de Mashup n'est donc pas à l'oeuvre sur cette représentation

3.2.9 Construction d’un prototype d’outil analyse automatique d’interconnexion de

Dans le document Le cycle de l’information en intelligence économique, à la lumière du web 2.0 (Page 126-131)