• Aucun résultat trouvé

Le précédent chapitre nous a montré comment construire le champ sémantique de l'intelligence collective à partir de la catégorisation des documents que nous avons consultés. Ce champ sémantique nous est propre et correspond à un point de vue particulier : le nôtre. Pour évaluer en quoi ce point de vue est purement subjectif ou exprime une forme de consensus, nous avons construit un corpus automatique de tags pouvant servir d'étalon pour comparer notre point de vue avec un point de vue moins lié à notre subjectivité.

La construction de cet autre point de vue pourrait se baser sur la récolte des tags utilisés en co-occurrence avec « intelligence » et « collective » par la communauté des utilisateurs de Diigo et Zotero ; mais un énorme travail de nettoyage serait nécessaire pour atténuer le bruit inhérent à la catégorisation folksonomique. Nous avons donc préféré construire ce point de vue de comparaison en utilisant des APIs (Application Programming Interface) pour l'extraction de mots-clefs qui offrent l'avantage de fournir des tags dont le format est stable. Cette solution nous offre la possibilité de construire plusieurs points de vue correspondant chacun à une API particulière et par comparaison proposer un point de vue global.

Nous avons utilisé trois APIs pour extraire les tags des documents et les enregistrer dans une base de données (Base de données des alertes mails p. 295) afin de les rendre plus facilement exploitables pour des traitements statistiques et graphiques :

Samuel Szoniecky Université Paris VIII - Saint-Denis 2009 - 2012

Buts et moyens de l'intelligence collective - Qu'est-ce que l'intelligence collective ? 84

• La première API est l'outil d'analyse de contenu proposé par Yahoo que nous avons utilisé avec les paramètres par défaut19 en précisant juste que le texte à analyser et le format de retour (JSON : JavaScript Object Notation, http://goo.gl/0ISWP ). De la réponse envoyée par l'API nous avons conservé uniquement les entités (« entity ») et leur(s) type(s) mais un traitement plus approfondi pourrait prendre en compte les autres champs disponibles dans la réponse.

• La deuxième API est Zemanta dont nous avons utilisé la méthode « zemanta.suggest » (http://goo.gl/chg0A) qui nous permet de récupérer des mots- clefs (« keyword »), une liste de liens qui caractérisent le mot-clef (« markup.links ») et deux indices un de « confidence » (confiance) et un de « relevance » (pertinence). Là aussi nous n'avons pas conservé toutes les données fournies par Zemanta préférant nous focaliser sur un seul aspect.

• La troisième API est AlchemyApi dont nous avons utilisé la méthode « TextGetRankedKeywords » (http://goo.gl/8om61) pour enregistrer les mots-clefs (« keyword ») ainsi qu'un « score » relatif au « sentiment ».

Même si ce n'est pas notre objectif ici de faire une analyse critique des API d'extraction de tag, notons que nous n'avons pas accès aux « secrets de fabrication » qui permettent à ces APIs de calculer les indices qu'elles proposent, ni quand ces calculs sont modifiés et donc s'ils apportent toujours la même réponse. Ces problèmes importants pour l'épistémologie des sciences du Web (Bachimont & al., 2011 ; Boyd & Crawford, 2011 ; Rieder & Röhle, 2010 ; Broudoux & Chartron, 2009) ne seront pas traités ici, nous n'utiliserons donc pas ces indices mais uniquement le nombre d'occurrence des tags.

Pour constituer le corpus des documents en rapport avec l'intelligence collective qui seront analysés par les API, nous avons pris comme source d'information les courriers électroniques envoyés par l'outil d'alerte automatique de Google (http://goo.gl/thR3Y). Même si, là aussi nous ne maîtrisons pas dans quelle mesure la société Google choisit scientifiquement ou commercialement les alertes qu'elle envoie, ces alertes résument un fait ayant rapport avec un sujet en quelques lignes facilement exploitables (entre 50 et 4759 caractères).

19 “related_entities : true Whether or not to include related entities/concepts in the response show_metadata : true Whether or not to include entity/concept metadata in the response

enable_categorizer : true Whether or not to include document category information in the response

unique : true Whether or not to detect only one occurrence of an entity or a concept that my appear multiple times" http://goo.gl/XiG2E

Buts et moyens de l'intelligence collective - Qu'est-ce que l'intelligence collective ? 85

Nous avons récolté tout au long des trois ans de recherche nécessaires à cette thèse (du 23 octobre 2009 au 17 juillet 2012) 912 courriers électroniques grâce à une alerte paramétrée pour envoyer une fois par jour « seulement les meilleurs résultats » correspondant à la requête « intelligence collective ». Ces documents au format HTML ont été enregistrés dans la base de données et traités pour les transformer en texte brut encodé au format UTF-8 afin que les APIs puissent les analyser facilement.

Corpus entier Yahoo Zemanta Alchemy Yahoo ET Zemanta ET

Alchemy

Tags 13379 100% 5705 42,6 % 1891 14,1 % 7207 53,8 % 101 0,07 % Types 150 100% 143 95,3 % 133 88,6 % 40 26,6 % 30 20 % documents 912 100% 912 100% 912 100% 912 100% 150 16,4 %

Tableau 2: Intelligence collective : nombre de tags et de documents du corpus de référence Le tableau précédent (Tableau 2: Intelligence collective : nombre de tags et de documents du corpus de référence p. 85) résume la quantité de données récoltées par notre dispositif d'extraction automatique de tags à partir de courriers électroniques catégorisés explicitement par Google comme étant des documents en relation avec l'intelligence collective. Ce corpus créé automatiquement compte 13379 tags répartis dans 150 types différents qui viennent pour la majeure partie de Yahoo et de Zemanta ; Alchemy ne proposant que trois types correspondant aux sentiments : « négatif », « neutral » et « positif ». Pour faciliter le traitement des données nous avons mis en relation l'ensemble des types récoltés avec l'ensemble des tags, ce qui explique dans le tableau ci-dessus le résultat de 40 types pour Alchemy.

Un tiers des tags n'ont pas de type (4463 ; 33,3 %), plus des trois quarts n'ont été utilisés qu'une seule fois (10229 ; 76,4 %) et seulement 386 au moins 10 fois (2,88 %). Si nous regardons les tags qui font consensus pour les trois API, ils ne représentent qu'une infime partie des tags extraits (101 ; 0,07 %) et surtout ils ne sont liés qu'à 150 documents (16,4 %). Ils ne peuvent donc servir de références pour notre analyse comme le confirme d'ailleurs le

Samuel Szoniecky Université Paris VIII - Saint-Denis 2009 - 2012

Buts et moyens de l'intelligence collective - Qu'est-ce que l'intelligence collective ? 86

fait que dans ces tags n'apparaissent ni « intelligence » ni « collective ». Nous focaliserons donc nos analyses sur les tags présents dans le plus grand nombre de documents pour obtenir un résumé du champ sémantique de l'intelligence collective diffusé par les alertes de Google au cours des trois dernières années.

Une fois conservés les tags correspondant à des contenus comme nous l'avons fait avec les tags personnels, nous avons pris les 100 tags présents dans le plus grand nombre de documents pour couvrir ainsi l'ensemble des documents même si le nombre de tags que nous analysons est peu élevé. Les deux premiers tags correspondent à la requête de l'alerte : « intelligence » et « intelligence collective ». Notons que le tag « collective » n'apparait qu'à la dixième place dans cette liste. Ceci peut s'expliquer par la fréquence du mot « intelligence » dans la langue française qui selon Etienne Brunet (http://goo.gl/RxAOA) est relativement élevée (1309) alors que celle du mot « collective » n'apparait pas dans la liste des 1500 mots, les plus fréquents de la langue française. Ce que confirme le lexique en ligne Lexique 3 (http://goo.gl/iiK9e) qui donne comme fréquence par million 36.22 pour « intelligence » et 7.91 pour « collective ».

Les autres tags, ne suivent pas la répartition suivant les quatre grands ensembles que nous avons défini pour les tags personnels à savoir des termes renvoyant à des aspects techniques, de gestion de projet, de pratiques innovantes et de gestion graphique des connaissances. Plus particulièrement, l'aspect gestion graphique des connaissances n'est pas représenté20 alors que sont présents dans cette liste restreinte les aspects :

• techniques : « Web1 », « Web2 », « Web3 », « technologies », « Searching », « Web security », « Artificial intelligence », « Tools » ,

• de gestion de projet : « travail », « organisation », « communication », « collaboration », « performance », « organisations », « développement », « démarche »,

• de pratiques innovantes : « Massachusetts Institute of Technology », « avenir », « Science », « Social Sciences », « conférence », « recherche », « première », « art ».

En fait, ce qui prédomine dans cette liste c'est la présence de noms propres que ce soit :

Buts et moyens de l'intelligence collective - Qu'est-ce que l'intelligence collective ? 87

• des marques liées au Web : « Facebook », « Twitter », « Blogger », « SlideShare », « IBM », « wikipedia »,

• des personnes : « Marissa Mayer at Stanford University », « Eric Schmidt at Bloomberg on the Future of Technology », « Pierre Lévy », « Hideaki Anno », « Olivier Zara »,

• des lieux géographiques : « France », « Canada », « United States », « Australia », « Paris », « Mexico », « Sète ».

Cette prédominance des noms propres est liée au fait que pour les API d'extraction de mots- clefs, il est plus facile de repérer des noms propres grâce aux majuscules et aux listes préétablies. Surtout, cela correspond à une demande des utilisateurs de ce type d'API qui souhaitent le plus souvent grâce à ces outils connaitre leur visibilité et leur réputation sur le Web ce qu'on appelle le « Personal Branding »21 (Zara & Meur, 2011). Ceci est confirmé par la présence des tags « Marketing » et « Réseaux sociaux »; mais aussi surtout par l'analyse des types de tags que nous avons récupérés et qui concernent pour près de 60 % des noms propres, soit :

• des noms d'entreprises (22 : 15 %), • des noms de personnes (23 : 15 %),

• des noms de lieu pour près d'un tiers (44 ; 30 %).

Pour les tags qui restent, trois ensembles se dessinent. Le premier concerne les aspects gouvernementaux de l'intelligence collective « Government » et plus particulièrement ceux liés aux questions de renseignement « Intelligence agency » et de défense « Defence Signals Directorate ». Le deuxième touche aux aspects psychologiques avec notamment les tags « Psychology », « esprit », « Emotional intelligence », « conscience » et « Crowd Wisdom ». Enfin, le dernier aspect concerne la dimension du « Jeu » et plus particulièrement du « Football ».