• Aucun résultat trouvé

Chapitre 1 : Méthode et terrains

1.2. Description des terrains

1.2.5. Le Privacy Internet Group et le Tracking Protection Working Group du W3C

1.2.5.3. Listes de discussion (mailing-lists)

Toutes les mailing-lists publiques de groupes actifs du W3C répertoriés en octobre 2017 sur leur page web de présentation ont été téléchargées. Certaines mailing-lists historiques, comme celle du groupe de travail Platform for Privacy Preferences (P3P), ont également été téléchargées en raison de leur importance ou de leur rapport direct avec le sujet de la protection de la vie privée. Les mailing-lists de Community Groups, qui sont des groupes de travail informels hébergés par le W3C mais ne travaillant pas sur des spécifications officielles, ont été ignorées.

La raison pour laquelle l’ensemble des e-mails n’a pas été téléchargé de façon exhaustive est le temps que cela prend. Ainsi, au 10 mai 2018, notre corpus comprenait un total de 346 487 e-mails téléchargés. Or, pour télécharger ces e-mails, il a fallu créer un script Python qui aille sur la page web des archives publiques de chaque liste de discussion, pour télécharger un à un chacun des e-mails, extraire le contenu et les métadonnées (expéditeur et date) de chaque e-mail, pour ensuite pouvoir en extraire des statistiques exportées dans des feuilles de calcul au format CSV. Pour éviter que les serveurs du W3C n’interprètent une série de 346 487 requêtes comme étant une attaque par déni de service, c’est-à-dire par mitraillage de requêtes visant à submerger la capacité d’un serveur à répondre, il a fallu introduire une instruction ordonnant à l’ordinateur de faire une pause aléatoire de 3 à 8 secondes entre deux requêtes, soit 5,5 secondes en moyenne. Si l’exécution de notre script a respecté la loi mathématique des grands nombres, ces 346 487 e- mails ont donc mis environ 1905678,5 secondes à être téléchargés, soit un peu plus de 22 jours non-stop. Ce temps ne prend pas en compte le temps de traitement des données qui, bien que nettement plus rapide, est lui aussi significatif.

Ceci explique qu’un choix ait dû être fait et que l’exhaustivité n’était pas matériellement à notre portée.

Des études similaires à ce que nous avons fait ont déjà été menées sur les mailing-lists de l'IETF pour générer des statistiques sur l'évolution de l'emploi des termes « security » et « privacy » (Doty, 2015). Il est ainsi possible de générer rapidement des statistiques sur un corpus large et de déterminer des pics d'activité, ou des corrélations entre l'emploi de certains termes. La représentation sur un même graphe de l'évolution dans le temps de l'emploi de certains termes, dans plusieurs listes de discussion représentées chacune par une ligne, permet de faire des hypothèses sur la circulation de certaines thématiques d'une arène à l'autre. Télécharger les e- mails publiquement disponibles sous un format qu'il est possible de traiter par des scripts, en Python ou dans un autre langage de programmation (comme R ou Ruby), permet donc de gagner du temps dans la constitution de corpus plus restreints sur lesquels il est ensuite possible de faire une étude qualitative.

Il est important de garder à l’esprit les limites de cette méthode.

Tout d'abord, les listes de discussion publiques ne couvrent pas tous les échanges. Il peut y avoir des échanges interpersonnels qui n'y sont pas adressés, entre participants aux groupes de travail du W3C.

Ensuite, il existe des mailing-lists non publiques. Leur nombre semble avoir eu tendance à décroître au fil des années. Cela veut dire que les échanges des premières années du W3C, et de projets comme P3P, sont sous-représentés dans les statistiques que nous pouvons générer à partir des e-mails publiquement diffusés. Comme le rappellent en effet Nick Doty et Deirdre Mulligan :

« Une augmentation du niveau de transparence des discussions, des délibérations et des discussions entre P3P et DNT est évidente. Le processus P3P impliquait de nombreuses discussions réservées aux membres alors que le processus DNT est effectué intégralement avec des listes de diffusion publiques et des réunions ouvertes60. » (Doty et Mulligan, 2013, p. 159)

La difficulté de l'analyse des échanges lors des premiers temps du W3C est accrue par le fait qu'au début des années 1990, certaines des discussions avaient encore lieu sur des

newsgroups USENET comme comp.infosystems.www.authority.stylesheets, où se tenait la

discussion sur la standardisation des feuilles de style (qui a donné le CSS).

Les listes de discussion publiques ne couvrent pas non plus les échanges sur les canaux de messagerie instantanée reposant sur le protocole IRC, qui ne sont pas structurées de la même façon que les listes de discussion et nécessiteraient un traitement très différent, ni les discussions orales en téléconférence ou lors des (rares) rencontres de visu.

Ensuite, il est difficile d’établir des statistiques précises sur le nombre réel de participants. Une adresse e-mail ne correspond pas toujours à une personne. Elle peut correspondre parfois à un robot, et dans d’autres cas, une même personne peut utiliser plusieurs adresses de courrier électronique. Or, c’est par son adresse e-mail que le script est capable d’identifier une personne. En outre, une liste de discussion ne correspond pas forcément à un seul groupe, et un groupe peut avoir plusieurs listes de discussion publiques. Des listes de discussion sont crées avant la création officielle du groupe, et souvent, elles demeurent actives après sa clôture officielle. L'adéquation entre personne et adresse e-mail d'une part, groupe de travail et liste de discussion d'autre part, est donc tout à fait approximative, même s'il y a un lien entre les deux.

60 Traduit de l’anglais. Texte original : « An increase in the level of transparency about discussions, deliberations and decisions is evident from P3P to DNT. The P3P process involved many member-only discussions while DNT is being conducted completely on public mailing-lists and open meetings. »

Pour toutes ces raisons, la méthode de fouille automatisée de données textuelles ne peut être qu’une méthode exploratoire. Il s’agit cependant d’une méthode exploratoire puissante qui fait économiser beaucoup de temps dans la sélection d’un matériau plus restreint, pouvant être lu, interprété et analysé par un humain.

Voici la liste des mailing-lists qui ont été téléchargées pour une analyse par traitement automatique, sur une période d’août 1995 à octobre 2017 (voire jusqu’à mi-2018 pour certaines de ces listes) :

Nom de la mailing-list

Groupe de travail ou d’intérêt ou autre

groupe correspondant Nom de la mailing-list

Groupe de travail ou d’intérêt ou autre groupe correspondant

www-dom

À l’origine : Document Object Model Activity Statement. Désormais : W3C Web Applications

Working Group public-poe-wg

Permissions and

Obligations Expression Working Group

public-svg-wg SVG Working Group public-device-apis

Device APIs and Policy Working Group

public-payments-wg Web Payments Working Group public-pling Policy Language Interest Group public-data-shapes-wg RDF Data Shapes Working Group public-audio Audio Working Group public-vc-wg

Verifiable Claims

Working Group public-webapps

Web Platform Working Group

public-browser-tools- testing

Browser Testing and

Tools Working Group public-tt

Timed Text Working Group

public-sdw-wg

Spatial Data on the

Web Working Group public-p3p-ws

Platform for Privacy Preferences Working Group

xsl-editors XSLT Working Group www-p3p-dev

Platform for Privacy Preferences Working Group

www-p3p-policy

Platform for Privacy Preferences Working

Group public-html

HTML Working Group, puis Web Platform WG

www-ql XML Query Working Group public-exi

Efficient Extensible Interchange Working Group

public-aria

Accessible Rich Internet Applications

Working Group public-dxwg-wg Dataset Exchange Working Group public-webassembly

WebAssembly Working

Group public-xsl-wg XSLT Working Group

public-webfonts-wg

Web Fonts Working

Group w3c-wai-eo

Education & Outreach Working Group

www-style

Tous les groupes de travail travaillant sur des spécifications de feuilles de style (CSS, XSL) public-apa Accessible Platform Architectures Working Group public-socialweb

Social Web Working

Group public-p3p

Platform for Privacy Preferences Working Group

public-geolocation Geolocation Working Group www-p3p-interop

Platform for Privacy Preferences Working Group

www-tag W3C Technical Architecture Group public-webrtc

Real-time Communication Between Browsers Working Group

www-privacy-evaluator * public-pointer-events Pointer Events WorkingGroup

public-html-media HTML Media Extensions Working Group w3c-wai-gl Web Content Accessibility Guidelines Working Group

www-xsl-fo XSL FO Subgroup public-tracking

Tracking Protection Working Group

public-webappsec

Web Application Security Working

Group www-font Web Fonts Working Group

public-privacy Privacy Interest Group www-international Internationalization Working Group public-publ-wg

Publishing Working

Group public-web-perf

Web Performance Working Group

public-webauthn Web Authentication Working Group www-svg

Scalable Vector Graphics Working Group

public-script-coord liste de discussion de coordination

public-wot-wg Web of Things Interest Group et Web of

Things Working Group

public-p3p-spec

Platform for Privacy Preferences Working

Group public-automotive Automotive Working Group

www-p3p-public- comments

Platform for Privacy Preferences Working

Group public-secondscreen

Second Screen Working Group

* : indique que le groupe de travail correspondant n’a pas pu être déterminé Tableau 7 : Liste des listes de discussion publiques du W3C téléchargées dans le cadre de l’étude

de terrain sur le W3C PING

Concrètement, des scripts Python ont été rédigés pour procéder à la fouille exploratoire de ces données, une fois celles-ci téléchargées par un premier script.

Deux types d'opérations ont été menées sur ces données.

Dans un premier temps, il s'est agi de cartographier, avec l'aide du logiciel Gephi, quelles adresses e-mail participent à quelles listes de discussion. L'idée était de voir quels étaient les liens personnels entres groupes du W3C.

Dans un deuxième temps, nous avons généré des tableaux qui montrent l'évolution mois par mois et par mailing-list du nombre de fois où certains termes, comme « privacy » ou « gdpr », ont été utilisés, avec la fréquence d'utilisation de ces mots. L'objectif était de voir quand ces mots, liés à la thématique de la vie privée et de la protection des données, sont apparus, et dans quelles listes de discussion, puis de sélectionner des corpus restreints d'e-mails à analyser de façon qualitative autour de pics d'occurrences. Ces tableaux et graphiques sont présentés dans le chapitre 5.

1.2.5.4. Observation participante lors de la réunion F2F annuel du Privacy