Open Data et données personnelles - Les données numériques : un enjeu d'éducation et de citoyen

Depuis la loi n°78-753 du 17 juillet 1978, toute personne peut avoir accès aux documents détenus par une administration dans le cadre de sa mission de service public. Modifiée en 2005 pour transposer en droit français une directive de 2003, cette loi permet également depuis cette date la réutilisation des informations publiques à d’autres fins que celles pour lesquelles elles sont élaborées ou recueillies.

A titre général, l’Open Data ne concerne pas directement la protection des données à caractère personnel : la majorité des informations du secteur public mises à disposition des internautes ne comportent aucune donnée personnelle (exemples de la localisation et horaires d’ouverture des services publics, des évènements culturels et sportifs, des mesures sur la qualité de l’air, sur la pollution des eaux, etc., des informations touristiques ; etc.).

Néanmoins, les organismes publics détiennent une très grande variété de données pour constituer des informations du secteur public (données administratives, données médicales, état civil, adresses, etc.). Ces informations ont toutes vocation, dans le cadre de l’Open Data, à être mises à disposition sur Internet.

Dans ce cadre, il existe deux hypothèses dans lesquelles l’Open Data implique, directement ou indirectement, le traitement de données à caractère personnel.

ٰLe traitement de données personnelles et l’Open Data : deux hypothèses

La première hypothèse est liée à la situation où les informations du secteur public se composent elles-mêmes de données à caractère personnel.

Les acteurs publics en charge de réaliser une mission de service public disposent de très nombreuses informations, dont certaines comprennent évidemment des données à caractère personnel relatives aux administrés. Il peut s’agir en premier lieu de données à caractère personnel publiées pour répondre à une obligation explicite du législateur, notamment pour assurer la publicité légale d’une information publique et produire ainsi les effets juridiques liés à l’acte administratif. Exemples : arrêté de nomination d’un agent public, arrêté d’attribution d’une médaille du travail ; permis de construire ; annuaires des agents des administrations ; résultats d’examen ; etc.

Il peut également s’agir de données à caractère personnel dont la communication et la réutilisation sont encadrées (les destinataires bénéficiant de ce droit d’accès à l’information complète sont lors qualifiés de « tiers autorisés »), ou au contraire interdites. Exemples : relevés de propriété ; salaires des hauts fonctionnaires ; avis d’imposition ; liste électorale ; actes de l’état civil ; archives publiques ; données cadastrales ; etc.

Enfin, les administrations disposent de très nombreuses informations contenant d’autres données à caractère personnel identifiantes, directement ou indirectement, dont la mise à disposition sur Internet ou la communication à des tiers non autorisés ne peut être opérée sans avoir été préalablement anonymisées. Néanmoins, il est envisageable que certaines de ces données à caractère personnel soient mises à disposition, non de façon intentionnelle, mais à cause d’une anonymisation insuffisante. Exemples : statistiques judiciaires avec unités trop faibles ; statistiques fiscales avec une attache géographique trop étroite ; « base géographique de référence » [cf. cadastre.gouv.fr] ; etc.

La seconde hypothèse concerne la réutilisation des informations publiques qui peut permettre, par recoupement, l’identification ou la réidentification de personnes.

Sans même contenir initialement de données identifiantes, les informations publiques peuvent, par recoupement, soit avec d’autres informations publiques mises à disposition, soit avec d’autres données disponibles sur Internet, permettre l’identification ou la réidentification de personnes physiques. Cette identification pourrait ainsi intervenir par le biais du recoupement d’informations en Open Data ou du recoupement entre informations Open Data et informations Big Data. Le caractère « personnel » de la donnée est alors attribué aux informations publiques mises à disposition, non par nature, mais par destination. Plus que sa qualité intrinsèque, c’est bien l’usage fait de la donnée initiale qui lui confère son caractère personnel.

Prenons l’exemple des parcelles cadastrales. Le site cadastre.gouv.fr met à disposition la référence et l’adresse de la parcelle cadastrale, sans autre donnée personnelle. Des mesures sont prises pour limiter au maximum la diffusion de données à caractère personnel, ce qui matérialise le droit d’opposition des personnes concernées à la diffusion sur Internet de données les concernant : les photographies des maisons individuelles et des personnes sont occultées, ainsi que les mécanismes de sécurité des entrées ; les données de thermographie sont agrégées au niveau d’un quartier ; etc. Néanmoins, l’identité de ces personnes est susceptible d’être révélée par une simple recherche annuaire inversé.

L’autre exemple similaire est celui du portail « Paris Data », qui diffuse de nombreuses données cartographiques, par exemple la carte des 70 espèces d’arbres présentes à Paris, utile pour les allergiques. Les données mises à disposition sur ce portail peuvent néanmoins permettre l’identification des personnes via le plan parcellaire qu’il propose. Fort de ces informations « anonymes » conjuguées à des données personnelles déjà structurées ou simplement accessibles, tout responsable de traitement, et plus largement encore tout

50 – AVIS DU CONSEIL ÉCONOMIQUE, SOCIAL ET ENVIRONNEMENTAL

internaute, pourra aisément compléter le profil des personnes dont il détient déjà des données identifiantes. De façon paradoxale, cette seconde hypothèse est donc à la fois la plus probable (les administrations n’ont pas la volonté première de diffuser directement des données à caractère personnel) et la moins prévisible : les réidentifications de personnes vont souvent intervenir de manière incidente, c’est-à-dire sans volonté particulière du réutilisateur qui va simplement enrichir son patrimoine informationnel préexistant. Quelle que soit l’origine ou la modalité d’une telle réidentification, il s’agira alors d’un traitement de données à caractère personnel.

A cet égard, il y a lieu de rappeler l’acception large des notions de donnée à caractère personnel et de traitement de données que la CNIL⁶⁶, comme le G29⁶⁷, a toujours retenus : toute information est susceptible de constituer une donnée à caractère personnel, dès lors que, combinée avec d’autres informations, elle est susceptible de permettre l’identification de personnes physiques. Cette acceptation large est d’ailleurs maintenue dans le cadre du projet de règlement communautaire concernant la protection des données personnelles⁶⁸.

ٰLes problématiques « de vie privée » soulevées par l’Open Data

En postulant que les traitements liés à l’Open Data impliquent la mise en œuvre de traitements de données à caractère personnel, et la mise à disposition et à la réutilisation d’informations publiques, force est de constater que l’Open Data soulève, par essence, des difficultés importantes du point de vue de la protection des données personnelles, et plus globalement de la vie privée. Si ces risques sont difficiles à apprécier a priori, du fait du manque de recul et des possibilités infinies de traitement et de retraitement des informations publiques, il n’en demeure pas moins pour le CESE qu’il est nécessaire de les anticiper.

La seconde difficulté majeure cristallisée par l’Open Data est de raisonner en termes de collecte et de traitement alors qu’est en cause la réutilisation.

Ce qu’introduit l’Open Data, c’est précisément la déconnexion entre le temps de la collecte des données brutes et du traitement lui-même, et celui de la réutilisation des données lors des multiples traitements ultérieurs. On voit alors que les notions de finalités, destinataires, données pertinentes, etc. perdent une partie de leur sens.

En réalité, l’Open Data fait peser, par nature, des interrogations sur l’ensemble des principes cardinaux de la protection des données personnelles, au premier rang desquels le principe fondateur de finalité que nous avons parcouru plus haut. En effet, le seul objectif d’une plateforme Open Data est de rendre accessible l’information du secteur public au plus grand nombre. On pourrait dès lors considérer que la mise à disposition d’informations publiques a pour finalité d’assurer le « service public de diffusion de l’information », contribuant ainsi à la transparence du fonctionnement des organismes publics. Il n’en demeure pas moins que cette finalité très générale ne répond que difficilement à l’exigence d’une finalité « déterminée ».

Le principe de finalité est d’autant plus mis à mal que l’objectif de l’Open Data est précisément d’alimenter des traitements de réutilisation in(dé)finie. Ces traitements seront en effet développés au gré des innovations que les données ouvertes ne manqueront pas de susciter auprès de leurs lecteurs. Les finalités espérées par le mouvement de l’Open Data

66 Commission Nationale de l’Informatique et des libertés 67 Groupement des CNILs européennes

68 Le rapport du parlementaire européen ALBRECHT confirme la nécessité de maintenir une telle définition large

sont donc in(dé)finies avant toute utilisation par des personnes autres que le producteur des informations publiques⁶⁹.

Toutefois l’Open Data n’intervient pas en l’absence de tout cadre juridique : depuis 1978, la loi « Cada » et la loi « Informatique et Libertés » articulent l’accessibilité à l’information publique et la protection des données personnelles. L’article 13 de la loi du 17 juillet 1978 prévoit que les informations publiques comportant des données à caractère personnel peuvent être réutilisées si l’intéressé y a consenti, ou si l’autorité détentrice est en mesure de les rendre anonymes ou encore, à défaut d’anonymisation, si une disposition législative ou règlementaire le permet⁷⁰. Elle précise aussi que cette réutilisation est subordonnée au respect des dispositions de la loi n°78-17 du 6 janvier 1978 dite « Informatique et libertés ».

Cependant, la révolution technique et le changement d’échelle introduits par l’Open Data modifient la donne. Le volume des informations accessibles en Open Data sur support aisément exploitable permettant d’être combinées à d’autres données, est susceptible de remettre en cause l’équilibre précaire entre ces deux droits fondamentaux. Plus que l’Open Data lui-même, c’est bien le contexte dans lequel il s’inscrit (informatisation complète de la société, administrations comme acteurs privés ; diffusion spontanée de données personnelles par les internautes ; indexation sur des données nominatives par de puissants moteurs de recherche ; développement du Big Data ; etc.) qui rend nécessaire la recherche d’un nouvel équilibre entre protection de l’administré (et notamment de ses données personnelles) et transparence de l’administration (accès à l’information publique).

Il importe dès lors de définir un encadrement adapté qui, tout en étant suffisamment flexible pour permettre l’essor de l’Open Data, garantira des mesures efficaces pour protéger les administrés et leurs données personnelles.

Objets connectés et algorithmes :

Dans le document Les données numériques : un enjeu d'éducation et de citoyenneté. (Page 49-52)