Les données numériques : un enjeu d'éducation et de citoyenneté.

(1)

LES AVIS DU CONSEIL ÉCONOMIQUE, SOCIAL ET

ENVIRONNEMENTAL

Les données numériques : un enjeu d’éducation

et de citoyenneté

Éric Peres

Janvier 2015

(2)

2015-01

NOR : CESL1500001X Lundi 19 janvier 2015

JOURNAL OFFICIEL

DE LA RÉPUBLIQUE FRANÇAISE

Mandature 2010-2015 – Séance du 13 janvier 2015

Question dont le Conseil économique, social et environnemental a été saisi par décision de son bureau en date du 13 mai 2014 en application de l’article 3 de l’ordonnance n^o 58-1360 du 29 décembre 1958 modifiée portant loi organique relative au Conseil économique, social et environnemental. Le bureau a confié à la section de l'éducation, de la culture et de la communication la préparation d’un avis intitulé : Les données numériques : un enjeu d'éducation et de citoyenneté.

La section de l’éducation, de la culture et de la communication, présidée par M. Philippe Da Costa, a

LES DONNÉES NUMÉRIQUES :

UN ENJEU D’ÉDUCATION ET DE CITOYENNETÉ

Avis du Conseil économique, social et environnemental

présenté par M. Éric Peres, rapporteur

au nom de la

section de l’éducation, de la culture et de la communication

(3)

2 – AVIS DU CONSEIL ÉCONOMIQUE, SOCIAL ET ENVIRONNEMENTAL

Sommaire

Avis ________________________________________ 6

Introduction 6

Constats et enjeux

⁹

Enjeux et usages du Big Data : le traitement des données numériques au cœur des transformations économiques et sociales 9

Big Data : Origine et définition 9

Ê Caractéristiques de la donnée 9

Ê Explosion, massification et stockage des données 11 Ê Production et traitement des données :

les caractéristiques du Big Data 14

Ê Des données numériques aux métadonnées 15

Ê Le Big Data et la règle des 3V : volume, variété, vitesse 16

Ê Big Data et système décisionnel 16

La donnée numérique : valorisations sociales,

économiques et environnementales 17

Ê La donnée numérique, nouvelle ressource économique 17 Ê Opportunités du Big Data :

de la santé à la maîtrise énergétique 19

Ê Le domaine de la recherche en général et médicale

en particulier 20

Ê Transition numérique et développement durable 22 Ê De la ville intelligente (smart city) à la mobilité connectée 23

La citoyenneté à l’ère du numérique, un nouveau pouvoir d’agir 24 Ê Culture, éducation et nouveaux accès aux savoirs

à l’ère du numérique 24

Ê Nouveaux pouvoirs de création et d’échanges :

des FabLabs à l’économie collaborative 30

Ê Accès aux données publiques : un nouveau regard citoyen 31 Ê Les nouveaux enjeux sociaux et culturels de la fracture numérique 35

L’enjeu de la « souveraineté numérique » 37

Ê La valeur économique captée par les GAFA

(Google, Apple, Facebook, Amazon) 38

Ê L’illusion du tout gratuit 39

(4)

Les libertés à l’ère du numérique:

une relation sous tension 40

La collecte exponentielle des données

face aux risques de l’hypersurveillance 41

Ê De la collecte de données au fichage généralisé :

de l’affaire Safari à l’affaire Snowden 41

Ê Big Data ou Big Brother ? 42

Vie privée et protection des données personnelles 45 Ê La protection de la vie privée : risques et inquiétudes 46

Ê Open Data et données personnelles 48

Ê Objets connectés et algorithmes :

nouveaux enjeux et nouveaux risques 51

Ê Puissance des plateformes et pouvoir des algorithmes 55

Protection et maîtrise des données :

nouveaux enjeux et nouvelles approches 58

La protection des données à caractère personnel :

un impératif démocratique 59

Ê La loi « Informatique et Libertés » 59

Ê Les différents textes et accords-cadres :

de la Convention 108 à la Directive 1995 63

Ê Le projet de règlement européen 65

La protection des données personnelles :

entre régulation et autorégulation 65

Ê Complémentarités de la loi et de la technologie 66 Ê La maîtrise des données personnelles :

entre confiance et réciprocité 67

Préconisations

71

Promouvoir l’éducation au numérique 71

Accompagner et soutenir le rôle éducatif

de la famille dans la transition numérique 72

Ê Promouvoir des campagnes publiques de sensibilisation

à la protection des données personnelles 72

Ê Renforcer la protection des mineurs 73

Soutenir le déploiement d’une éducation

au numérique de la maternelle à l’enseignement supérieur 74

(5)

Ê Favoriser l’acquisition d’une éducation à l’esprit critique

du développement et de la maîtrise des techniques numériques 75 Ê Renforcer l’Éducation au numérique dans les programmes scolaires 75 Ê Promouvoir la certification renforcée

via le brevet informatique et internet B2i 76 Ê Renforcer la formation au numérique

au sein de l’Education nationale et de l’enseignement supérieur 77 Ê Établissements scolaires et le déploiement des outils numériques 79

Lutter contre les nouvelles fractures numériques 80 Ê Redynamiser les politiques publiques sur les territoires 81 Ê Revitaliser les Espaces publiques numériques (EPN) 81 Ê Repenser un « service universel » dédié aux actions

d’accompagnement des citoyens vers la maîtrise

des données numériques 84

Ê Soutenir les initiatives des « tiers-lieux » pour renforcer

les réseaux d’accompagnement à la maîtrise du numérique 85 Ê Lutter contre l’enfermement de l’internet

en renforçant le lien intergénérationnel. 86

Entreprises, administrations : quelle éducation au numérique ? 87

Promouvoir une politique de sécurité et de protection des données au sein des entreprises et des administrations 87 Ê Faire de la protection des données personnelles

un nouvel avantage compétitif de l’entreprise. 88 Ê Développer le Privacy by design

comme facteur de différenciation compétitive 90 Ê Promouvoir une éthique numérique

au sein des entreprises et des administrations 91

Bâtir une politique publique du numérique

et construire une stratégie industrielle 93

Ê Développer une stratégie numérique pour les données

et les technologies de l’État 93

Ê Etablir de nouveaux principes « Design et ergonomie »

pour la démocratie à l’ère numérique 94

Ê Développer une politique publique du numérique articulée à une politique industrielle

en faveur notamment des jeunes « pousses ». 95 Ê Maîtriser les impacts énergétiques

pour une meilleure protection des données 97

Bâtir un cadre réaliste et exigeant

de protection des données à l’ère du numérique 99

(6)

Créer un cadre de protection des données

au niveau international 100

Ê Promouvoir un cadre protecteur au niveau international 100 Ê Favoriser une culture européenne du numérique

garante de l’architecture du net 101

Ê Améliorer et soutenir le projet de règlement européen

sur la protection des données 103

Ê Sécuriser les transferts de données à l’international 104

Renforcer les pouvoirs de régulation

et promouvoir la co-régulation 105

Ê Renforcer les pouvoirs de régulation de la CNIL 105 Ê Promouvoir la prospection et la labellisation 109 Ê Revoir l’encadrement des nouvelles données sensibles 109 Ê Protéger les données personnelles au sein de l’open data 110

Rechercher les voies et moyens pour une maitrise

par les individus de leurs données personnelles 111 Ê Revoir les Conditions générales de vente (CGV)

et les Conditions générales d’utilisation (CGU) 113 Ê De la récupération au partage des données,

le rôle des tiers de confiance 115

Déclaration des groupes __________________ 116

Scrutin __________________________________ 133

Annexes ______________________________________

¹³⁵

Annexe n° 1 : composition de la section de l’éducation,

de la culture et de la communication

______________

135 Annexe n° 2 : liste des personnes auditionnées

_________________

¹³⁷

Annexe n° 3 : glossaire

________________________________

138 Annexe n° 4 : table des sigles

____________________________

¹⁴¹

Annexe n° 5 : bibliographie

_____________________________

¹⁴²

(7)

LES DONNÉES NUMÉRIQUES :

UN ENJEU D’ÉDUCATION ET DE CITOYENNETÉ

¹

Avis

Introduction

Data-driven management, data marketing, désintermédiation, prescription algorithmique... pour qui veut s’immerger dans l’univers du Big Data, le passage obligé par une explication de texte est requis. Dans les années quatre-vingt-dix, l’internet était encore un outil à taille humaine et les résultats qui apparaissaient à la suite d’une requête étaient le résultat d’avis d’experts humains « identifiables ». Près d’un quart de siècle plus tard, une requête sur un moteur de recherche peut générer l’analyse des données de 200 millions de sites web. Face à cet imposant volume de données en circulation, seule une poignée d’entreprises ont su déployer une infrastructure de type Big Data capable de servir des bases d’utilisateurs supérieures à 500 millions de personnes (plus d’un milliard pour Google et Facebook, plus de 900 millions pour Microsoft ou plus de 600 millions pour Apple...). La désintermédiation est un des risques les plus importants du Big Data, en ce sens que d’ores et déjà, ces entreprises et autres plateformes du numérique proposent, comme Google à la suite d’une requête et de manière quasiment instantanée, leur propre « panneau de réponses ». Se mouvoir dans cet espace numérique requiert alors une capacité à gérer et maîtriser les données qui nous entourent.

La production des données a pour l’essentiel de notre histoire été le fruit de travaux complexes auxquels participaient de nombreux acteurs administratifs, culturels ou économiques. Le recueil des données à l’échelle d’une population entière nécessite des compétences multiples et souvent des moyens considérables. L’archivage des données constitue aussi un élément délicat et coûteux du processus de transmission des savoirs.

Les plus grandes bibliothèques du monde peuvent au mieux conserver quelques millions d’ouvrages² et la pérennisation de ces lieux nécessite d’importants moyens humains et techniques. Les processus ainsi mis en œuvre induisent une rareté des lieux de savoirs et une obligation de ne conserver de manière durable que les savoirs jugés indispensables. Qu’il s’agisse des administrations, des entreprises ou des individus, pendant l’essentiel de l’histoire de nos sociétés, l’oubli était la règle et la mémoire était l’exception. Or, les technologies numériques ont transformé ce rapport à l’information en réduisant drastiquement les coûts de stockage et de traitement des informations. Cette conservation massive des données

1 L’ensemble du projet d’avis a été adopté au scrutin public à l’unanimité des votants (voir le résultat du scrutin en annexe).

2 La bibliothèque du Congrès des États-Unis considérée comme la plus importante au monde rassemble 23 millions d’ouvrages. L’équivalent numérique des ouvrages stockés dans cette bibliothèque pourrait aujourd’hui être stockée sur 20 terabits (soit l’équivalent de quelques disques durs de haute capacité). Source Library of Congress,25 avril 2012 « A “Library of Congress” Worth of Data : It’s All In How You Define It ».

http://blogs.loc.gov/digitalpreservation/2012/04/a-library-of-congress-worth-of-data-its-all-in- how-you-define-it/

(8)

est devenue un vecteur de changement pour l’ensemble des organisations, mais elle induit aussi des changements dans nos modes de vie à mesure que les informations personnelles sont traitées et stockées. Face à l’essor du Big data, les révélations d’Edward Snowden sur les pratiques mises en place par la NSA ont permis à l’opinion publique mondiale de prendre conscience de la vulnérabilité des individus face aux dispositifs qui étaient mis en place sur Internet pour leur apporter des services nouveaux et qui pouvaient dans une logique inversée devenir un risque pour eux-mêmes et pour leurs libertés. Ces révélations sont ainsi apparues comme un nécessaire rappel à la lucidité pour les citoyens et les organisations dans la gestion des données personnelles et dans la protection des données sensibles des entreprises. Suivant les études du CREDOC³, avant même l’affaire Snowden, le premier sujet d’inquiétude des internautes reste le risque d’atteinte aux données personnelles. 86 % des mobinautes français souhaitent pouvoir interdire la transmission de leur géolocalisation à des entreprises commerciales.

La maîtrise des données numériques est désormais devenue un élément crucial de la participation à la vie sociale, culturelle et politique. Dans un premier temps, les usagers des technologies ont bénéficié de la décentralisation de la puissance de traitement en passant d’ordinateurs centraux connectés à des terminaux, puis à des micros ; nous assistons désormais à la recentralisation d’importantes masses de données via les technologies de l’informatique en « nuage » (Cloud) et bientôt la montée en puissance de services associés aux capteurs et aux objets. Avec ces changements de dispositifs technologiques, c’est la nature des données (en plus du volume des informations échangées) qui est amenée à évoluer. En effet, si pour l’essentiel, les données qui transitent sur internet sont aujourd’hui créées par les humains, dans un avenir proche ce sont les objets connectés, leurs capteurs et autres robots qui généreront la majorité du trafic sur les réseaux⁴. La capacité qui sera donnée aux citoyens de maîtriser ces nouveaux flux de données pourrait devenir l’une des caractéristiques les plus cruciales de l’architecture informationnelle de nos sociétés.

Dans le même temps, l’enjeu des données numériques est plus que jamais au cœur des questions économiques et des modèles qui les sous-tendent. Pour certains d’entre eux, il s’agit de valoriser les données des utilisateurs à des fins publicitaires, et pour d’autres d’analyser ces données afin d’établir de nouveaux services à valeur ajoutée. Ces services concernent des domaines aussi divers que la santé, la maîtrise de l’énergie, les transports, le tourisme ou la culture. À terme, de nouveaux services se mettront en place en lien avec de nouvelles générations d’objets connectés. L’intérêt pour les acteurs de l’économie numérique d’intervenir dans la fabrication des objets de grande consommation sera d’autant plus important que ces technologies permettront à leur tour de créer des services nouveaux dans la quasi-totalité des secteurs industriels.

3 http://www.arcep.fr/uploads/tx_gspublication/rapport-credoc-diffusion-tic-2012.pdf

4 « La croissance combinée du nombre d’utilisateurs d’Internet et des débits de connexion a conduit à une explosion du volume des données transitant sur les réseaux. En 2012, le trafic mensuel a été de 43 exaoctets par mois, c’est-à-dire 43 milliards de milliards d’octets (1018) ; c’est 20 000 fois plus qu’en 1996.

Le taux de croissance du trafic est encore de 40 % par an, ce qui équivaut à un quasi-doublement tous les deux ans. La montée en puissance de “l’Internet des objets” pourrait en outre donner un essor accru à cette expansion, les données transmises par les objets connectés s’ajoutant à celles issues des activités des internautes humains. » Étude annuelle 2014 du Conseil d’État : « Le numérique et les droits fondamentaux » http://www.ladocumentationfrancaise.fr/rapports-publics/144000541-etude-annuelle-2014-du- conseil-d-État-le-numerique-et-les-droits-fondamentaux

(9)

L’économie mondiale des produits et services numériques représente déjà plus d’un sixième de l’économie des biens et produits traditionnels (estimées respectivement à 15 000 et 100 000 milliards d’euros)⁵. Cette part devrait bientôt rattraper celles des industries et services traditionnels et le cœur de métier de l’ensemble des entreprises industrielles pourrait ainsi évoluer vers des services informationnels.

Ces mutations des usages liés aux données numériques correspondent aussi à des changements importants dans les formes culturelles, sociales et politiques que prennent nos sociétés. Ces mutations de nos sociétés ne peuvent (et ne doivent) pas être induites

« mécaniquement » par la capacité des technologies ou la volonté de quelques acteurs industriels. Les personnes doivent en effet participer non pas en tant qu’utilisateurs mais bien en tant que « co-architectes » de cette nouvelle société numérique. En plus de leur impact économique, les mesures qui permettront de rendre intelligibles et maîtrisables les données et les services de l’internet, revêtent un caractère politique et stratégique pour l’ensemble de nos sociétés. Autant dire que cette transition numérique pose la question des enjeux démocratiques dans une société où la relation entre la surveillance et l’Etat de droit est réinterrogée à la lumière des moyens mis en œuvre pour assurer un contrôle et une surveillance légitime de ces flux de données.

5 Source Oxford Economics et Citybank, 2011.

http://www.citibank.com/transactionservices/home/docs/the_new_digital_economy.pdf

(10)

Constats et enjeux

Enjeux et usages du Big Data :

le traitement des données numériques au cœur des transformations économiques et sociales

Pas un jour, et ce depuis plusieurs années, sans qu’un quotidien, une émission radio, un ouvrage, une conférence ne relate une discussion, une analyse autour du Big Data. Si la traduction littérale française du Big Data (la « grosse donnée ») est moins séduisante, son pouvoir de transformation révèle une force d’attraction que l’on pourrait croire sans limite.

Mais d’où vient cette donnée ? De quoi parle-t-on quand d’aucun évoque le « nouvel or noir » de l’économie que nous manipulons chaque jour ?

Big Data : Origine et définition

Si l’expression « Big Data », que l’on peut traduire par « exploitation de très grands volumes de données », n’est apparue qu’en 2010, le concept est plus ancien et remonte à plus d’une dizaine d’années, lorsque les données sont devenues trop volumineuses pour être stockées et manipulées à l’aide des techniques classiques. Dans tous les cas, lorsqu’on évoque le Big Data, le cœur du sujet demeure celui de la donnée et de son traitement.

Caractéristiques de la donnée

La donnée n’est qu’un matériau brut de base. Pourtant sa collecte et son traitement peuvent conduire au savoir entendu comme une information établie au rang de « vérité provisoire scientifiquement acceptée » et à la connaissance entendue comme ce que chacun de nous construit à partir des interactions avec son environnement. Parler de « data » évoque alors une information numérique ou alphanumérique, codée, lisible par la seule machine, en vue de son enregistrement, traitement, conservation et communication. Les processus n’ont pas contemporain. La codification, la fixation et la transmission d’informations sont une série d’opérations anciennes, qui est à l’origine du développement de l’écriture, des échanges marchands, de la comptabilité, de l’imposition, de la monnaie, des transports, des sciences et, en conséquence, de la richesse des Nations. L’observation de la structure des révolutions scientifiques⁶ suggère qu’elles suivent souvent un même déroulement : la collecte de données met à mal la théorie scientifique dominante, qui entre en crise avant d’être remplacée par une nouvelle théorie, cadre qui est mieux à même d’expliquer les données problématiques. Le meilleur exemple reste l’œuvre de l’astronome danois Tycho Brahe⁷ qui, prônant un retour à l’observation, a collecté le premier une masse étendue de données qui

6 Thomas Khun, La structure des révolutions scientifiques, Ed. Flammarion, coll. Champs, 1962..

7 Tycho Brahe, né Tyge Ottesen Brahe (1546-1601), est un astronome danois. Il prend grand soin de la fabrication et de la mise au point de ses instruments qui lui permettent de recueillir un nombre considérable de données.

(11)

a permis d’établir une cartographie fiable du ciel et de formuler des prévisions correctes sur les mouvements des astres. Dans ce travail du XVI^e siècle, la problématique de la donnée est déjà présente : la collecte massive de données et le traitement de celles-ci permettent des prédictions fiables. En ce sens, même si la donnée est une notion ancienne, c’est au début de l’époque moderne que les sciences entament un mouvement de datafication dont l’œuvre de Brahe est un exemple.

ٰDatification : une donnée codée, figée et transmissible

La datafication est plus que la simple mesure ou transformation du réel en datas qui peuvent être recueillies et analysées. C’est la perception qu’il y a, dans les grands volumes de données, plus de valeur que dans les petits volumes de datas. Cela étant, même si Brahe et d’autres peuvent être présentés comme des exemples de ce mouvement, la datafication reste jusqu’au XX^esiècle quelque chose de rare. Le développement récent de l’informatique change cela, en permettant de simplifier, d’accélérer et de massifier la collecte et le traitement des données.

Une donnée est, par définition, une information codée, figée et transmissible. La donnée nécessite une codification, ce qui permet à la fois sa collecte et son rapprochement avec d’autres données formulées dans le même référentiel. Par exemple, une date de naissance possède un format, et peut être comparée à une autre date de naissance. La donnée est figée : la donnée doit être égale à elle-même, sinon sa collecte et son traitement deviennent impossibles. Deux dates de naissances distinctes ne peuvent être une donnée qui change : ce sont deux données. Enfin, la donnée est transmissible : cela signifie qu’elle peut être mémorisée, confiée à un système d’enregistrement, pour traitement immédiat ou ultérieur.

La donnée numérique est quant à elle la donnée dont la mémorisation a été confiée à un système informatique (et non à un papier, par exemple). Cette définition, en raison de sa simplicité, est d’une grande extension et permet de désigner des réalités très différentes : une donnée numérique peut être créée et non collectée – même si, le plus souvent, on entend désigner par « donnée numérique » des données qui ont été collectées.

ٰLa donnée personnelle

À cet égard, le terme français de « donnée » est trompeur : il sous-entend que cette information est donnée volontairement. Or, une part importante des données ne sont pas perçues par leurs propres utilisateurs comme des données. Par exemple, nos données de navigation sur Internet sont des données économiques précieuses, que nous ne percevons souvent pas comme telles. Enfin, certaines données qui nous paraissent anodines, peuvent si elles sont rapprochées fournir des informations personnelles, que nous ne désirons pas partager. Bien que ces informations ne soient pas des données numériques élémentaires, elles peuvent par différents procédés de traitement devenir des données à part entière. En ce sens, la donnée ne procède pas toujours du don : elle peut être absorbée et construite.

Afin de ne pas entretenir de confusion sur le caractère volontaire ou involontaire de la donnée, on peut lui préférer le terme de « data ».

Il faut noter que la donnée personnelle est à la fois une information déclarative sur la personne et un ensemble d’informations non déclarées, mais recueillies automatiquement notamment lors de la navigation sur les sites web. Concrètement, quand un individu s’inscrit sur un site pour accéder à un produit ou un service, il donne son adresse électronique et, accessoirement, son nom, son prénom et parfois quelques autres informations. Elles contiennent ainsi l’ensemble des coordonnées, traces que nous laissons sur les sites,

(12)

moteurs de recherche, réseaux sociaux mais également dans le monde physique (musées, hôtels…). « Elles nous définissent et reflètent, parfois à notre insu, notre personnalité, nos goûts, nos aspirations, nos préoccupations, notre vie privée », pour reprendre les propos de Laure Kaltenbach du Forum d’Avignon.

L’exploitation des données personnelles⁸ n’est pas récente. En revanche, la capacité exponentielle d’outils de collecte, de stockage et la puissance des algorithmes de traitement ont pour caractéristique de circonscrire la vie privée, de prédire nos comportements et motivations – notamment d’achat.

La question du stockage et indirectement celle de la protection des données numériques concerne directement trois types d’acteurs : le citoyen, l’entreprise, l’État. Pour le citoyen se pose la question de l’hébergement de ses données personnelles hors du territoire, chez des acteurs qui ne relèvent pas forcément d’une juridiction nationale, dans des conditions de sécurité non garanties. Pour l’entreprise, cette question se pose également et est couplée à une sorte de dilemme : externaliser le stockage des données ou le gérer en interne avec les risques inhérents à cette activité. Enfin, pour l’État, s’ajoute aux enjeux précédents la question du besoin énergétique et celle du développement durable : les infrastructures de stockage des données nécessitent, entre autres, des équipements de distribution électrique.

Explosion, massification et stockage des données

Depuis les origines de l’humanité et jusqu’en 2003, l’humanité avait produit 5 exaoctets de données numériques, soit 5 milliards de milliards d’octets⁹. En 2010, il suffisait de 2 jours pour produire le même volume et depuis six ans, le poids de la data dans les communications électroniques augmente de 5 points par an¹⁰. Les sociétés Internet ont ainsi été submergées.

Pour exemple, Google traite quotidiennement plus de 24 pétaoctets de données, ce qui correspond en volume à des milliers de fois la quantité de tous les documents imprimés de la Bibliothèques du Congrès américain.¹¹

Chaque minute, 350 000 tweets, 15 millions de SMS et 200 millions de courriels sont envoyés au niveau mondial. À l’horizon 2018, le trafic généré par les téléphones mobiles devrait être douze fois plus important que celui qui est constaté aujourd’hui. La société française Criteo¹² avance ainsi que 90% de la data qui est disponible aujourd’hui dans le monde a été créée depuis deux ans. En août 2012, Facebook fait savoir que, chaque jour, étaient enregistrés sur ses réseaux 70 000 requêtes, 300 millions de photographies et 2,5 milliards d’objets documentaires échangés. Si l’on tient compte de toutes les sources de données, il faut, en 2013, dix minutes pour produire 5 exaoctets d’informations. Il fallait deux jours en 2011 pour générer une volumétrie comparable, selon Eric Schmidt, l’ancien PDG de Google.¹³

8 « Nominatives » à l’exclusion des données « sensibles » que sont notamment les données relatives à l’état de santé, aux orientations sexuelles, aux origines ethnique et à l’appartenance politique, syndicale ou religieuse.

9 Stéphano Lupieri, journalistes, Les Echos :

http://archives.lesechos.fr/archives/2012/Enjeux/00294-036-ENJ.htm#

10 Op.cit.

11 Viktor Mayer-Schonberger, Kenneth Cukier. Big Data. Editions Robert Laffont, Paris 2013, p.17.

12 Criteo est une entreprise française de reciblage publicitaire personnalisé sur Internet, fondée à Paris en 2005.

Elle est cotée au NASDAQ depuis 2013. Source Wikipédia 2014.

13 Google Inc. est une société fondée le 4 septembre 1998 dans le garage Google dans la Silicon Valley, en Californie, par Larry Page et Sergueï Brin, créateurs du moteur de recherche Google.

(13)

Les raisons de cette explosion de données tiennent à la montée en puissance des microprocesseurs et de la mémoire informatique, à la généralisation du haut débit, à la réduction des coûts de collecte, de stockage et de traitement des informations qui s’en est suivie, aux réseaux sociaux, au Web 2.0, aux smartphones, aux appareils photos numériques, à l’Internet des objets, aux nouvelles règles d’utilisation des moyens informatiques avec le cloudcomputing. Parallèlement, le coût de la mémoire numérique s’est effondré : le prix du mégaoctet¹⁴ était évalué en 1980 à 300 dollars. Il vaut aujourd’hui 0,00022 dollar.

ٰNouvelles sources de données : Open Data et objets connectées

Depuis l’émergence de la statistique publique, c’était l’acteur public qui se trouvait en charge et qui représentait l’expert des données. Il avait ses services et ses experts de données.

Manipuler les données, c’est faire émerger du sens, et faire émerger des actions, cela avait un rapport très étroit avec le pouvoir. Or aujourd’hui les données numériques ne sont pas seulement produites dans le cadre d’un service public mais par toutes nos applications et nos machines intelligentes (ordinateur, tablette, smartphone, GPS, puces RFID -Radio Frequency Identification-, texte, photo, traces numériques laissées par un objet). La variété correspond donc à la multitude de sources qui produisent ces données. Cela change la source de production de la donnée, cela change également les sources potentielles d’analyse et d’exploitation de celles-ci et cela change enfin les capacités d’expertise. Car ces données ne sont pas structurées et sont donc difficilement stockables et analysables avec des outils informatiques traditionnels.

Les objets connectés

Pour l’heure, une grande partie des données transmises par les individus aux machines passent par des terminaux fixes ou mobiles dont les individus soupçonnent la propension à collecter des données, même si les usages ne mesurent pas le volume et la valeur des données qu’ils transmettent. Le développement d’interfaces naturelles, comme les objets connectés dont on estime le nombre d’ici à 2020 à 50 milliards, laisse penser que le volume, la variété et la vélocité de la collecte et du traitement vont encore augmenter, notamment pour bénéficier non plus seulement à l’activité professionnelle, mais aux activités personnelles des individus. Ce mouvement est déjà à l’œuvre dans le life-hacking, littéralement, « la prise de contrôle de l’existence », un mouvement qui encourage l’usage des applications, non pas pour se divertir du quotidien, mais, au contraire, pour enrichir et contrôler le quotidien.

Les activités les plus touchées sont donc celles de tous les jours : la santé, l’alimentation, l’économie domestique, les déplacements, les transports, les loisirs, l’éducation, la culture.

Ainsi, même si la révolution des objets connectés est distincte de celle du Big Data, ces deux innovations se soutiennent : les bénéfices apportés par le Big Data poussent à l’adoption des objets connectés, avec cette promesse que les grands nombres pourront nous aider à mieux vivre, plus longtemps.

L’Open Data ou la libération des données publiques

L’Open Data est un mouvement visant à généraliser la mise à disposition des internautes des informations détenues par le secteur public ; un mouvement qui considère que l’ouverture et le partage des données publiques est un bien commun. Il s’agit alors de

14 1 mégaoctet = 10⁶ octets. L’octet est l’unité de mesure qui est utilisée pour indiquer une quantité de données, quantifier la mémoire d’un disque dur ou la taille d’un fichier. Un octet est composé de 8 bits, le bit étant l’unité de base en informatique (un 0 ou un 1).

(14)

rendre ces données, qu’elles aient été créées par des États ou des entreprises qui opèrent des délégations de service public, accessibles à tous, facilement et gratuitement, afin de favoriser une meilleure information des citoyens et de susciter des innovations économiques sur la base de ces informations.

En France, ce mouvement s’amorce à la fin des années 70 avec le droit d’accès aux documents administratifs (loi du 17 juillet 1978, loi dite CADA), érigé en liberté publique par le Conseil d’État en 2002. Cette loi s’inscrit dans la suite de la loi relative à l’informatique, aux fichiers et aux libertés (dite loi Informatique et libertés du 6 janvier 1978) qui dispose que l’utilisation de l’informatique ne doit pas porter atteinte aux droits de l’homme et aux libertés individuelles et publiques et de la directive européenne de 2003 sur la réutilisation des informations du secteur public. En 2008 l’État définit, dans le plan « France numérique 2012 », une stratégie pour diffuser les données publiques et favoriser leur réutilisation. Cette stratégie est mise en œuvre par l’Agence du patrimoine immatériel de l’État (APIE) qui est, entre autres, chargée de rédiger les licences fixant les conditions de diffusion et d’utilisation des données publiques. La mission Etalab, créée en 2011 auprès du Secrétariat général du gouvernement (placée maintenant auprès du Secrétariat général pour la modernisation de l’action publique) succède à l’APIE pour mettre en œuvre concrètement l’ouverture et le partage des données publiques.

Récemment mises à disposition de tous - via le portail data.gouv.fr qui les héberge et qui est administré par Etalab - pour information et traitement, l’usage a fini par réserver ce terme d’Open Data aux seules données produites et rendues disponibles par la puissance publique, ce qui désigne, à terme, une partie limitée des données disponibles en ligne. Ces données diffusées uniquement après autorisation et anonymisation¹⁵ sont réutilisées dans un cadre précis qui peut être défini par une licence. Actuellement deux licences principales en France, la Licence Ouverte (inspiré de celui des Creative Commons - CC -) et l’Open Database Licence, encadrent cette source de données et permet la reproduction, la diffusion, la transformation et l’exploitation des données.

ٰLe stockage des données : les data centers (DC)

En matière de numérique, le processus de dématérialisation renvoie couramment pour le sens commun à celui d’immatérialité. Le cloud en est le parfait exemple. Or, il est bon de rappeler que les données numériques sont physiquement stockées. Et les data centers sont ces lieux de stockage. En 2011, on en compte 2087 dans le monde.¹⁶

L’étude globale Datacenter Dynamics 2012 indique que l’investissement dans les data centers, majoritairement situé dans les régions Asie-Pacifique¹⁷, a augmenté de 22 % dans le monde par rapport à 2011. Malgré les progrès technologiques en termes de compression et de virtualisation, il sera nécessaire de multiplier par 10 le nombre de serveurs physiques d’ici 10 ans.¹⁸ Le data center (DC)¹⁹ est un emplacement de quelques centaines à quelques dizaines de milliers de mètres carrés. Il comporte des serveurs pour le traitement des

15 Ces données susceptibles d’être rendues publiques par l’État ou les collectivités territoriales sont d’abord d’ordres démographique, territorial ou financier mais, selon chaque administration, elles peuvent être très différentes

16 Fabrice Coquio in http://pro.01net.com/editorial/605472/

17 http://www.globalsecuritymag.fr

18 Christophe Brasseur, Enjeux et usages du Big Data, technologies, méthodes et mise en œuvre, Lavoisier, Hermès Science, 2013.

19 Présentation détaillée dans Data center et Développement Durable, juin 2011, Syntec Numérique.

(15)

données, des équipements de stockage, de transmission et de communication permettant les échanges internes et externes, des systèmes de refroidissement, des équipements pour fournir l’électricité.

La consommation énergétique de la donnée

La consommation électrique des data centers a fortement augmenté du fait de la densification des sites, environ 1500W/m2²⁰ aujourd’hui; ainsi un data center de 10 000 m² peut avoir une consommation équivalente à celle d’une ville de 50 000 habitants ; ceux de Google aux USA²¹ représentent une puissance de 300 MW ; dans le monde on considère qu’il y a quelques dizaines de milliers de lieux de stockage pour une puissance électrique équivalente à la production de 30 centrales nucléaires ; ils représentent environ 2% de la consommation d’électricité mondiale, avec un taux de progression annuelle de plus de 10%²². Une étude de l’université de Stanford estime qu’entre 2005 et 2010, la consommation électrique de ces usines a représenté 1,5 % de la consommation mondiale des installations de refroidissement.

b) Data center et développement durable

Pour les opérateurs de data center, l’impératif est de garantir une disponibilité maximale à leurs clients, ce qui nécessite la redondance des équipements critiques. Il s’agit de tout ce qui assure un approvisionnement électrique suffisant et de qualité, ainsi que les systèmes de refroidissement du data center. Ce qui fait que les data centers sont suréquipés et que l’efficacité énergétique n’est pas souvent au rendez-vous. Selon le cabinet Mc Kinsey ²³, la plupart des serveurs utilisent en moyenne moins de 10% de l’énergie qu’ils consomment pour traiter les données, le reste est utilisé pour maintenir les systèmes prêts ou se dissipe en chaleur ! Même chose pour le stockage ou pour les autres équipements. Cela est aussi en lien avec les possibilités « sans limite » qui ont été données aux utilisateurs/consommateurs, à savoir d’avoir tout, tout de suite, n’importe où et indéfiniment !

Production et traitement des données : les caractéristiques du Big Data

Il serait erroné de croire que le phénomène Big Data ne se réfère qu’aux « nouvelles données », notamment celles issues des blogs, des réseaux sociaux. Une grande part de la croissance exponentielle constatée concerne les données traditionnellement traitées par les entreprises, qu’elles soient issues des secteurs bancaires, média, ou réseaux publics tels que l’énergie ou les transports. Pour exemple, pas moins de 165 millions de transactions bancaires sont réalisées quotidiennement dans la zone euro ; le nombre moyen de contacts clients d’une banque française a été multiplié par 10 en moins de dix ans, les 2/3 d’entre eux concernant le canal Internet et plus de 1/3 provenant des smartphones.

Mais pour Christophe Brasseur²⁴, si jusqu’à présent on avait tendance à ne stocker que les données a priori utiles et à oublier les autres, avec les nouvelles capacités de stockage et d’analyse, il n’est plus nécessaire d’échantillonner pour exploiter les données. Toutes les données peuvent être prises en considération.

20 Idem.

21 James Glanz, New York Times, 22/09/2012.

22 How dirty is your data, Greenpeace, 2011.

23 James Glanz, op. cit.

24 C. Brasseur, op.cit.

(16)

Le Big Data peut être défini comme l’ensemble des technologies, des infrastructures et des services qui permettent la transformation des données numériques en information, et la transformation de cette information en connaissance.²⁵ L’origine du Big Data se trouve de fait dans l’explosion même du volume de ces données numériques. Mais il est aussi et avant tout un moment de l’histoire de la collecte et du traitement des données qui est marqué par la possibilité conjointe de la collecte massive de données et de leur traitement rapide.

Des données numériques aux métadonnées

^Y]

Les données numériques sont désormais « enchâssées » dans des architectures logicielles qui leur permettent de devenir intelligibles à l’ensemble des usagers de l’Internet.

Ainsi, des données qui n’étaient accessibles qu’à un petit nombre de professionnels peuvent

« prendre sens » auprès du grand public.

Ces architectures, ces « cathédrales logicielles », reposent aussi sur des données de description des données (ou métadonnées) qui sont essentielles au traitement des informations et peuvent parfois représenter une valeur économique plus importante encore que la donnée dont elles sont issues. Les métadonnées sont ainsi des informations structurées qui décrivent, expliquent, localisent ou encore facilitent la découverte, l’utilisation ou la gestion d’une ressource informationnelle (exemple des fichiers videos, musicaux, etc..). Dès lors, devient un enjeu capital la définition d’un ensemble de métadonnées communes à diverses communautés, suffisamment simple pour que des non-spécialistes puissent les créer à n’importe quel point du cycle de vie de la ressource, mais suffisamment structurées pour qu’elles puissent rendre les moteurs de recherche plus performants et donc faciliter la recherche et la récupération des ressources.

Ainsi, Kenneth Cukier²⁷ décrivait en ces termes l’importance du traitement des métadonnées pour l’ensemble des organisations : « L’innovation et la création de valeur proviennent désormais de nouvelles formes de “re-structuration” des informations, liées au développement de “l’information sur les informations” ou “métadonnées”. Celles-ci permettent aux organisations de réorganiser leurs réseaux plus facilement afin d’effectuer de nouvelles tâches, et cela signifie pour ces organisations accroître leur capacité d’apprendre en permanence et ainsi de s’adapter aux changements. »

En d’autres termes, les métadonnées organisent et suivent l’ensemble du cycle de vie numérique des informations importantes, y compris les procédures, les processus et les utilisateurs à qui les tâches sont affectées. Elles offrent ainsi une traçabilité précise dans le cadre de la protection et l’organisation des données mais permettent également de générer à leur tour les données relatives aux goûts et préférences des utilisateurs qui deviennent la base de systèmes de recommandation en ligne. Là encore, des données issues du recueil des données individuellement introduites ou collectées auprès des utilisateurs peuvent générer des informations liées à des tendances générales dans une population.

25 Commissariat général à la stratégie et à la prospective, Internet : prospective 2030, note d’analyse n°2, juin 2013.

26 Ne dites plus « Big Data », mais « mégadonnées » (Le Point, 22/08/2014)

http://www.lepoint.fr/high-tech-Internet/ni-dites-plus-big-data-mais-megadonne es-22-08-2014-1855721_47.php

27 Report of the 2007 Rueschlikon Conference on Information Policy,

http://www.cukier.com/writings/Rueschlikon2007-infogov-cukier.pdf. Kenneth Cukier est aussi le co- auteur avec Viktor Mayer-Schonberger de Big Data, la révolution des données est en marche (Lafont, février 2014).

(17)

Le Big Data et la règle des 3V : volume, variété, vitesse

Le Big Data est avant tout le point de rencontre entre la multiplication des données non structurées, les besoins d’analyse de ces données et les progrès de la technologie. On le définit souvent à partir de 3 V (volume, variété, vélocité), auxquels Christophe Brasseur adjoint un quatrième pour « valeur » (ou « valorisation »).

Selon Wikipédia, le Big Data se caractérise de la façon suivante:

– les données n’y sont pas organisées sous forme de tables et leurs structures peuvent varier (textes, vidéos, photos, sons…) ; elles sont souvent non structurées ; – elles sont produites en temps réel ;

– elles arrivent en flot continu et doivent pouvoir être intégrées quasiment instantanément ;

– elles sont méta-taguées, mais de façon disparate (localisation, heure, date…) ; – elles proviennent de sources très diversifiées (PC fixes ou portables, smartphones,

tablettes, capteurs numériques, téléviseurs connectés, puces RFID, GPS, caméras, sites, blogs, réseaux sociaux, données publiques de l’Open Data…), de façon désordonnée et non prédictible.

Cette nécessité du volume a toutefois un revers. Elle peut inciter les agents collecteurs à vouloir acquérir beaucoup d’informations, notamment des informations personnelles. Il en va de même pour la variété des données collectées car le Big Data repose sur la mise en rapport entre données de natures différentes issues notamment de l’historique de navigation, des données personnelles déclarées, ou issues de procédés de géolocalisation.

Comme dans le besoin de volume, il y a là un danger dans cette nécessité d’acquisition de données. Ce premier danger se double d’un deuxième écueil : il n’est pas aisé de savoir à l’avance quelles seront les données signifiantes.

Il serait cependant erroné de caractériser une situation de type Big Data à partir du seul critère de la volumétrie. Les outils et les volumes de données gérées ne sont pas identiques d’un secteur économique à l’autre. Il est vraisemblable que, sous l’effet de l’évolution technologique, les Big Data de 2020 n’auront pas la même définition qu’en 2013.

On peut ainsi penser que, pour les années à venir, les Big Data devraient correspondre à des volumétries allant de plusieurs dizaines de téraoctets à plusieurs pétaoctets selon les secteurs. Dès lors, un cinquième élément, la véracité, s’impose comme une caractéristique majeure et stratégique pour le Big Data, tant il est vrai qu’une information erronée peut avoir des conséquences préjudiciables à tous points de vue.

Big Data et système décisionnel

Face à ce déluge de données, les entreprises sont conduites à développer sans cesse des technologies qui permettent de stocker et de traiter en temps réel toutes ces informations disponibles, structurées ou non, provenant de multiples sources²⁸. L’enjeu est alors de les croiser et de les enrichir très rapidement, « avec un seul but : mieux connaître et comprendre la réalité et anticiper les besoins futurs » en validant des intuitions. « On parle désormais de modèles prédictifs, dans lesquels des variables connues, dites explicatives, vont être utilisées pour déterminer des variables inconnues, dites à expliquer. »

28 Christophe Brasseur, Enjeux et usages du Big Data, technologies, méthodes et mise en œuvre, Lavoisier, Hermès Science, 2013.

(18)

Le Web sémantique, qui propose de poser des métadonnées sur l’ensemble des ressources du Web, est un allié de taille pour les Big Data, dès lors que les deux mouvements poursuivent le même objectif : faire parler les masses de données.

Le changement se manifeste dans une inversion des critères qui guident habituellement nos actions. Traditionnellement, nous agissons en nous appuyant sur la connaissance causale de phénomènes. Nous savons que la concomitance de deux phénomènes ne signifie pas leur liaison logique : leur concomitance peut être une coïncidence. Donc, nous cherchons à savoir pourquoi ou comment les choses arrivent. Le Big Data, en un sens, nous fait revenir à un stade antérieur : il est un retour à la concomitance. Le Big Data permet de relever des corrélations statistiques et donc de faire une prédiction probabiliste. Concrètement, avec le Big Data, on ne sait pas toujours pourquoi telle chose va se produire, mais on peut la prévoir avec une forte probabilité. Par exemple, on peut, en temps réel, et avec une géographie précise, savoir où se trouvent les personnes qui, dans un moteur de recherche, se renseignent sur les symptômes de la grippe. Et l’on peut établir, en quelques minutes, la cartographie de l’épidémie de grippe. Les données peuvent être comparées dans le temps, dans l’espace. Les séries statistiques peuvent être rapprochées. Le Big Data ne peut pas tout prédire, mais il est un outil nouveau, d’une puissance incomparable, qui change notre manière d’agir.

Ceci étant sans vouloir mettre un coup d’arrêt à ce qui relève d’une révolution technologique dont la portée et la puissance sont fonctions du nouvel entrant économique que représente la multitude, nous avons besoin d’une culture, d’une éducation qui fasse bien comprendre qu’une donnée n’est pas quelque chose de naturel, mais de construit. Les données sont construites, produites, et le processus de fabrication est aussi important que la donnée en elle-même.

La donnée numérique : valorisations sociales, économiques et environnementales

La donnée numérique est ainsi une ressource qui devient de plus en plus déterminante du point de vue économique, et le succès de Google démontre l’efficacité d’une valorisation systématique des données collectées. Au-delà des questions liées aux capacités de stockage et des types d’applications pour exploiter ce flux ininterrompu d’octets, les questions clefs pour les entreprises seront de savoir comment intégrer et valoriser leurs données pour en faire leur modèle économique.

La donnée numérique, nouvelle ressource économique

Si l’objectif de la production de cette masse de données extrêmement variées et non structurées est leur exploitation, l’analyse des données numériques, en vue de leur valorisation, est devenue un enjeu de compétitivité tout particulièrement pour les entreprises. Plus que les caractéristiques du Big Data, ce sont les possibilités d’analyse des informations que recouvrent les données numériques, qui deviennent dès à présent et plus encore à l’avenir l’enjeu stratégique de l’économie de la data.

Christophe Brasseur explique qu’en matière de marketing, « nous sommes en train de passer d’un modèle classique de segmentation à un modèle de caractérisation comportementale.

[…] Le profiling des clients apporte sans aucun doute une valeur ajoutée à l’entreprise qui peut alors affiner et personnaliser ses produits et ses offres. » Ainsi, dans la publicité, le Big Data

(19)

permet d’offrir de nouveaux outils à disposition des PME et TPE, leur donnant la possibilité de développer leur activité d’une manière inédite.

ٰ Données et valorisation capitalistique

La donnée - et plus encore la donnée personnelle - est devenue en quinze ans le critère principal de valorisation des entreprises de la nouvelle économie. La valorisation capitalistique de certaines entreprises n’est d’ailleurs pas liée à leur chiffre d’affaire actuel, ou leur rentabilité, mais aux profits qui sont escomptés par leur croisement entre leur capacité à générer du trafic sur leur plateforme (traction) et leur capacité à recueillir des données personnelles.

Les premières informations données par les clients et les usagers des sites s’assimilent aux informations nécessaires pour constituer une base clients, qui est une première source de valeur pour une entreprise. C’est l’exemple d’Amazon pour la vente de livres en ligne qui, en 1997, employait une quarantaine de personnes pour faire de la recommandation personnalisée à ses acheteurs. Un jeune chercheur leur indique que le véritable actif de cette entreprise ne réside pas dans ces quarante « libraires », mais dans les données récoltées sur les clients de cette librairie. Il postule l’homogénéité des pratiques d’achats entre utilisateurs similaires et suggère de demander aux clients de noter, en aveugles, la qualité de la recommandation humaine et celle de la machine. Massivement, les clients plébiscitent les recommandations de la machine et l’entreprise finit par licencier ces quarante personnes.

Les premières expérimentations de Big Data en 2012 concernent entre 2 et 5 % des grandes et moyennes entreprises, entre 17 et 30 % des très grandes entreprises et plus de 90 % chez les 500 premières entreprises américaines²⁹. Pour information, le chiffre d’affaires du marché mondial du Big Data est estimé à 6,3 milliards de dollars en 2012 et devrait atteindre 8,9 milliards de dollars en 2014 et 24,6 milliards de dollars en 2016.³⁰ Quant à la croissance des revenus du marché, elle est estimée à plus de 40 % par an en moyenne, représentant 100 millions de dollars en 2009 et pourraient approcher les 50 milliards de dollars à l’horizon 2018.³¹

Ce sont ces données d’un second type qui permettent d’affiner le profil de l’individu.

Cet affinement permet deux premières valorisations économiques.

D’une part aux yeux de la publicité, cela permet de cibler avec, en théorie, une grande précision, les individus : au lieu d’engager des moyens étendus pour toucher une cible limitée, les campagnes publicitaires peuvent être ajustées à leur cible réelle, ce qui peut à la fois rendre plus efficaces les grandes campagnes, et ouvrir l’accès au marché publicitaire à des TPE et des PME, qui peuvent désormais, aves des budgets moindres, atteindre leur public.

D’autre part, cette « datafication » des usagers semble exaucer un vieux rêve du marketing : la possibilité d’ajuster l’offre à la demande, en déterminant avec exactitude la taille de la cible. Cette évolution est à la fois au bénéfice des grandes entreprises, qui peuvent optimiser leur investissement, et au bénéfice des TPE et PME qui peuvent employer des outils ou ressources qui leur étaient interdites dans le passé. Deux des entreprises les

29 Source : Talend, Gartner Group et Deloitte.

30 Source : Transparency Market Research « Big Data Market – Global Scenario, Trends, Industry Analysis, Size, Share and Forecast 2012-2018 »

31 Source : Deloitte 2013

(20)

plus exemplaires de la nouvelle économie ont tiré leur croissance de leur capacité à mettre le Big Data au service de la publicité et du marketing : Google et Facebook.

Dans cette perspective, le Big Data est une étape nouvelle dans l’automatisation et la robotisation du monde. C’est une manière de confier à la machine ce qui était auparavant aux mains d’agents humains.

ٰ Le caractère « disruptif » de la révolution numérique

Lorsqu’on évoque Internet, on parle souvent - notamment pour le champ économique - d’une « technologie de rupture » (disruptive technology) selon le sens qu’en donne Clayton Christensen dans son ouvrage The Innovator’s Dilemma publié en 1997 et dont le concept est aujourd’hui repris et développé par de nombreux acteurs du numérique comme Henri Verdier et Nicolas Colin, auteurs de L’âge de la multitude³². Pour ces deux auteurs, évoquer le caractère disruptif renvoie à la dimension innovante du numérique dont les effets sur le paysage économique peuvent être radicaux. Lorsque Joseph Schumpeter³³ parlait de

« destruction créatrice », on peut ici parler de rupture avec certains modèles existants. La dématérialisation des données, l’accroissement vertigineux des capacités de stockage, tout comme l’augmentation de la vitesse de transmission instantanée, rompant avec l’unité de lieu et de temps, remettent en question les modèles classiques.

Tous les secteurs de l’action, qu’elle soit publique ou privée, peuvent être « datafiés » et, en ce sens, tirer des bénéfices du Big Data. Ces bénéfices peuvent prendre la forme d’innovations incrémentales, qui permettent d’affiner des outils, ou d’innovations radicales, que l’on nommera aussi « innovations disruptives », qui vont restructurer le secteur auquel elles s’appliquent. Et ces innovations peuvent être soit aux mains des acteurs qui interviennent dans ces secteurs, comme l’État ou des sociétés déjà existantes, ou aux mains de sociétés intermédiaires qui peuvent se spécialiser soit dans la collecte, soit dans le traitement des données. Concrètement, quel que soit le secteur concerné, le Big Data peut permettre un affinement de l’action, grâce à une détection et une prédiction plus justes. L’effet disruptif majeur du Big Data est la possibilité d’automatisation qu’il apporte, en transmettant à la machine des fonctions qui étaient auparavant confiées à des personnes.

Pour les grands acteurs de l’informatique, comme par exemple Bill Gates, c’est le propre du progrès informatique : « automatiser ce qui peut l’être, de manière à ce que l’être humain puisse se concentrer sur ce qui lui est propre – et qui ne peut être automatisé ». Cette évolution est parfois décrite comme une évolution d’une société people-based (dont la majeure partie des opérations est traitée par des humains) à une société software-based (dont la majeure partie des opérations est traitée par des automates). D’un point de vue social, le Big Data allonge la liste des fonctions qui deviennent automatisables.

Opportunités du Big Data :

de la santé à la maîtrise énergétique

Les opportunités les plus grandes du Big Data sont probablement à découvrir. Cela étant, cette nouvelle façon d’appréhender la donnée a déjà ouvert des perspectives, à la fois au secteur public et au secteur privé. En un sens, le Big Data est un grand révélateur

32 Henri Verdier, Nicolas Colin, L’âge de la multitude, Entreprendre et gouverner après la révolution numérique, Editions A. Colin, 2012.

33 Joseph Aloïs Schumpeter (1883 –1950 ) est un économiste autrichien du milieu XXe siècle, connu pour ses théories sur les fluctuations économiques, la destruction créatrice et l’innovation.

(21)

de réel : l’action, qu’elle soit publique ou privée, ne repose plus sur l’expérience des agents, sur leurs intuitions, sur leurs croyances rationnelles, mais sur des faits statistiques. Il existe de nombreuses perspectives de réutilisations innovantes à partir des données publiques de santé. L’analyse de ces Big Data santé repose sur plusieurs bénéfices majeurs : une meilleure prise en charge du patient (passer d’une logique curative à préventive), assurer l’efficience des dépenses publiques (doublement de la population senior d’ici 2030) et offrir de nouveaux terrains d’analyses et expérimentations à la communauté de recherche scientifique (épidémiologie, maladies chroniques, pharmacovigilance…).

De même dans le milieu sportif où les capteurs biométriques permettent d’évaluer les performances des joueurs en quantifiant les données liées aux distances parcourus, aux différentes phases d’accélération et de décélération, ou encore celles liées au rythme cardiaque afin notamment de pouvoir anticiper des risques de blessures et également de vérifier l’impact de la fatigue sur le jeu pour l’adapter en conséquence. Dans un autre domaine où l’affrontement n’est plus synonyme de compétition mais de conflit armé, le Big Data offre aux organisations civiles ou militaires l’opportunité de fonder leurs décisions sur une représentation fidèle de leur environnement tout en créant il est vrai une forme de dépendance essentielle à l’égard de ces systèmes d’information et de commandement. Il en résulte que les sources de vulnérabilité qui affectent ces systèmes – mauvais traitements, paramétrage des algorithmes, sécurité - crée un nouveau champ de conflictualité qui n’obéit pas nécessairement aux principes stratégiques établis dans d’autres espaces stratégiques, qu’ils soient conventionnels ou nucléaires.

Autant dire que rares sont les domaines qui échappent aux applications liées aux capacités d’analyses offertes par le Big Data. Toutefois les domaines de la santé et de l’énergie que nous avons délibérément retenus ici sont certainement les plus significatifs des transformations opérées par le Big Data.

Le domaine de la recherche en général et médicale en particulier

Grâce au numérique, la médecine progresse à pas de géant. Les techniques biomédicales permettent de vivre mieux et plus longtemps, et les problématiques de santé prennent aussi en compte des dimensions de confort, de bien-être et de longévité notamment par l’activité sportive.

Prévention, prédiction, participation, personnalisation : tels sont les enjeux de la médecine, qui tire parti des progrès de la science pour mieux comprendre la complexité du corps humain, prévenir les maladies mais aussi améliorer l’accompagnement des patients par une personnalisation des soins et un meilleur partage entre médecins, patients et médecins-patients. Avec le numérique et l’imagerie médicale, notamment, de nouveaux outils sont apparus qui permettent d’aller encore plus loin dans la compréhension du vivant, l’analyse des cas et les interventions ; on sait aujourd’hui modéliser des organes sur ordinateur, étudier des systèmes biologiques complexes, détecter des maladies, et même optimiser des gestes chirurgicaux avec la réalité augmentée et des robots spécialisés.

En même temps, le stockage et la puissance de calcul ont rendu le génome complet d’un être humain plus facile à analyser et à stocker et ce à un coût dérisoire. Le coût de

(22)

séquençage du génome humain approche les 100 dollars³⁴ et le temps pour l’analyser a chuté de 13 ans à moins de 3 jours. Les données de plusieurs millions de personnes peuvent ainsi être gérées et traitées dans des bases de données à plusieurs niveaux de stockage. Le véritable défi est alors de combiner ces ensembles de données dans différentes archives et de les croiser avec les dossiers de patients, les traitements et les résultats pour permettre de guérir de nombreuses maladies, dont le cancer.

De nombreux défis restent à relever mais, dans les pays développés, où l’espérance et la qualité de vie se sont nettement améliorées, la recherche de confort et de bien-être prend aussi de plus en plus d’importance. Là également, l’apport du numérique est stratégique, avec le développement de la santé à domicile ou le quantified self, par exemple, qui améliorent l’accès à des soins plus personnalisés³⁵.

Dans le secteur médical, la détection des pathologies et la prévention peuvent être réalisées avec plus de réussite par l’observation des corrélations statistiques entre facteurs en apparence sans lien, que par l’action concertée des médecins. Ainsi, une étude récente de Microsoft Research a permis de montrer à partir de données récupérées sur la base de 25 000 lits en hôpital comment, en matière de lutte contre les maladies nosocomiales, on pouvait à l’aide d’une cartographie gérer les emplacements différenciés des patients pour limiter les risques.

À cet égard, le Big Data ouvre la possibilité d’automatiser une partie du secteur médical - tout comme les recommandations de lectures fournies par l’automate d’Amazon sont considérées par les utilisateurs d’Amazon comme plus efficaces que des recommandations humaines. Deux acteurs majeurs Apple et Samsung viennent de créer des bases de données sur la santé. Aux États-Unis, plusieurs hôpitaux sont partenaires d’Apple pour accéder aux données des futurs patients. Il est toutefois prévu un accord préalable de l’utilisateur.

Automne 2012, en encourageant l’ouverture et l’exploitation des données publiques, le gouvernement américain a permis à IBM de créer un logiciel de médecine prédictive : Patient Care and Insights. Le logiciel puise dans l’historique du système de santé en analysant et en recoupant des centaines de milliers de données - traitement, résultats, procédures, morphologies, géographies, climats, etc. - pour permettre aux médecins d’anticiper les futures pathologies de leurs patients en détectant certaines similitudes, et ainsi assurer une prise en charge préventive.

Si la recherche ne doit pas être entravée, sa conduite et les finalités doivent être particulièrement encadrées, notamment en ce qui concerne la donnée médicale et la sécurisation de celle-ci. Ces traitements massifs de données doivent concourir à renforcer de véritables politiques de santé et de prévention. La détention de ces données par des entreprises privées impose un encadrement rigoureux au-delà des règles éthiques et qui ne puisse souffrir d’aucune remise en cause pour des raisons de profitabilités financières.

Car les risques ne sont pas loin de voir des dispositifs échapper à tout contrôle et porter par là même atteinte tant à la vie privée et au respect de la dignité humaine qu’à l’exigence d’un accès au soin pour tous. En France, Axa a annoncé que les assurés qui accepteraient de porter des capteurs pourraient se voir appliquer des tarifs dégressifs. Aux États-Unis, les assureurs n’hésitent pas à différencier les tarifs de leur complémentaire santé en fonction du profil de l’assuré avec un risque non négligeable de non-couverture pour les profils les

34 http://investor.illumina.com/phoenix.zhtml?c=121127&p=irol-newsArticle&ID=1890696 35 Source : INRIA, rapport 2012.

Les données numériques : un enjeu d'éducation et de citoyenneté.

Les données numériques : un enjeu d’éducation

et de citoyenneté

Éric Peres

Janvier 2015

JOURNAL OFFICIEL

DE LA RÉPUBLIQUE FRANÇAISE

LES DONNÉES NUMÉRIQUES :

UN ENJEU D’ÉDUCATION ET DE CITOYENNETÉ

Sommaire

 Avis ________________________________________ 6

Constats et enjeux

Préconisations

 Déclaration des groupes __________________ 116

 Scrutin __________________________________ 133

Annexes ______________________________________

______________

_________________

________________________________

____________________________

_____________________________

LES DONNÉES NUMÉRIQUES :

UN ENJEU D’ÉDUCATION ET DE CITOYENNETÉ

Avis

Introduction

Constats et enjeux

Enjeux et usages du Big Data :

le traitement des données numériques au cœur des transformations économiques et sociales

Big Data : Origine et définition

Caractéristiques de la donnée

Explosion, massification et stockage des données

Production et traitement des données : les caractéristiques du Big Data

Des données numériques aux métadonnées

Le Big Data et la règle des 3V : volume, variété, vitesse

Big Data et système décisionnel

La donnée numérique : valorisations sociales, économiques et environnementales

La donnée numérique, nouvelle ressource économique

Opportunités du Big Data :

de la santé à la maîtrise énergétique

Le domaine de la recherche en général et médicale en particulier

Avis ________________________________________ 6

Déclaration des groupes __________________ 116

Scrutin __________________________________ 133