• Aucun résultat trouvé

Des  Big  Data     aux  Big  Brothers

N/A
N/A
Protected

Academic year: 2021

Partager "Des  Big  Data     aux  Big  Brothers"

Copied!
41
0
0

Texte intégral

(1)

Des  Big  Data     aux  Big  Brothers    

Jean-­‐Gabriel  Ganascia  

Equipe  ACASA  –  LIP6  –  Université  Pierre  and  Marie  Curie   Labex  OBVIL  –  PRES  “Sorbonne  Université”  

4,  place  Jussieu,  75252  Paris  Cedex  05,  FRANCE   Jean-­‐Gabriel.Ganascia@lip6.fr  

(2)

! Big  Data  

! Déluge  

 informaJonnel  

! Les  3  V  

! La  logique  des     Big  Data  

! «  Big  Brother  »  

! Données  personnelles  

! ProtecJon?  

! Qui  sont  les  «  Big  Brothers  »?  

! UJlisaJon  des  Big  Data  

! Nouvelle  économie  

! Conséquences  poliJques  

Synop'que  

(3)

Big  Data  –  masses  de  données   Déluge  informa'onnel  

•  Livres  

•  Gazouillis  (tweets,  ...)    

•  Traces  

–  Caméras  de  surveillances   –  Empreintes  digitales  

–  Requêtes  google  

•  Archives  individuelles  

•  Science  

–  Génome,  séquence  ADN   –  Astronomie  

•  ...  

(4)

Unité  de  mémoire:    

le  nœud  de  mouchoir  

1  caractère  typographique  =  8  mouchoirs  

1  nœud  de  mouchoir  =  1  «  bit  »  

(5)

Accroissement  des  quan'tés   Masses  de  données  -­‐  «  Big  Data  »  

Quan'té  d’informa'on  

•  1  livre,  1  million  de  caractères  

!  1000  Ko  =  1Mo  (106  octets)  =   8  millions  de  mouchoirs  

•  Catalogue  des  livres  et  imprimés   de  la  BNF:    

14  millions  d’ouvrages  =    14To   1  Go  =  103Mo  =  109o  (1  milliard)   1  To  =  1012o  (1000  milliards)  

 

(6)

Produc'on  des  données   en  nombre  de  BNF  

•  Twi+er  produit  7  To/jour   c’est-­‐à-­‐dire  ½  BNF!  

•  Facebook:  500  To/jour  

•  Radio  télescope  Murchison   Widefield  Array  (Australie):    

–  données  brutes  7000  To/

minutes,  c’est-­‐à-­‐dire  500   BNF/minute  

–  données  analysées:  50To   par  jour  (4  BNF/jour)  

•  Volume  total  du  web  en  2015:  

7  Zeta-­‐octets  =  7  1021o    

     ½  milliard  de  BNF    

(7)

Big  Data  

Les  3  V  

•  Volume:  To  –  Po  (de   1012o  à  1015o)  

•  Vélocité:  données   changeantes  

•  Variabilité:  non  

organisées,  toutes  les   langues,  mélange  

image,  son,  …  

(8)

La  logique  des  masses  de  données  

Trois  caractéris'ques:  

•  Les  3V  

–  Volume   –  Variété   –  Vélocité  

•  Acquisi>on  con>nue  

–  «  Crowdsourcing  »   –  requêtes,  ...  

•  Absence  d’échan>llonnage  

–  Recherche  de  d’anomalies  

(9)

! Big  Data  

! Déluge  

 informaJonnel  

! Les  3  V  

! La  logique  des     Big  Data  

! «  Big  Brother  »  

! Données  personnelles  

! ProtecJon?  

! Qui  sont  les  «  Big  Brothers  »?  

! UJlisaJon  des  Big  Data  

! Nouvelle  économie  

! Conséquences  poliJques  

Synop'que  

(10)

1984  est  il  devant  ou  derrière  nous?  

•  Progrès  des  

disposi'f  de  prise   d’informa'on  

personnelle  

•  Nous  sommes  suivis   à  la  trace  

 

(11)

Ces  traces  que  nous  laissons!  

•  Conscientes  

–  Réseaux  sociaux   –  Blogs,  écrits,  …  

(12)

Archives  individuelles  

(13)

«  Lifelog  »  –  mémoire  de  vie  

(14)

Kiwi:  traces  physiologiques  

(15)

Ces  traces  que  nous  laissons!  

•  Conscientes  

–  Réseaux  sociaux   –  Blogs,  écrits,  …  

•  Par  devers  nous  

–  Paiements  bancaires   –  Cartes  de  santé  

–  Passe  navigo,  …  

•  Inconscientes  

–  Coups  de  fils,  mails…  

–  Cookies  

(16)

Cookies  

(17)

Requêtes  sur  moteurs  de  recherche  

•  Auto-­‐complé'on  des  requêtes  

•  Suivi  et  profilage  

–  Publicité  ciblée   –  Sécurité…  

•  Exploita'on  massive  de  ces  requêtes  –  Big  Data  

(18)

Echapper?  

•  Peut-­‐on  l’espérer  en  se   contentant  de  cul'ver   son  jardin?  

•  Pas  pour  longtemps…  

(19)

! Big  Data  

! Déluge  

 informaJonnel  

! Les  3  V  

! La  logique  des     Big  Data  

! «  Big  Brother  »  

! Données  personnelles  

! ProtecJon?  

! Qui  sont  les  «  Big  Brothers  »?  

! UJlisaJon  des  Big  Data  

! Nouvelle  économie  

! Conséquences  poliJques  

Synop'que  

(20)

Changer  de  moteur  de  recherche  

(21)

Principe  de  finalité  de  la  CNIL  

•  Big  Data:  recueil   systéma'que,  sans   hypothèse  a  priori    

•  Comment  respecter   ce  principe  dans  le   contexte  des  Big   Data?  

(22)

Principe  de  propor'onnalité    de  la  CNIL  

•  Big  Data:  

conserva'on,   partage  et  

accumula'on  de   toutes  les  données  

•  Comment  respecter   ce  principe  dans  le   contexte  des  Big   Data?  

(23)

Peut-­‐on  oublier  sur  Internet?  

•  Fonc'onnement  moteurs  de  recherche:  

– Aspira'on  du  web  avec  des  bots,  puis  analyse   – Indexa'on  des  sites:  

•  Principe:  dic'onnaire  inversé:  

De  «  collec'onner  »   et  «  monnaies  »,     retrouver    

«  numismate  »  et   exclure    

«  philatéliste  »  parce   qu’il  y  a  «  monnaies  »    

philatéliste n. m. et f.

Personne qui collectionne les timbres-poste.

numismate n. m. et f.

Personne qui collectionne les monnaies ! anciennes et des médailles.

(24)

Peut-­‐on  oublier  sur  Internet?  

•  Fonc'onnement  moteurs  de  recherche:  

– Aspira'on  du  web  avec  des  bots,  puis   analyse  

– Indexa'on  des  sites:  

•  Principe:  dic'onnaire  inversé  

– Ordonnancement  des  sites:    

•  Élimina'on  des  mots  sans  intérêt  (TFIDF)  

–  Mots  trop  fréquents   –  Mots  trop  rares  (hapax)    

•  Algorithme  de  préférences  (ex.  Google)  

(25)

Indexa'on  moteurs  de  recherche  

•  Mot

1

:  url

1,1

,  url

1,2

,  url

1,3

,  ...  url

1,n

,  url

1,n+1

,  ...    

•  Mot

2

:  url

2,1

,  url

2,2

,  url

2,3

,  ...  url

2,m

,  url

2,m+1

,  ...    

•  ...  

•  Mot

p

:  url

p,1

,  url

p,2

,  url

p,3

,  ...  url

p,l

,  url

p,l+1

,  ...    

•  ...  

(26)

Oubli  sur  Internet  Mot

P  

url

p,1

,  url

p,2  

Sociétés  commerciales  de  déréférencement:    

•  Mot1:  url1,1,  url1,2,  url1,3,  ...  url1,n,  url1,n+1,  ...    

•  Mot2:  url2,1,  url2,2,  url2,3,  ...  url2,m,  url2,m+1,  ...    

•  ...  

•  Motp:  urlp,q,  urlp,q+1,  urlp,q+2,  ...  Urlp,r,...    

urlp,1,  urlp,2,  urlp,3,  ...  urlp,l,  urlp,l+1,  ...    

•  ...  

Ac>on:  ajout  informa'on  neutre   But:  enfouir  l’informa'on  gênante  

(27)

Oubli  sur  Internet  Mot

P  

url

p,1

,  url

p,2

 

«  Droit  à  l’oubli  »  Google  

•  Mot1:  url1,1,  url1,2,  url1,3,  ...  url1,n,  url1,n+1,  ...    

•  Mot2:  url2,1,  url2,2,  url2,3,  ...  url2,m,  url2,m+1,  ...    

•  ...  

•  Motp:  urlp,1,  urlp,2,  urlp,3,  ...  urlp,l,  urlp,l+1,  ...    

•  ...  

Suppression  Motp:  urlp,1,  ...  urlp,l,  urlp,l+1,    

Les  URLs  urlp,1,  urlp,2,  restent  présentes,  mais   associées  à  d’autres  noms...  

 

(28)

! Big  Data  

! Déluge  

 informaJonnel  

! Les  3  V  

! La  logique  des     Big  Data  

! «  Big  Brother  »  

! Données  personnelles  

! ProtecJon?  

! Qui  sont  les  «  Big  Brothers  »?  

! UJlisaJon  des  Big  Data  

! Nouvelle  économie  

! Conséquences  poliJques  

Synop'que  

(29)

Nouvelle révolution scientifique

" 

Science moderne

expérimentation in vivo et in vitro Intervention sur le monde extérieur

" 

Science in silico

Expérimentation sur données

(30)

«  Au  bonheur  des  dames  »  

Emile  Zola    

(31)

Marchandisa'on  des  iden'tés  

De  la    

«  femme  sans  tête  »   à  la    

«  femme  100  têtes  »    

Importance  du   profilage…  

(32)

Qui  sont  les  Big  Brothers?  

•  Gouvernements  

–  PRISM  (Etats-­‐Unis)   –  …  

(33)

PRISM  

Differents  programmes  de   surveillance  

•  «  UPSTREAM  »:  Aspira'on   données  sur  cables  sous-­‐

marins  

–  Mails  

–  Téléphones  

•  Requêtes  auprès  des   acteurs  de  l’internet    

–  AOL,  Skype,  Microsos,   Facebook,  Yahoo,  Apple,   Google,  YouTube,  …  

(34)

Qui  sont  les  Big  Brothers?  

•  Gouvernements  

–  PRISM  (Etats-­‐Unis)   –  …  

•  Sociétés  privées  

–  GAFA  (Goole,  Apple,  Amazon,  Facebook)  

–  Nouvelle  économie  fondée  sur  le  profilage  

(35)

La  prise  de  pouvoir  des  GAFA  

Préroga>ves  

régaliennes  des  Etats  

•  Baure  monaie  

•  Organiser  la  santé  

•  Gérer  l’état  civil  

•  S’occuper  de  la   forma'on  

•  Dresser  le  cadastre  

•  …  

(36)

Qui  sont  les  Big  Brothers?  

•  Gouvernements  

–  PRISM  (Etats-­‐Unis)   –  …  

•  Sociétés  privées  

–  GAFA  (Goole,  Apple,  Amazon,  Facebook)  

–  Nouvelle  économie  fondée  sur  le  profilage  

•  Nouveaux  acteurs  

–  Hommes  poli'ques   –  Maffias  

–  ONG   –  …  

(37)

Cyber-­‐auaques  

(38)

Cyber-­‐auaques  

(39)

Nombre  d’auaques  

(40)

ONG  –  Maffias  –  Etats  

(41)

« 1984 » est-il derrière ou devant?

Lannée 1984 est en arrière…

Les dispositifs de prise d’information sont en avance

Faut-il craindre la

généralisation de la surveillance?

Ou la perte de souveraineté

numérique au profit de nouveaux acteurs?

Références

Documents relatifs

1) L’avenue Omotesandō et ses rues adjacentes, entre les arrondissements de Minato et Shibuya ; 2) Les quartiers de la gare d’Ebisu et Daikanyama dans l’arrondissement de

Arcot Rajasekar is a Professor in the School of Library and Information Sciences at the University of North Carolina at Chapel Hill, a Chief Scientist at the Renaissance

This paper seeks to remove legal obstacles in the era of big data by defining big data from a legal perspective and finding solutions to the key legal challenges of big data such

I Sequential text classification offers good performance and naturally uses very little information. I Sequential image classification also performs

In SUPERSEDE, an integration- oriented RDF graph is used to represent and integrate the data related to monitoring and user feedback, as well as crossing it with contextual data

Installation and configuration of the platform for data management and analytics will allow us to access all the sample data possessed by a telecom operator in

Keywords: pairwise coupling, stochastic gradient descent, support vec- tor machine, multiclass learning, large datasets..

Moreover, the actual increase of the interests in manufacturing process man- agement and analysis in manufacturing leads some authors to present in [21] a manufacturing data