Big Data et
Prévisions
Vous dites prévisions et prédictions?
Loto
Nostradamus
Neptune Boson de
Higgs Marées
Economie PMU
Météo
Sismique
_
+
Contribution des BgD
THEO RI E, M ODEL ISATI ON FOUI L LE, ALGORI T HMI QUE V IS IO N , I N T U IT IO N CREDO, SORCELL ERI E
PREDICTIONS PREVISIONS PROJECTIONS ESTIMATION CAUSALITE DEDUCTION EXPLICATION CORRELATION EXTRACTION INDUCTION ANTICIPATION DIVINATIONS
Les BgD pourront enrichir des
processus existants ou permettre des
nouveaux domaines
de prévisions.
BgD: les fondamentaux. Du tera au zetta
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00
FADETTES RELEVES EDF FEUILLES DE SOIN
echelle log10
NOMBRE VOLUME
L’explosion des
volumes accessibles au BgD sera due au
développement de l’IoT 21 zetta
18 exa
15 peta
12 tera
09 giga
06 mega
BgD: variété des gisements de données
Les précurseurs BgD, par exemple:
C.D.R (« fadettes »), comptes bancaires IT (MIB SNMP)
SI d’entreprise (CRM, ERP) LHC
Open Data, « Etalab »
Santé (FSE), Transports, etc.
Internet (fixe et mobile)
Google, Facebook, etc.
Toutes sources de géolocalisation (cellulaire, GPS) Les e-transactions
Objets (M2M, IoT)
Véhicules connectés, RFID, Smart Grid, domotique, etc.,
etc.
Prévisions: approche classique déductive
Théorie et/ou Modèle
Programme Simulation numérique Données
Prévisions
Exemples:
• Météo
• Economie
• Sondages électoraux
• ?Sismique, Volcanologie?
Les limites de ces prévisions:
Données insuffisantes (effet GiGo)
Modèles trop simplistes par rapport à la réalité (en particulier, hors zone de stabilité des
modèles)
« Plafond de Verre » dû à la nature complexe des phénomènes:
Chaos et effet papillon: météo
P. de Facteur Humain (PFH): économétrie, conjoncture, prévisions électorales
« Hasard sauvage »: volcanologie, sismique, bourse
Amélioration grâce des prévisions avec les BGD?
Prévisions: approche classique
déductive
Météo et BgD
Croissance des volumes de données
dues à l’augmentation des sources de
données, mais plafonnement potentiel
des performances des prévisions
Modèles économiques
Retraites (COR) Prévisions Banque de
France (modèle Mascotte)
Prévisions BgD: approche inductive
Acquisition Extraction adaptative apprenante Données
Big Data
Corrélations Prévisions Prédictions
Modélisation
inductive
La panoplie du « data scientist »
Exemple de programme d’enseignement Techno distribuée: stockage, calcul,
Structures des données: structurées et numériques, textuelles/WEB, multimédias
Apprentissage
Introduction à l’apprentissage statistique
Apprentissage supervisé (classification/régression), algorithmes (arbres, SVM, boosting, forêts aléatoires, optimisation distribuée)
Techniques avancées pour l’apprentissage (ranking, on-line, renforcement, optimisation distribuée)
Apprentissage non supervisé (clustering, modèles à variables latentes, détection de nouveautés/anomalies,
HMM (Modèle de Markov Caché), modèles graphiques, réseaux bayésiens/markoviens
Graph mining
Visualisation de données massives
Echantillon d’applications BgD identifiées
PREVISION, PREDICTION
FOUILLE, DETECTION
PILOTAGE TEMPS REEL
CRIMINALITE X X X
CHURN X X X
FRAUDE BANCAIRE X X
PREVISION TRAFIC ROUTIER X X
PARCOURS CLIENT X X
GRID NETWORK X X
DETECTION CAUSES DE PANNES X X
SCORING X
MOUVEMENTS DE FOULES X
RISQUES ASSURANCES X
GOOGLE FLU X
MAINTENANCE ET QUALITE X
FLUX DE POPULATION X
SINISTRES AGRICOLES X
AFFAIRE « BISMUTH » X X
LHC BOSON DE HIGGS X
De « l’espionnage pour votre bien » au Big Brother?
Orange mise sur l’analyse prédictive pour son scoring
Gendarmes et
industriels imaginent un nouveau logiciel pour prédire le crime
Quand Google Flu Trends éternue, le Big Data s’enrhume L’identification du Boson
de HIGGS fut un triomphe du big data au CERN
Uberisation
Réserve et
compléments
Vocabulaire du BgD
TECHNO SGBD
CLOUD
DATA WAREHOUSE HADOOP
USAGES ANALYSE PREDICTIVE CHURN (attrition)
SCORING
CORRELATIONS
MODELISATION EXPLICATIVE MODELISATION INDUCTIVES MODELISATION PREDICTIVE PREDICTIONS
,PREVISIONS PRONOSTICS ELECTORAUX OUTILS DE PREDICTION
ANALYSE FACTORIELLE TEST STATISTIQUES
(Student, Fisher, ², , etc…) DATA MINING (exploration, fouille, forage de données) EXTRACTION DE DONNEES INDUCTION STATISTIQUE MACHINE LEARNING
NoSQL
SOURCES ET COLLECTE ECHANTILLONNAGE
CDR (fadettes)
FSE (Feuilles de soins) OPEN DATA
STI (systèmes de transport)
IoT, M2M, RFID
Météo: état de l’art
Progrès de la prévision Météo
Nouveau paradigme?
Météos: que sait-on prévoir?
Quelques heures à l'avance
Des orages, des lignes de grains, des rafales, des averses, des brouillards … (taille caractéristique des phénomènes : environ 50 km) à l'échelle d'une commune.
1 à 5 jours à l'avance
L'arrivée d'une tempête (taille caractéristique du phénomène : environ 2000 km) à l'échelle d'un département (1 jour à l'avance) ou d'une région (5 jours à l'avance).
5 à 10 jours à l'avance
Un type de circulation atmosphérique, des indications sur le type de temps, une tendance pour la température (taille caractéristique des phénomènes : environ 7000 km) à l'échelle de la France.
Trois semaines à l'avance
Une indication sur les conditions moyennes (température, précipitations) à l'échelle de la France.
Par exemple : température moyenne probablement supérieure de 2 °C à la normale à l'échelle de la France.
Trois mois à l'avance
Éventuellement un signal qualitatif sur les conditions moyennes (température,
Les applications BgD dont on parle YTD
Valeur apportée par le Big Data
Selon Enjeux et Usages du Big Data, Lavoisier
BgD dans l’histoire
A partir des BgD représentées par les observations de Tycho Brahe, J.
Kepler a essayé et progressivement
« intuité » ses lois avec une
méthode inductive doublée d’une puissance phénoménale de calcul accélérée par la techno des
logarithmes.
A l’inverse, LeVerrier a déduit d’observations et des lois de la
mécanique astronomique l’existence
de Neptune.
Big Data et Open Data
Les technologies du Big Data permettent la valorisation des énormes gisements de
données publiques (Open Data) Questions:
Données gratuites ou payantes ? Qui les vend ?
le propriétaire public (mais a-t-il les moyens de les exploiter?)
l’extracteur industriel
Confidentialité et protection des données
individuelles
ESCROQUERIE HASARD SAUVAGE CHAOS PFH MODELE FAIBLE MODELE DETERMINISTE VISION INTUITIVE MODELE PREDICTIF
X ASTROLOGIE X
X LOTO X
X CAUSES DU CANCER X X
X BOURSE X X X
X SISMIQUE X
X VULCANOLOGIE X
X CONJONCTURE ECONOMIQUE X X X
X X COSMOLOGIE X X
X PREVISIONS METEO COURT TERME X X
X PREVISIONS METEO LONG TERME X
X FIABILITE SW X
X X DEMOGRAPHIE X X X
X OBSERVATOIRE DES RETRAITES X X
X SONDAGES ELECTORAUX X X
X PREVISIONS FMI OCDE X
X X RECHAUFFEMENT CLIMATIQUE/GIEC X
X TIERCE HIPPIQUE X
X FIABILITE HW X
X X L'EMPIRE ECLATE (HELENE CARRERE° X
X IMPACT DE LA "LOI DE MOORE" X
X VOYAGE DANS LA LUNE X
X DECOUVERTE NEPTUNE (LE VERRIER) X
RESULTAT ESPERE FACTEURS D'EFFICACITE
COMPLEXITE INTRINSEQUE
EFFICACITE DES OUTILS
PREVISION PREDICTION PROSPECTIVE
BgD et sondages électoraux
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
0 1 2 3 4 5 6 7
Taille d'échantillon
MARGE 10%
MARGE 5%
MARGE 1%
Populatio n
Marge d’erreur Niveau de confiance
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1 000 88 278 906 215 278 400
10 000 96 370 4 900 264 370 623
100 000 96 383 8 763 270 383 660
1 000 00
0+ 97 384 9 513 271 384 664