• Aucun résultat trouvé

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

N/A
N/A
Protected

Academic year: 2022

Partager "Big Data et Prévisions. Philippe Picard, le 24 juin Page 1"

Copied!
27
0
0

Texte intégral

(1)

Big Data et

Prévisions

(2)

Vous dites prévisions et prédictions?

Loto

Nostradamus

Neptune Boson de

Higgs Marées

Economie PMU

Météo

Sismique

_

+

(3)

Contribution des BgD

THEO RI E, M ODEL ISATI ON FOUI L LE, ALGORI T HMI QUE V IS IO N , I N T U IT IO N CREDO, SORCELL ERI E

PREDICTIONS PREVISIONS PROJECTIONS ESTIMATION CAUSALITE DEDUCTION EXPLICATION CORRELATION EXTRACTION INDUCTION ANTICIPATION DIVINATIONS

Les BgD pourront enrichir des

processus existants ou permettre des

nouveaux domaines

de prévisions.

(4)

BgD: les fondamentaux. Du tera au zetta

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00

FADETTES RELEVES EDF FEUILLES DE SOIN

echelle log10

NOMBRE VOLUME

L’explosion des

volumes accessibles au BgD sera due au

développement de l’IoT 21 zetta

18 exa

15 peta

12 tera

09 giga

06 mega

(5)

BgD: variété des gisements de données

Les précurseurs BgD, par exemple:

C.D.R (« fadettes »), comptes bancaires IT (MIB SNMP)

SI d’entreprise (CRM, ERP) LHC

Open Data, « Etalab »

Santé (FSE), Transports, etc.

Internet (fixe et mobile)

Google, Facebook, etc.

Toutes sources de géolocalisation (cellulaire, GPS) Les e-transactions

Objets (M2M, IoT)

Véhicules connectés, RFID, Smart Grid, domotique, etc.,

etc.

(6)

Prévisions: approche classique déductive

Théorie et/ou Modèle

Programme Simulation numérique Données

Prévisions

Exemples:

Météo

Economie

Sondages électoraux

?Sismique, Volcanologie?

(7)

Les limites de ces prévisions:

Données insuffisantes (effet GiGo)

Modèles trop simplistes par rapport à la réalité (en particulier, hors zone de stabilité des

modèles)

« Plafond de Verre » dû à la nature complexe des phénomènes:

Chaos et effet papillon: météo

P. de Facteur Humain (PFH): économétrie, conjoncture, prévisions électorales

« Hasard sauvage »: volcanologie, sismique, bourse

Amélioration grâce des prévisions avec les BGD?

Prévisions: approche classique

déductive

(8)

Météo et BgD

Croissance des volumes de données

dues à l’augmentation des sources de

données, mais plafonnement potentiel

des performances des prévisions

(9)

Modèles économiques

Retraites (COR) Prévisions Banque de

France (modèle Mascotte)

(10)

Prévisions BgD: approche inductive

Acquisition Extraction adaptative apprenante Données

Big Data

Corrélations Prévisions Prédictions

Modélisation

inductive

(11)

La panoplie du « data scientist »

Exemple de programme d’enseignement Techno distribuée: stockage, calcul,

Structures des données: structurées et numériques, textuelles/WEB, multimédias

Apprentissage

Introduction à l’apprentissage statistique

Apprentissage supervisé (classification/régression), algorithmes (arbres, SVM, boosting, forêts aléatoires, optimisation distribuée)

Techniques avancées pour l’apprentissage (ranking, on-line, renforcement, optimisation distribuée)

Apprentissage non supervisé (clustering, modèles à variables latentes, détection de nouveautés/anomalies,

HMM (Modèle de Markov Caché), modèles graphiques, réseaux bayésiens/markoviens

Graph mining

Visualisation de données massives

(12)

Echantillon d’applications BgD identifiées

PREVISION, PREDICTION

FOUILLE, DETECTION

PILOTAGE TEMPS REEL

CRIMINALITE X X X

CHURN X X X

FRAUDE BANCAIRE X X

PREVISION TRAFIC ROUTIER X X

PARCOURS CLIENT X X

GRID NETWORK X X

DETECTION CAUSES DE PANNES X X

SCORING X

MOUVEMENTS DE FOULES X

RISQUES ASSURANCES X

GOOGLE FLU X

MAINTENANCE ET QUALITE X

FLUX DE POPULATION X

SINISTRES AGRICOLES X

AFFAIRE « BISMUTH » X X

LHC BOSON DE HIGGS X

(13)

De « l’espionnage pour votre bien » au Big Brother?

Orange mise sur l’analyse prédictive pour son scoring

Gendarmes et

industriels imaginent un nouveau logiciel pour prédire le crime

Quand Google Flu Trends éternue, le Big Data s’enrhume L’identification du Boson

de HIGGS fut un triomphe du big data au CERN

Uberisation

(14)
(15)

Réserve et

compléments

(16)

Vocabulaire du BgD

TECHNO SGBD

CLOUD

DATA WAREHOUSE HADOOP

USAGES ANALYSE PREDICTIVE CHURN (attrition)

SCORING

CORRELATIONS

MODELISATION EXPLICATIVE MODELISATION INDUCTIVES MODELISATION PREDICTIVE PREDICTIONS

,

PREVISIONS PRONOSTICS ELECTORAUX OUTILS DE PREDICTION

ANALYSE FACTORIELLE TEST STATISTIQUES

(Student, Fisher, ², , etc…) DATA MINING (exploration, fouille, forage de données) EXTRACTION DE DONNEES INDUCTION STATISTIQUE MACHINE LEARNING

NoSQL

SOURCES ET COLLECTE ECHANTILLONNAGE

CDR (fadettes)

FSE (Feuilles de soins) OPEN DATA

STI (systèmes de transport)

IoT, M2M, RFID

(17)

Météo: état de l’art

(18)

Progrès de la prévision Météo

(19)

Nouveau paradigme?

(20)

Météos: que sait-on prévoir?

Quelques heures à l'avance

Des orages, des lignes de grains, des rafales, des averses, des brouillards … (taille caractéristique des phénomènes : environ 50 km) à l'échelle d'une commune.

1 à 5 jours à l'avance

L'arrivée d'une tempête (taille caractéristique du phénomène : environ 2000 km) à l'échelle d'un département (1 jour à l'avance) ou d'une région (5 jours à l'avance).

5 à 10 jours à l'avance

Un type de circulation atmosphérique, des indications sur le type de temps, une tendance pour la température (taille caractéristique des phénomènes : environ 7000 km) à l'échelle de la France.

Trois semaines à l'avance

Une indication sur les conditions moyennes (température, précipitations) à l'échelle de la France.

Par exemple : température moyenne probablement supérieure de 2 °C à la normale à l'échelle de la France.

Trois mois à l'avance

Éventuellement un signal qualitatif sur les conditions moyennes (température,

(21)

Les applications BgD dont on parle YTD

(22)

Valeur apportée par le Big Data

Selon Enjeux et Usages du Big Data, Lavoisier

(23)

BgD dans l’histoire

A partir des BgD représentées par les observations de Tycho Brahe, J.

Kepler a essayé et progressivement

« intuité » ses lois avec une

méthode inductive doublée d’une puissance phénoménale de calcul accélérée par la techno des

logarithmes.

A l’inverse, LeVerrier a déduit d’observations et des lois de la

mécanique astronomique l’existence

de Neptune.

(24)

Big Data et Open Data

Les technologies du Big Data permettent la valorisation des énormes gisements de

données publiques (Open Data) Questions:

Données gratuites ou payantes ? Qui les vend ?

le propriétaire public (mais a-t-il les moyens de les exploiter?)

l’extracteur industriel

Confidentialité et protection des données

individuelles

(25)
(26)

ESCROQUERIE HASARD SAUVAGE CHAOS PFH MODELE FAIBLE MODELE DETERMINISTE VISION INTUITIVE MODELE PREDICTIF

X ASTROLOGIE X

X LOTO X

X CAUSES DU CANCER X X

X BOURSE X X X

X SISMIQUE X

X VULCANOLOGIE X

X CONJONCTURE ECONOMIQUE X X X

X X COSMOLOGIE X X

X PREVISIONS METEO COURT TERME X X

X PREVISIONS METEO LONG TERME X

X FIABILITE SW X

X X DEMOGRAPHIE X X X

X OBSERVATOIRE DES RETRAITES X X

X SONDAGES ELECTORAUX X X

X PREVISIONS FMI OCDE X

X X RECHAUFFEMENT CLIMATIQUE/GIEC X

X TIERCE HIPPIQUE X

X FIABILITE HW X

X X L'EMPIRE ECLATE (HELENE CARRERE° X

X IMPACT DE LA "LOI DE MOORE" X

X VOYAGE DANS LA LUNE X

X DECOUVERTE NEPTUNE (LE VERRIER) X

RESULTAT ESPERE FACTEURS D'EFFICACITE

COMPLEXITE INTRINSEQUE

EFFICACITE DES OUTILS

PREVISION PREDICTION PROSPECTIVE

(27)

BgD et sondages électoraux

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5

0 1 2 3 4 5 6 7

Taille d'échantillon

MARGE 10%

MARGE 5%

MARGE 1%

Populatio n

Marge d’erreur Niveau de confiance

10% 5% 1% 90% 95% 99%

100 50 80 99 74 80 88

500 81 218 476 176 218 286

1 000 88 278 906 215 278 400

10 000 96 370 4 900 264 370 623

100 000 96 383 8 763 270 383 660

1 000 00

0+ 97 384 9 513 271 384 664

Marge d’erreur et niveau de confiance des sondages ne sont pas affaire de BgD, quelle que soit la taille de la

population!

Références

Documents relatifs

Le fait de les confondre empêche de poser en termes clairs un problème essentiel pour l’explication des climats, celui du rapport entre le temps qu’il fait et la

En Île- de-France, la circulation sera très dense en direction des barrières de péage des autoroutes A10 et A6 dès la fin de la matinée et, dans l’après-midi, des difficultés

Vendredi 8 juillet, la circulation sera difficile sur l’ensemble des grands axes et très difficile en région Auvergne-Rhône- Alpes et en Île-de-France dans le sens des départs dès

L’autoroute A20 est coupée dans les deux sens de circulation au niveau de Limoges pour une durée indéterminée en raison d’un incident survenu sur le chantier d’un pont

A noter : mercredi 13 juillet, la 11ᵉ étape du Tour de France cycliste se déroulera entre Albertville (73) et Le Col du Granon Serre Chevalier (05), jeudi 14 juillet, la 12ᵉ étape

Si le taux d’occupation des lits pàp est globalement supérieur sur l’ensemble de la saison, il reste cependant moins performant que le secteur des agences immobilières sur la

A noter : mercredi 13 juillet, la 11ᵉ étape du Tour de France cycliste se déroulera entre Albertville (73) et Le Col du Granon Serre Chevalier (05), jeudi 14 juillet, la 12ᵉ étape

vendredi 19 février est classé VERT au niveau national et ORANGE en Île-de-France et dans la région Bourgogne-Franche-Comté.. samedi 20 février est