• Aucun résultat trouvé

Fiche Pratique. Big Data : transformer les données en valeur business pour l entreprise BIG DATA

N/A
N/A
Protected

Academic year: 2022

Partager "Fiche Pratique. Big Data : transformer les données en valeur business pour l entreprise BIG DATA"

Copied!
8
0
0

Texte intégral

(1)

Mai 2014

Big Data : transformer

les données en valeur business pour l’entreprise

Fiche Pr at i que

1 Si l’objectif ultime de l’informatique a toujours été de traiter des données, pourquoi le Big Data est-il maintenant tellement à la mode ? La transformation numérique de la société et de l’économie provoque un déferlement exponentiel de données (4,4 zettaoctets en 2013, dont 34% créés par les entreprises et 66% par les particuliers).

Pour conquérir, satisfaire, fidéliser ses clients, l’entreprise doit analyser, traiter, donner du sens aux données pour pouvoir prendre plus rapidement les bonnes décisions au bon moment. Pour être encore plus « customer-centric », l’entreprise numérique doit se transformer en entreprise

« data-centric ». Mais cet enjeu n’est pas seulement technique. Le Big Data, ce n’est pas « traiter un peu plus de données », c’est interpréter des données de sources multiples, hétérogènes, volatiles, pour comprendre, modéliser, prédire.

Aller vers le Big Data, c’est donc lancer une démarche d’entreprise, plutôt qu’installer un outil. Cette fiche pratique se veut pédagogique et veut apporter quelques clés de décryptage du phénomène Big Data, de ses typologies d’acteurs et de solutions, et des marchés qu’il adresse.

Synthèse

BIG DATA

Club des Responsables

d’Infrastructures et de Production

(2)

2

Il n’existe pas encore de définition officielle ou juridique du Big Data. Alors, quelle(s) définition(s) en donner ? Une première définition nous est donnée par le Pr Cybenko (auteur du théorème éponyme sur les réseaux neuronaux) qui explique que :

« Big Data maybe means bigger than I know how to handle ».

Mais les exégètes du Big Data convergent désormais plus ou moins vers la même définition à base des 3, 4 ou 5 « V ». Pour être

« Big Data », une solution doit permettre de réaliser un traitement :

• sur un très grand Volume de données,

• sur une très grande Variété de données,

• avec une très grande Vélocité (voire en temps réel).

Ce sont les 3 « V » de base auxquels il est bon de rajouter le 4ème « V » de Véracité (pouvoir traiter des données fiables), le tout afin de pouvoir en dégager de la Valeur pour l’entreprise, soit le 5ème « V ».

Ces 5 « V » constituent les fondements du Big Data, à savoir l’apparition de technologies innovantes capables de traiter en un temps limité de grands volumes de données multiformes et multisources afin de valoriser l’information jusqu’à présent mal ou non exploitée par l’entreprise et d’ouvrir de nouvelles perspectives business et sociétales.

Pour qu’un traitement soit considéré comme relevant du Big Data, il suffit qu’il prenne en compte une rupture d’échelle sur un seul des 3 premiers « V » tout en dégageant de la Valeur pour l’entreprise.

Réaliser un traitement en 2 heures alors qu’avoir le résultat le lendemain suffit … n’est pas du Big Data, c’est du « compute ». Stocker d’énormes quantités de données sans traitement particulier n’est non plus du Big Data, c’est juste du « Big Storage ».

Définitions

(3)

3

A la base du concept Big Data, on trouve les données dont le volume croît de façon exponentielle.

On estime que tous les deux ans, il se crée autant de données que depuis le début de l’humanité. La prolifération d’outils numériques (ordinateurs, tablettes, smartphones, …) génère chaque seconde des déluges de données, à 80% non structurées. Chaque minute, près de 280.000 tweets sont publiés, Google Search répond à 2 millions de requêtes, et 100 heures de nouvelles vidéos sont uploadées sur YouTube. L’arrivée progressive de l’Internet des objets va doper encore un peu plus la production de données, et on estime qu’en 2020, le volume de données créé atteindra 44.000 milliards de gigaoctets, soit 10 fois plus qu’en 2013.

Si le marché du Big Data est estimé à 16,9 milliards de dollars en 2015 dans le monde (27% pour le logiciel, 38% pour le matériel et 35% pour les services), en France, il n’aurait représenté en France que 387 millions d’euros en 2013, mais bénéficie d’une forte croissance (40%). L’AFDEL estime que le Big Data en France pourrait à terme générer 2,8 milliards d’euros et 10.000 emplois directs.

Signe que le Big Data n’est pas qu’un phénomène de mode, les investisseurs en capital-risque (par exemple, Next World Capital et Index Ventures) se sont lancés dans la bataille et ont bien compris qu’investir plusieurs centaines de milliers de dollars dans des start-ups était à terme une garantie statistique de jackpot.

La recomposition du marché des offreurs et notamment l’émergence d’un écosystème tiré par deux vagues technologiques disruptives (ajoutons la Mobilité au Big Data) conduit les investisseurs en capital- risque à adopter des stratégies d’investissement largement diversifiées, au profit de nouveaux acteurs émergents et au détriment d’acteurs historiques dominants.

Le marché du Big Data

(4)

4

Une démarche Big Data ne se résume pas à installer un nouveau matériel ou un nouveau logiciel. Même si la DSI déclare être forcément impliquée par un projet Big Data, la Valeur (le 5ème « V ») dégagée par le projet concerne en priorité les Directions Métier. La réussite du projet repose donc en partie sur la collaboration entre la DSI et les Métiers, ces derniers ayant parfois la latitude de jouer en solo avec des solutions SaaS.

Dans le Benchmark CRiP « Big Data : où en sommes-nous ? » de décembre 2013, 67% des DSI expliquent être partie prenante dans les réflexions ou les projets Big Data de leur entreprise. S’il est difficile de se positionner sur l’aspect rassurant (ou pas) de ce pourcentage, le fait que seulement 20%

des DSI soient organisées, via une équipe dédiée ou via des rôles supplémentaires ajoutés à des postes existants, est plutôt inquiétant.

Le Big Data fait apparaître de nouveaux métiers :

• une fonction plutôt technique, scientifique, appelée « data scientist » qui s’occupe de récupérer les données, de les structurer et de les produire,

• une fonction davantage business appelée « data analyst » qui exploite ces données afin d’en extraire l’information attendue par les Métiers.

Outre l’avènement de ces nouveaux métiers, se pose la question de l’évolution des métiers existants.

La montée en compétences de nos architectes, experts, ou la création de ces nouveaux postes n’est pas un « nice to have » mais un « must have ».

Enfin, apparaît la fonction de Chief Digital Officer ou CDO (il en existe une vingtaine en France) dont la responsabilité est de définir et mettre en œuvre la stratégie numérique au sein de l’entreprise.

Les (r)évolutions autour du Big Data seront probablement à l’intersection des périmètres de responsabilité du CDO et du DSI.

Il est primordial que ces fonctions se complètent. La convergence de la stratégie digitale, d’un côté, (CDO) et de la fourniture du service et des solutions, de l’autre (DSI), sera la clé de la réussite.

Les cas d’usage actuels ne représentent probablement qu’une faible partie de l’apport du Big Data dans un avenir proche. Si tous les secteurs d’activité sont concernés, quatre secteurs ont été précurseurs : la distribution, les télécoms, la santé et les secteurs de la finance et de l’assurance.

• Dans la distribution et les télécoms, le Big Data permet de connaître les clients à 360°, à la fois par leur comportement en boutique, mais aussi en analysant leur activité sur internet, y compris sur les réseaux sociaux. Anticiper leurs besoins pour cibler des offres personnalisées est devenu le « must do » du marketing tiré par les données.

• Dans le secteur de la santé, les perspectives de la recherche fondamentale et du ciblage des médicaments sont importantes. Les données sont essentielles à l’analyse des médicaments avant leur mise sur le marché, en phase de tests, ou pour mesurer leur efficacité une fois sur le marché.

Les nouveaux appareils connectés qui mesurent en permanence notre rythme cardiaque, notre niveau de glycémie, les calories brulées, etc., génèrent des flux d’information qui vont améliorer la prévention et réduire les coûts d’hospitalisation, en effectuant les mesures en ligne.

• Le secteur banque et finance est consommateur de modèles mathématiques permettant de mieux cibler les produits financiers et surtout de suivre l’analyse du risque. Une banque de détail pourra affiner par exemple le scoring des clients pour les conditions d’octroi de prêt, optimiser ses actions commerciales ciblées, mais surtout mieux lutter contre la fraude. Les assureurs vont également tenter de réduire la fraude en détectant des signaux faibles, mais aussi par exemple optimiser leurs tarifs auto « pay-as-you-drive » en utilisant des données de capteurs situés dans le véhicule.

Qui sont les acteurs du Big Data en entreprise ?

Le Big Data pour quels usages ?

(5)

5 Le secteur concentre divers profils :

• Des fournisseurs historiques de solutions IT (ex : HP, IBM, Microsoft, Oracle, SAP…),

• Des éditeurs de logiciels de bases de données et de business intelligence (ex : MicroStrategy, QlikTech, SAS, …),

• Des fournisseurs de solutions analytiques (ex : Datameer, Zettaset, …),

• Des spécialistes de solutions data, data warehouse et Big Data (ex : EMC, Hortonworks, MapR, Teradata, …),

• Des intégrateurs (ex : Atos, Accenture, Capgemini, Sopra, …)

• Des acteurs du Cloud et du web (ex : Amazon, Facebook, Google, Rackspace, ...).

Ces technologies ont fait naître des PME, notamment en France, qui développent et commercialisent des solutions (ex : BIME, Criteo, Dataiku, Exalead, Pentaho, Semsoft, ...) ou des prestations de services (ex : Data&Data Consulting, Keyrus, Sentelis, Ysance, ...).

HADOOP : créé par la fondation Apache, c’est un framework Open Source qui reprend le principe des grilles de calcul, répartissant l’exécution d’un traitement et les données sur plusieurs nœuds, ou grappes de serveurs. Dans une logique d’architecture Hadoop, les données sont découpées en plusieurs parties, chaque partie étant stockée sur une grappe de serveurs différente. Ce découpage favorise un traitement massivement parallèle, et la redondance permet de pallier de façon logicielle une éventuelle panne matérielle sur un nœud. L’architecture de stockage des données est organisée sur un mode non-relationnel, les données ne sont pas triées en fonction de leurs relations entre elles.

L’architecture est très évolutive, l’ajout de nœuds supplémentaires se fait à chaud.

MAPREDUCE : c’est un mode de partitionnement des tâches permettant de les distribuer et de les exécuter sur un grand nombre de serveurs. La fonction Map décompose le traitement et les données associées sur plusieurs clusters parallèles où les calculs intermédiaires seront effectués. La fonction Reduce collecte les résultats des nœuds d’exécution et les remonte au nœud parent qui les avait sollicités et calcule un résultat. À la fin du processus, le nœud d’origine peut recomposer une réponse au problème qui lui avait été soumis.

NoSQL (littéralement Not Only SQL) : s’applique à tous les systèmes de gestion de données et aux bases de données qui ne reposent pas sur la notion relationnelle propre aux SGBDR. NoSQL permet de traiter des données structurées et non structurées (des images, du son, du texte libre, …).

Les environnements NoSQL sont généralement ‘clusterisés’, dépourvus de schémas et non- relationnels par essence. Simplicité et performance sont deux avantages principaux de NoSQL, même si la simplicité gagnée d’un côté se traduit désormais de l’autre par le code applicatif qui doit se charger d’assurer un minimum de cohérence des données.

IN-MEMORY, comme son nom l’indique, propose d’accélérer le traitement en montant les données en mémoire vive (RAM, disques SSD ou mémoire flash), avec un temps d’accès environ 1.000 fois plus rapide que pour un accès disque. Initialement ciblées pour pour les environnements de DataWarehousing et de Business Intelligence, les solutions In-Memory adressent désormais le transactionnel. Les éditeurs (Microsoft, Oracle, SAP, ...) valident des architectures de référence ou certifient les plateformes matérielles des constructeurs.

Les acteurs du marché du Big Data

Les principales solutions techniques

(6)

6 Un peu comme pour le Cloud, la vitesse d’adoption et l’impact organisationnel de ces nouvelles

technologies sont à régler au cas par cas. On imagine bien qu’on ne peut pas décréter le Big Data dans l’entreprise en faisant table rase du passé, mais plutôt introduire ces technologies par le biais d’applications (nouvelles) qui en tireront rapidement les plus grands avantages. Et puisque le Big Data n’est pas qu’une approche technologique, il nécessite l’assemblage de ressources multiples au sein de différents pôles de compétences.

Trois modes d’organisation sont envisageables :

• Une option « centralisée » dans laquelle toutes les compétences sont regroupées au sein d’une entité transverse, sorte de Centre de Services Big Data au service des Métiers. En centralisant les ressources, on mutualise les coûts et on évite a priori la duplication des efforts, des données, et des budgets ;

• Une vision « décentralisée » où ce sont les Métiers qui gardent la main en gérant leurs projets, leurs compétences, pour satisfaire au plus près leurs objectifs. Cette option moins « Big Bang », plus progressive au niveau des implémentations et des coûts, peut se révéler dispendieuse lorsque trop de projets Big Data multiplient infrastructures, licences logicielles et compétences humaines ;

• Une vision « externalisée », dans laquelle l’entreprise confie à un prestataire spécialisé la gestion des données et des traitements associés. Comme pour tout type d’outsourcing, cette option évite l’acquisition d’infrastructures et de compétences en interne, mais peut poser la question de l’externalisation des données sensibles de l’entreprise et la perte de compétences potentiellement critiques pour la stratégie business de celle-ci.

La prise de conscience d’une organisation qui devient « data-centric » conduit à la création du poste de Chief Data Officer, reportant au Comité de Direction. Le CDO est un responsable exécutif, mettant en relation les décisions du CODIR avec les données internes ou externes à l’entreprise.

L’objet premier du Big Data est de manipuler des données de tous ordres. Mais jusqu’où peut-on traiter des données sensibles, confidentielles, personnelles ? La législation se met en place, mais quelques points de vigilance méritent d’être soulevés. Le Groupe de Travail Big Data du CRIP a reçu le 15 janvier 2014 Me Gérard Haas, avocat au barreau de Paris, qui a apporté quelques éclairages sur le sujet.

Quels modèles d’organisation « Big Data » dans l’entreprise ?

Dimension juridique du Big Data

Schéma fonctionnel de MapReduce

(7)

7 Comment caractériser la gestion de données propre aux applications de type Big Data ?

Dès lors que les applications du Big Data se limitent à la collecte de données et ne remettent pas en cause la sécurité des personnes, ces données peuvent être utilisées à des fins statistiques. Là encore, il convient de veiller à ce que ces données soient stockées chez un hébergeur agréé et que l’exploitation des informations soit bien dédiée à la création de produits et de services.

Par ailleurs, à très court terme, les particuliers vont se trouver confrontés à des situations nouvelles avec les objets connectés. Le développement de ces derniers pose la question du respect de la vie privée ainsi que des données personnelles.

Sensibilité et confidentialité des données

Dans la loi Informatique et Libertés, certaines données sont classées comme sensibles, par exemple celles inhérentes à la santé, aux mœurs, aux opinions politiques et religieuses. Cette loi ne s’applique qu’aux données personnelles qui sont ainsi légalement protégées. Encore faut-il que les solutions de collecte et d’analyse de données à caractère personnel aient été mises en place dans le respect des principes juridiques applicables (formalités CNIL, respect de l’opt-in/opt-out, mentions d’information spécifique, existence de dispositifs de sécurité et de confidentialité, etc.).

Lors d’achats en ligne ou de simples visites, nombre de sites internet déposent à votre insu des cookies sur votre terminal. Même si une directive européenne de 2009, transposée dans le droit français en 2011, exige des sites le consentement préalable des internautes à l’insertion de cookies, très peu de sites prennent la précaution de le faire.

Certaines données personnelles sont par ailleurs librement fournies par les intéressés dans les réseaux sociaux. Qu’il s’agisse de simples « like » sur Facebook, de téléchargement d’applications mobiles, chacun d’entre nous laisse ses empreintes digitales sur la toile, sans soupçonner l’utilisation que peuvent en faire des organisations bien ou mal intentionnées.

La santé est un cas à part. Les établissements de santé disposent d’importantes bases de données à caractère personnel issues de divers capteurs connectés aux patients, d’images médicales désormais dématérialisées, de suivi thérapeutique. Pour garantir la protection et la sécurité des données, celles-ci sont hébergées à l’extérieur par un hébergeur agréé par le Ministre chargé de la Santé qui se prononce après avis de la CNIL et d’un comité d’agrément placé auprès de lui.

Croisement des données

Le fait de croiser des données stockées dans des bases différentes s’appelle de l’interconnexion. Celle-ci est soumise à autorisation car les différentes bases ont des finalités différentes. Tant que les données sont utilisées entre professionnels (par exemple, entre un assureur ou ses agents et un expert) et qu’il y a eu consentement tacite de l’assuré, il n’y a pas de difficultés dès lors que la procédure de sécurisation des données personnelles est appliquée. Il est fondamental que le responsable du traitement de l’information puisse apporter la preuve du consentement de la personne intéressée. L’élément de preuve le plus facile à recueillir est soit le double-clickage si l’on est sur un formulaire en ligne, soit un email de confirmation, ou encore la signature de l’intéressé. Si l’on se place du côté du particulier, la CNIL doit avoir des pouvoirs renforcés pour veiller à la protection des données personnelles. Inversement, si l’on se place du côté des prestataires de services, ils attendent davantage de souplesse. Mais dans une économie mondialisée, la question du rôle de la CNIL (qui a une compétence territoriale) est posée, voire remise en question.

(8)

Club des Responsables d’Infrastructures et de Production

24 rue Erlanger 75016 Paris - contact@crip-asso.fr www.crip-asso.fr

Source : Groupe de travail Big Data. Contribution éditoriale : Philippe Roux, assisté de Pierre-Yves Henry. CRIP. - Création Fred.lameche - www.anousdejouer.fr

En application de la loi du 11 mars 1957, il est interdit de reproduire ; sous forme de copie, photocopie, reproduction, traduction ou conversion, le présent ouvrage que ce soit mécanique ou électronique, intégralement ou partiellement, sur quelque support que ce soit, sans autorisation du CRiP.

8 Le périmètre du Big Data est désormais mieux cerné, même si sa définition reste plurielle. Les CTO comme

les DSI en saisissent mieux les enjeux. Ce n’est plus un concept marketing vendu par des fournisseurs en mal de nouvel Eldorado. C’est devenu partie intégrante d’une démarche d’entreprise engageant collégialement l’IT, les Directions Métiers, le Marketing - à partir d’orientations stratégiques définies par le top-management.

La dimension juridique du Big D ata constitue un véritable dossier ‘technique’ vue la nécessaire conformité avec les dispositions légales et réglementaires. Le traitement de données sensibles et de données personnelles, pouvant être croisées avec des données ‘publiques’, doit notamment répondre à une finalité unique, explicitement exposée.

Conclusion

Responsabilités croisées du DSI et du Directeur Marketing

Le potentiel énorme d’informations que les applications du Big Data mettent à la disposition des utilisateurs va conduire les DSI à vouloir conserver ces dernières dans leur périmètre de responsabilité. Or, en parallèle, les Directeurs Marketing vont également souhaiter disposer de ces données à des fins d’exploitation commerciale et de développement. Les données peuvent être considérées comme des biens immatériels de l’entreprise.

On observe deux approches différentes :

- d’une part celle des DSI qui vont estimer le coût généré par la collecte des données,

- d’autre part celle du Marketing qui va évaluer les gains potentiels que peuvent dégager ces informations, perçues comme un centre de profit potentiel.

En résumé, la valorisation de la donnée oppose la DSI qui s’interroge sur combien lui coûte la donnée, au Marketing qui s’interroge sur combien elle va lui rapporter. Ce type de débat confirme la nécessité d’un arbitrage du Big Data au niveau managérial de l’entreprise, même si la DSI en reste le dépositaire au plan technologique.

Références

Documents relatifs

Un marché qui devrait continuer à évoluer et faire émerger de nouveaux acteurs et de nouveaux métiers : des pure players qui se spécialiseront dans la production/sourcing de

Christine Sybord déplace ainsi la réflexion relative à la responsabilité des praticiens vers l’hypothèse d’une responsabilité médicale étendue au patient, dans le contexte

Financement pour les startups et les PME dans le cadre du Concours Mondial d’Innovation Soutien aux éventuels projets d’accélérateurs Big Data et aux fonds d’amorçage

Increasing access by integrating the media archives with European on-line digital portals in a digital preservation framework. O1 To research and develop means of ensuring

• Naissance du métier de TIM dans les années 1990 avec la mise en place du PMSI. • Evolution du rôle et

- La transmission de connaissances (concepts métier et concepts data, ainsi que la méthodologie du projet), la mise en place d’une gestion de projet dynamique

création de données et des technologies qui permettent de les traiter afin d’en retirer de l’information;..  Passage d’une société industrielle à une société

Risque dans le sens où ça peut être mal exploité, mais c’est toujours plus d’informations […] donc ça peut être une opportunité pour mieux comprendre et déceler de