BIG DATA RETOUR SUR 10 ANS - DE CONQUÊTE

La page est créée Catherine Charrier
 
CONTINUER À LIRE
BIG DATA
RETOUR SUR 10 ANS
  DE CONQUÊTE
C’était il y a dix ans.
                                                       Le 22 décembre 2008, au sein de la prestigieuse Computing Research Association amé-
                                                       ricaine, trois chercheurs des universités de Carnegie Mellon, Berkeley et Washington
                                                       – respectivement : Randal E. Bryant, Randy H. Katz et Edward D. Lazowska – publient
                                                       un white paper intitulé « Big-Data Computing: Creating Revolutionary Breakthroughs
                                                                       in Commerce, Science and Society ». Synthétisé sur sept pages, le pa-
                                                                       pier offre une vision circulaire du nouveau phénomène « data deluge »
                                                                       et des perspectives offertes pour l’économie. Retail, santé, environne-
           Big-Data Computing: Creating revolutionary
                                                                       ment, administration… « Le traitement des big data est peut-être la plus
        breakthroughs in commerce, science, and society                grande innovation de la dernière décennie dans le secteur informatique »
     Randal E. Bryant
     Carnegie Mellon
                           Randy H. Katz
                           University of
                                             Edward D. Lazowska
                                                University of          écrivent les trois chercheurs.
          University                          California, Berkeley                            Washington

                                     Version 8: December 22, 20081                                                    Le mot est lâché : Big Data.
Motivation: Our Data-Driven World
Advances in digital sensors, communications, computation, and storage have created huge
collections of data, capturing information of value to business, science, government, and
                                                                                                                      Dix ans plus tard, Spark a (quasiment) pris le pouvoir dans l’écosystème
society. For example, search engine companies such as Google, Yahoo!, and Microsoft have
created an entirely new business by capturing the information freely available on the World                           Hadoop, le Cloud computing est devenu la norme et partout, le buzzword
Wide Web and providing it to people in useful ways. These companies collect trillions of
bytes of data every day and continually add new services such as satellite images, driving
directions, and image retrieval. The societal benefits of these services are immeasurable,
                                                                                                                      IA fait vibrer l’analyste… mais le Big Data, lui, a gardé le même vocable. Ou
having transformed how people find and make use of information on a daily basis.
                                                                                                                      plutôt la même aura. « Le Big Data, écrivent les chercheuses Danah Boyd
Just as search engines have transformed how we access information, other forms of big-
data computing can and will transform the activities of companies, scientific researchers,
medical practitioners, and our nation's defense and intelligence operations. Some examples
                                                                                                                      et Kate Crawford en 2012 dans la revue Information, Communications
include:
                                                                                                                      and Society, c’est la combinaison ultime entre Technologie (maximiser
    Wal-Mart recently contracted with Hewlett Packard to construct a data warehouse
     capable of storing 4 petabytes (4000 trillion bytes) of data, representing every single
     purchase recorded by their point-of-sale terminals (around 267 million transactions per
                                                                                                                      la puissance de calcul et la précision algorithmique), Analyse (traiter
                                                                                                                      de larges sets de données pour identifier des patterns) et… Mythologie
     day) at their 6000 stores worldwide. By applying machine learning to this data, they
     can detect patterns indicating the effectiveness of their pricing strategies and advertising
     campaigns, and better manage their inventory and supply chains.
                                                                                                                      (croire que l’abondance des données générera une forme supérieure d’in-
     Many scientific disciplines have become data-driven. For example, a modern telescope
                                                                                                                      telligence et de savoir, auparavant inconcevable).

     is really just a very large digital camera. The proposed Large Synoptic Survey
     Telescope (LSST) will scan the sky from a mountaintop in Chile, recording 30 trillion
     bytes of image data every day – a data volume equal to two entire Sloan Digital Sky
     Surveys daily! Astronomers will apply massive computing power to this data to probe
     the origins of our universe. The Large Hadron Collider (LHC), a particle accelerator that
     will revolutionize our understanding of the workings of the Universe, will generate 60
     terabytes of data per day – 15 petabytes (15 million gigabytes) annually. Similar
     eScience projects are proposed or underway in a wide variety of other disciplines, from
     biology to environmental science to oceanography. These projects generate such
     enormous data sets that automated analysis is required. Additionally, it becomes
     impractical to replicate copies at the sites of individual research groups, so investigators
     pool their resources to construct a large data center that can run the analysis programs
     for all of the affiliated scientists.

1
                                                                                                                      Dix ans après, la mythologie du
                                                                                                                      Big Data est toujours vivace :
    For the most current version of this essay, as well as related essays, visit http://www.cra.org/ccc/initiatives

www.cra.org/ccc

                                                                                                                      •    Un marché de 210 milliards de dollars envisagés à échelle
                                                                                                                           mondiale en 2020 (soit l’équivalent du PIB d’un pays comme la
                  Dix ans plus tard,                                                                                       République Tchèque ou le Portugal)
                                                                                                                      •    Des applications dans le marketing, la finance ou la logistique - qui
         Spark a (quasiment)                                                                                               feraient économiser 1 200 milliards de dollars aux entreprises
                                                                                                                           utilisatrices selon Forrester…
           pris le pouvoir dans                                                                                       •    Des usages à portée de tous dans les transports, la santé, le
                                                                                                                           e-commerce, avec des fournisseurs de services digital natives
    l’écosystème Hadoop,
                                                                                                                           comme Uber, Airbnb ou BlablaCar…
le Cloud computing est                                                                                                •    Une myriade d’acteurs tech, des traditionnels GAFA aux vieux
                                                                                                                           routiers de la BI en passant par les start-ups aspirantes licornes
            devenu la norme et                                                                                             qui ont triplé leurs levées de fonds entre 2010 et 2016…
partout, le buzzword IA
                                                                                                                      … Et des doutes, encore et toujours, sur l’intrusion de la technologie
     fait vibrer l’analyste…                                                                                          dans le cercle privé, au moment où le législateur européen tente de
                                                                                                                      créer des frontières…

                                                                                                                            2
BIG DATA

                            Dix ans après, le Big Data est toujours roi…
                            Mais sa couronne a des reflets contrastés : « La maturité du Big Data, elle est réelle sur
                            certains aspects technologiques, invoque Jean-David Benassouli, Associé, Responsable
                            Data Intelligence pour la France et l’Afrique francophone chez PwC. Mais elle se heurte
                            encore à de nombreux écueils, principalement sur l’implémentation ». « Le frein se
                            situe au niveau du déploiement, confirme Florian Douetteau, fondateur et PDG de
                            Dataiku. Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas
                            directement à des besoins métiers. Conséquence : les équipes opérationnelles n’en
                            comprennent pas l’intérêt et ne les intègrent pas dans leur mode de fonctionnement… »

                            Les entreprises l’ont compris : il faut repenser la méthodologie Big Data sous l’angle
                            de la user experience, pour remettre au coeur de l’application l’objectif visé, la corré-
                            lation entre les données et la capacité à manipuler facilement les modèles. « Avant,
                            on avait tendance à parler de data visualisation, ce qui laissait entendre que l’aspect
                            visuel n’était qu’une transposition figurée des modèles statistiques, explique Edouard
                            Beaucourt, Directeur France et Europe du Sud de Tableau. On préfère désormais parler
                            de Visual Analytics, car cela témoigne de la capacité d’analyse et de décision de celui qui
                            reçoit et utilise l’information. »

                            Mais ce n’est pas tout… Autre démarche d’appropriation : multiplier les projets de
                            collaboration entre experts data et experts métiers sur des problématiques opéra-
                            tionnelles. Chez Swiss Life, le Big Data Lab réunit ainsi data scientists, actuaires et
                            responsables opérationnels pour identifier les données nécessaires et mettre au point
                            de nouveaux services. « Pas uniquement des personnes qui connaissent Python ou R »
                            sourit Cynthia Traoré, Manager du Département Data Science et Responsable du Data
       Les projets data     Lab.
      sont encore trop
souvent le fait d’initiés
      qui ne répondent
pas directement à des
besoins métiers…

                            Avec le programme Smart Home ECare, Engie allie objets connectés et nouveaux services

                                                   3
Avec ses interfaces

                                                                                                          intuitives et réactives,

                                                                                                            Uber a révolutionné

                                                                                                                  l’appropriation

                                                                                                           de la data côté client

Même concept chez ENGIE Digital où Aïssa     té dans les entreprises intermédiaires      de Big Data, on a l’impression que c’est le
Belaïd, CDO, chapeaute le programme          (500-5000 personnes) sur l’opportunité      volume qui pose problème, évoque Zyed
Smart Home (création de services inno-       d’adopter ou non une approche AI ou Big     Zalila, professeur à l’UTC et fondateur
vants pour les clients particuliers dotés    Data », confirme Florian Douetteau qui      d’Intellitech. Or, à part sur le stockage et
d’objets connectés) en collaboration avec    a fait de Dataiku un acteur bien implan-    l’accès aux données, ce problème-là est
les business units du monde entier : « Je    té sur le marché nord-américain. « Les      dépassé : d’un point de vue analytique,
ne me lance dans un projet que si la BU      entreprises américaines ont 1 ou 2 ans      c’est la complexité des processus à mo-
me propose un plan concret d’utilisation,    d’avance dans leur culture data et analy-   déliser due au nombre de variables en jeu
pas seulement un PoC ».                      tique… »                                    et à leurs interactions faibles ou fortes
                                                                                         qui constitue l’horizon technologique… »
CDO, Head of Analytics, Head of AI… les      Alors, la flamme viendra-t-elle des en-
sujets d’organisation et de gouvernance      treprises plus petites, plus pragma-
font aussi partie de l’équation : « Il y a   tiques dans leurs besoins ? « Demain,
parfois – encore trop souvent – des que-     un restaurateur ou un commerçant qui
relles de chapelles entre équipes, qui       se trouve confronté à des problématiques
brident à la fois l’accès aux données        data sur sa clientèle, ses finances ou sa
et le déploiement d’une stratégie da-        logistique doit pouvoir mettre à profit                     De fait, les projets
ta-driven unifiée », témoigne Jean-David     des technologies Big Data indépendam-
Benassouli de PwC. Pour lui, les grandes     ment de ses volumes », espère Edouard                     de grande ampleur
entreprises sont encore victimes de leurs    Beaucourt de Tableau Software.                       sur le marché français
« legacy systems » sur lesquels on a eu
tendance à construire des couches digi-                                                                    restent encore le
tales. « Forcément, il est plus facile de
partir d’une page blanche quand on s’ap-
                                                                                                    pré carré de secteurs
pelle Uber ou Tesla… ».                                                                                  historiquement et
De fait, les projets de grande ampleur                                                                        culturellement
sur le marché français restent encore le
pré carré de secteurs historiquement et
                                                                                                 data-centric (télécoms,
culturellement data-centric (télécoms,                                                                         utilities…)
utilities…) et beaucoup de projets indus-    Le volume… une question qui semble dé-
triels restent encore au stade de Proof      sormais reléguée au stade préhistorique
of Concept / Proof of Value. « Il y a en-    du Big Data. Quitte à recentrer le débat
core en France un manque de maturi-          sur la simple « data ». « Quand on parle
                                                                 4
S’il résout une équation coût-volume cruciale
                                                                               en matière de stockage, le Cloud reste sans
                                                                                    réponse claire face au défi de la privacy

                          Dix ans après l’article de la Computing Research Association, le data deluge semble
                          un lointain souci : « A ce stade, toutes les industries ont réussi à passer l’étape ‘Où
                          mettre mes données ? Où les récupérer ?’ », appuie Florian Douetteau.

                          D’autant que le virage Cloud First opéré au cœur des années 2013-2016 a complètement
                          résolu l’équation coût/scalabilité : « Les gros fournisseurs GAFAM ont réussi à proposer
                          des offres complètes alliant flexibilité des architectures et pertinence des services as-
      Edge computing,
                          sociés », souligne Jean-David Benassouli.
stream data, fast data…   Reste la question de la privacy qui, avec l’Internet des Objets, ne manquera pas de se
                          poser avec encore plus d’acuité dans les années à venir, post-RGPD. « Le consomma-
      ce sont peut-être   teur ne va pas accepter que les données collectées dans son salon ou sa chambre à
là les nouveaux visages   coucher remontent dans un cloud hébergé à des milliers de kilomètres », avertit Yann
                          Léchelle, Directeur des Opérations chez Snips, qui a créé Snips AIR, une plateforme
       du Big Data        d’assistants vocaux capables de stocker les données directement sur l’appareil. « L’IoT
                          a besoin de temps réel, renchérit Juvénal Chokogoué, Lead Data Engineer et auteur de
                          ‘Maîtrisez l’utilisation des technologies Hadoop’, et le système HDFS propose un traite-
                          ment par lot, avec une latence. Technologiquement, il faudra probablement passer sur
                          un autre paradigme ‘au fil de l’eau’ dans les années à venir ».

                          Edge computing, stream data, fast data… ce sont peut-être là les nouveaux visages du
                          Big Data, où la donnée se fait plus “small” mais directement utilisable et contextua-
                                              5
Dans 2001 l’Odyssée de l’Espace, le robot HAL in-
                                                                                              carne une IA menaçante et accomplie telle qu’on la
                                                                                              pressent dans les années 60

                                                                                              De fait, les algorithmes d’IA commencent
                                                                                              à démontrer une maturité technologique
                                                                                              certaine qui prolonge les perspectives
                                                                                              déjà ouvertes en 2008 par le Big Data. Et
                                                                                              si, en 2017, le marché de l’intelligence ar-
                                                                                              tificielle pointait à 4,8 milliards de dollars,
                                                                                              c’est 50% de plus qui est d’ores et déjà
                                                                                              annoncé en 2018, soit 7,3 milliards de
                                                                                              dollars… sans compter les 89,8 annoncés
                                                                                              pour 2025 (chiffres Statista, ndlr). Autant
                                                                                              dire un potentiel économique aussi pro-
                                                                                              metteur que celui du Big Data - on corrèle
                                                                                              d’ailleurs souvent les deux marchés sous
                                                                                              un même vocable « Big Data et IA ».
                                                                                              Une fièvre IA qui n’est pas près de retom-
                                                                                              ber, donc. « Mais attention, prévient Aïssa
                                                                                              Belaïd, l’IA ne va pas tout révolutionner
                                                                                              comme une boule de cristal, il faudra de
                                                                                              vrais use cases derrière ». L’usage, en-
                                                                                              core et toujours…

                                                                                              Dix ans après, le Big Data est donc plus
lisée via des supports de stockage flash.      l’objectif, le Big Data la matière première.   que jamais concurrencé sur le terrain de
« Au fur et à mesure qu’on est passé du        Et la discipline qu’on utilise, c’est la da-   la « com’ » – par l’IA, par l’IoT et demain
stockage vers l’applicatif, on s’est plutôt    ta science », recadre Florian Douetteau.       par la Blockchain. Mais ses enjeux et ses
tourné vers la question des flux, de la pé-    Revue de vocabulaire utile tant les            applications sont, eux, toujours en mou-
rennité des données », explique Florian        concepts semblent parfois flottants, au        vement, voire en construction.
Douetteau.                                     gré de l’ambiance marketing du mo-             « Nous avons seulement commencé à
Les 3V du début (Volume, Variété,              ment. « C’est du bullshit de dire que l’IA     voir son potentiel à collecter, organiser et
Vélocité) se sont alors étoffés de nou-        a remplacé le Big Data, tempère Jean-          traiter des données dans tous les champs
veaux concepts : accessibilité, confiden-      David Benassouli : les deux concepts pro-      de l’existence » écrivaient Bryant, Katz et
tialité, sécurité, connectivité, durabilité,   gressent ensemble. Les techniques de           Lazowska en 2008.
mais surtout… fiabilité. Face à la profu-      Machine Learning existaient depuis long-

                                                                                              2018…
                                               temps mais c’est la profusion de données
sion de sources et de données dispo-
                                               et la mise à disposition d’énormes capaci-
nibles, l’impératif de qualité est devenu
                                               tés de stockage/calculs et de frameworks

                                                                                              début d’une
plus que jamais central pour éviter de
                                               de Machine Learning évolués (de type
corrompre les modèles apprenants d’IA.
                                               Keras ou TensorFlow) qui leur a permis

L’IA. Au fur et à mesure de la décennie
                                               de s’étendre aux domaines d’applications
                                               qu’on connaît – voix, textes, images ».        nouvelle
2010, ce vieux concept tout droit sorti des
années 1950 est revenu hanter la sphère                                                       décennie ?
décisionnelle… quitte à faire de l’ombre à
son proche parent, le Big Data. « L’IA c’est
                                                                    6
Dix ans après des

                                          57
chiffres toujours vertigineux.
LE BIG DATA
EN CHIFFRES…
ET EN KILOMÈTRES !
                                          Milliards $
Si une liasse de 10 billets de 1 dollar
fait 1 cm, alors combien font… :
… Le chiffre d’affaires généré
par les vendeurs de services
Big Data en 20171 ?

57 Milliards $ = 5 700 km
Soit la distance à vol d’oiseau
entre Paris et Oman !

… Le chiffre d’affaires annuel estimé
du marché mondial Big Data en 20202 ?
210 Milliards $ = 21 000 km
Soit la longueur historique estimée

21000
de la Grande Muraille de Chine !

                                                                        Km
… L’avantage comparatif généré d’ici 2020 par les entreprises
utilisatrices du Big Data sur leurs concurrentes non-utilisatrices3 ?
1 200 Milliards $ = 120 000 km
Soit 1 tiers de la distance entre
la Terre et la Lune !

120000                                         7
                                                                        Km
LE BIG DATA DANS L’ECONOMIE…
ET FACE À D’AUTRES INDICATEURS

3
           ... c’est la part estimée du secteur « Data Economy » dans la

    %
           croissance du PIB de l’Union Européenne d’ici 20204

           … c’est également la part prise par les
           secteurs culturels et créatifs dans le PIB
           mondial4

8,2
                                 … c’est le taux de croissance
                                 annuelle moyenne du secteur Big Data

   %
                                 et Analytique entre 2017 et 20212

                                 … c’est également le taux
                                 de croissance du PIB le plus
                                 élevé de 2017 : celui de
                                 l’Ethiopie

                                 … c’est la part estimée des produits
                                 et services data dans l’ensemble

11,8      %
                                 de la dépense informatique de l’UE28
                                 en 20205

                                 … c’est également
                                 le poids de l’industrie
                                 manufacturière italienne
                                 dans l’industrie européenne

OÙ TROUVE-T-ON PRINCIPALEMENT LE BIG DATA ?
(et où ne le trouve-t-on pas encore assez…)
                           … Les trois principaux secteurs d’applications du Big Data dans l’Union Européenne4

                           • Industrie : 16,4 milliards en 2020
                           • Finance : 15,4 milliards en 2020
                           • Retail : 8,2 milliards en 2020
                           				 Malgré le nombre important d’organisations susceptibles d’utiliser ses données,
                           				 le secteur de la Construction reste encore en retrait, estimé à 339 millions d’euros
                           				 dans l’UE en 2020…

                           Et par zone géographique2 :
                           • Etats Unis : $78.8 milliards en 2017
                           • Europe de l’Ouest : $34.1 milliards en 2017
                           • Asie Pacifique (hors Japon) : $13.6 milliards en 2017

                           				 Si l’Amérique Latine n’est pas encore dans le tiercé de tête, son taux
                           				 de croissance annuelle s’impose comme le plus élevé sur ces technologies : 16,6% !

               1 SNS Research, Big Data Market: 2017 – 2030 – Opportunities, Challenges, Strategies, Industry Verticals & Forecasts, April 17
               2 IDC, Worldwide Semiannual Big Data and Analytics Spending Guide, March 2017
               3 Forrester, Insights-Driven Businesses Set The Pace For Global Growth, October 2017
               4 http://www.worldcreative.org/wp-content/uploads/2015/12/CulturalTimes_Summary_FR.pdf
               5 Source: European Union, Data Landscape, DG Connect
                                                          8
BIG DATA
     RETOUR SUR 10 ANS
       DE CONQUÊTE

Participez à Big Data Paris

les 11 & 12 mars 2019
au Palais des Congrès

et profitez d’une opportunité
 unique de vous informer et
 networker avec l’ensemble
des acteurs de l’éco-système
         Big Data.

     Inscriptions sur
WWW.BIGDATAPARIS.COM/2019.COM
Vous pouvez aussi lire