BIG DATA RETOUR SUR 10 ANS - DE CONQUÊTE
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
BIG DATA RETOUR SUR 10 ANS DE CONQUÊTE
C’était il y a dix ans. Le 22 décembre 2008, au sein de la prestigieuse Computing Research Association amé- ricaine, trois chercheurs des universités de Carnegie Mellon, Berkeley et Washington – respectivement : Randal E. Bryant, Randy H. Katz et Edward D. Lazowska – publient un white paper intitulé « Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science and Society ». Synthétisé sur sept pages, le pa- pier offre une vision circulaire du nouveau phénomène « data deluge » et des perspectives offertes pour l’économie. Retail, santé, environne- Big-Data Computing: Creating revolutionary ment, administration… « Le traitement des big data est peut-être la plus breakthroughs in commerce, science, and society grande innovation de la dernière décennie dans le secteur informatique » Randal E. Bryant Carnegie Mellon Randy H. Katz University of Edward D. Lazowska University of écrivent les trois chercheurs. University California, Berkeley Washington Version 8: December 22, 20081 Le mot est lâché : Big Data. Motivation: Our Data-Driven World Advances in digital sensors, communications, computation, and storage have created huge collections of data, capturing information of value to business, science, government, and Dix ans plus tard, Spark a (quasiment) pris le pouvoir dans l’écosystème society. For example, search engine companies such as Google, Yahoo!, and Microsoft have created an entirely new business by capturing the information freely available on the World Hadoop, le Cloud computing est devenu la norme et partout, le buzzword Wide Web and providing it to people in useful ways. These companies collect trillions of bytes of data every day and continually add new services such as satellite images, driving directions, and image retrieval. The societal benefits of these services are immeasurable, IA fait vibrer l’analyste… mais le Big Data, lui, a gardé le même vocable. Ou having transformed how people find and make use of information on a daily basis. plutôt la même aura. « Le Big Data, écrivent les chercheuses Danah Boyd Just as search engines have transformed how we access information, other forms of big- data computing can and will transform the activities of companies, scientific researchers, medical practitioners, and our nation's defense and intelligence operations. Some examples et Kate Crawford en 2012 dans la revue Information, Communications include: and Society, c’est la combinaison ultime entre Technologie (maximiser Wal-Mart recently contracted with Hewlett Packard to construct a data warehouse capable of storing 4 petabytes (4000 trillion bytes) of data, representing every single purchase recorded by their point-of-sale terminals (around 267 million transactions per la puissance de calcul et la précision algorithmique), Analyse (traiter de larges sets de données pour identifier des patterns) et… Mythologie day) at their 6000 stores worldwide. By applying machine learning to this data, they can detect patterns indicating the effectiveness of their pricing strategies and advertising campaigns, and better manage their inventory and supply chains. (croire que l’abondance des données générera une forme supérieure d’in- Many scientific disciplines have become data-driven. For example, a modern telescope telligence et de savoir, auparavant inconcevable). is really just a very large digital camera. The proposed Large Synoptic Survey Telescope (LSST) will scan the sky from a mountaintop in Chile, recording 30 trillion bytes of image data every day – a data volume equal to two entire Sloan Digital Sky Surveys daily! Astronomers will apply massive computing power to this data to probe the origins of our universe. The Large Hadron Collider (LHC), a particle accelerator that will revolutionize our understanding of the workings of the Universe, will generate 60 terabytes of data per day – 15 petabytes (15 million gigabytes) annually. Similar eScience projects are proposed or underway in a wide variety of other disciplines, from biology to environmental science to oceanography. These projects generate such enormous data sets that automated analysis is required. Additionally, it becomes impractical to replicate copies at the sites of individual research groups, so investigators pool their resources to construct a large data center that can run the analysis programs for all of the affiliated scientists. 1 Dix ans après, la mythologie du Big Data est toujours vivace : For the most current version of this essay, as well as related essays, visit http://www.cra.org/ccc/initiatives www.cra.org/ccc • Un marché de 210 milliards de dollars envisagés à échelle mondiale en 2020 (soit l’équivalent du PIB d’un pays comme la Dix ans plus tard, République Tchèque ou le Portugal) • Des applications dans le marketing, la finance ou la logistique - qui Spark a (quasiment) feraient économiser 1 200 milliards de dollars aux entreprises utilisatrices selon Forrester… pris le pouvoir dans • Des usages à portée de tous dans les transports, la santé, le e-commerce, avec des fournisseurs de services digital natives l’écosystème Hadoop, comme Uber, Airbnb ou BlablaCar… le Cloud computing est • Une myriade d’acteurs tech, des traditionnels GAFA aux vieux routiers de la BI en passant par les start-ups aspirantes licornes devenu la norme et qui ont triplé leurs levées de fonds entre 2010 et 2016… partout, le buzzword IA … Et des doutes, encore et toujours, sur l’intrusion de la technologie fait vibrer l’analyste… dans le cercle privé, au moment où le législateur européen tente de créer des frontières… 2
BIG DATA Dix ans après, le Big Data est toujours roi… Mais sa couronne a des reflets contrastés : « La maturité du Big Data, elle est réelle sur certains aspects technologiques, invoque Jean-David Benassouli, Associé, Responsable Data Intelligence pour la France et l’Afrique francophone chez PwC. Mais elle se heurte encore à de nombreux écueils, principalement sur l’implémentation ». « Le frein se situe au niveau du déploiement, confirme Florian Douetteau, fondateur et PDG de Dataiku. Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers. Conséquence : les équipes opérationnelles n’en comprennent pas l’intérêt et ne les intègrent pas dans leur mode de fonctionnement… » Les entreprises l’ont compris : il faut repenser la méthodologie Big Data sous l’angle de la user experience, pour remettre au coeur de l’application l’objectif visé, la corré- lation entre les données et la capacité à manipuler facilement les modèles. « Avant, on avait tendance à parler de data visualisation, ce qui laissait entendre que l’aspect visuel n’était qu’une transposition figurée des modèles statistiques, explique Edouard Beaucourt, Directeur France et Europe du Sud de Tableau. On préfère désormais parler de Visual Analytics, car cela témoigne de la capacité d’analyse et de décision de celui qui reçoit et utilise l’information. » Mais ce n’est pas tout… Autre démarche d’appropriation : multiplier les projets de collaboration entre experts data et experts métiers sur des problématiques opéra- tionnelles. Chez Swiss Life, le Big Data Lab réunit ainsi data scientists, actuaires et responsables opérationnels pour identifier les données nécessaires et mettre au point de nouveaux services. « Pas uniquement des personnes qui connaissent Python ou R » sourit Cynthia Traoré, Manager du Département Data Science et Responsable du Data Les projets data Lab. sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Avec le programme Smart Home ECare, Engie allie objets connectés et nouveaux services 3
Avec ses interfaces intuitives et réactives, Uber a révolutionné l’appropriation de la data côté client Même concept chez ENGIE Digital où Aïssa té dans les entreprises intermédiaires de Big Data, on a l’impression que c’est le Belaïd, CDO, chapeaute le programme (500-5000 personnes) sur l’opportunité volume qui pose problème, évoque Zyed Smart Home (création de services inno- d’adopter ou non une approche AI ou Big Zalila, professeur à l’UTC et fondateur vants pour les clients particuliers dotés Data », confirme Florian Douetteau qui d’Intellitech. Or, à part sur le stockage et d’objets connectés) en collaboration avec a fait de Dataiku un acteur bien implan- l’accès aux données, ce problème-là est les business units du monde entier : « Je té sur le marché nord-américain. « Les dépassé : d’un point de vue analytique, ne me lance dans un projet que si la BU entreprises américaines ont 1 ou 2 ans c’est la complexité des processus à mo- me propose un plan concret d’utilisation, d’avance dans leur culture data et analy- déliser due au nombre de variables en jeu pas seulement un PoC ». tique… » et à leurs interactions faibles ou fortes qui constitue l’horizon technologique… » CDO, Head of Analytics, Head of AI… les Alors, la flamme viendra-t-elle des en- sujets d’organisation et de gouvernance treprises plus petites, plus pragma- font aussi partie de l’équation : « Il y a tiques dans leurs besoins ? « Demain, parfois – encore trop souvent – des que- un restaurateur ou un commerçant qui relles de chapelles entre équipes, qui se trouve confronté à des problématiques brident à la fois l’accès aux données data sur sa clientèle, ses finances ou sa et le déploiement d’une stratégie da- logistique doit pouvoir mettre à profit De fait, les projets ta-driven unifiée », témoigne Jean-David des technologies Big Data indépendam- Benassouli de PwC. Pour lui, les grandes ment de ses volumes », espère Edouard de grande ampleur entreprises sont encore victimes de leurs Beaucourt de Tableau Software. sur le marché français « legacy systems » sur lesquels on a eu tendance à construire des couches digi- restent encore le tales. « Forcément, il est plus facile de partir d’une page blanche quand on s’ap- pré carré de secteurs pelle Uber ou Tesla… ». historiquement et De fait, les projets de grande ampleur culturellement sur le marché français restent encore le pré carré de secteurs historiquement et data-centric (télécoms, culturellement data-centric (télécoms, utilities…) utilities…) et beaucoup de projets indus- Le volume… une question qui semble dé- triels restent encore au stade de Proof sormais reléguée au stade préhistorique of Concept / Proof of Value. « Il y a en- du Big Data. Quitte à recentrer le débat core en France un manque de maturi- sur la simple « data ». « Quand on parle 4
S’il résout une équation coût-volume cruciale en matière de stockage, le Cloud reste sans réponse claire face au défi de la privacy Dix ans après l’article de la Computing Research Association, le data deluge semble un lointain souci : « A ce stade, toutes les industries ont réussi à passer l’étape ‘Où mettre mes données ? Où les récupérer ?’ », appuie Florian Douetteau. D’autant que le virage Cloud First opéré au cœur des années 2013-2016 a complètement résolu l’équation coût/scalabilité : « Les gros fournisseurs GAFAM ont réussi à proposer des offres complètes alliant flexibilité des architectures et pertinence des services as- Edge computing, sociés », souligne Jean-David Benassouli. stream data, fast data… Reste la question de la privacy qui, avec l’Internet des Objets, ne manquera pas de se poser avec encore plus d’acuité dans les années à venir, post-RGPD. « Le consomma- ce sont peut-être teur ne va pas accepter que les données collectées dans son salon ou sa chambre à là les nouveaux visages coucher remontent dans un cloud hébergé à des milliers de kilomètres », avertit Yann Léchelle, Directeur des Opérations chez Snips, qui a créé Snips AIR, une plateforme du Big Data d’assistants vocaux capables de stocker les données directement sur l’appareil. « L’IoT a besoin de temps réel, renchérit Juvénal Chokogoué, Lead Data Engineer et auteur de ‘Maîtrisez l’utilisation des technologies Hadoop’, et le système HDFS propose un traite- ment par lot, avec une latence. Technologiquement, il faudra probablement passer sur un autre paradigme ‘au fil de l’eau’ dans les années à venir ». Edge computing, stream data, fast data… ce sont peut-être là les nouveaux visages du Big Data, où la donnée se fait plus “small” mais directement utilisable et contextua- 5
Dans 2001 l’Odyssée de l’Espace, le robot HAL in- carne une IA menaçante et accomplie telle qu’on la pressent dans les années 60 De fait, les algorithmes d’IA commencent à démontrer une maturité technologique certaine qui prolonge les perspectives déjà ouvertes en 2008 par le Big Data. Et si, en 2017, le marché de l’intelligence ar- tificielle pointait à 4,8 milliards de dollars, c’est 50% de plus qui est d’ores et déjà annoncé en 2018, soit 7,3 milliards de dollars… sans compter les 89,8 annoncés pour 2025 (chiffres Statista, ndlr). Autant dire un potentiel économique aussi pro- metteur que celui du Big Data - on corrèle d’ailleurs souvent les deux marchés sous un même vocable « Big Data et IA ». Une fièvre IA qui n’est pas près de retom- ber, donc. « Mais attention, prévient Aïssa Belaïd, l’IA ne va pas tout révolutionner comme une boule de cristal, il faudra de vrais use cases derrière ». L’usage, en- core et toujours… Dix ans après, le Big Data est donc plus lisée via des supports de stockage flash. l’objectif, le Big Data la matière première. que jamais concurrencé sur le terrain de « Au fur et à mesure qu’on est passé du Et la discipline qu’on utilise, c’est la da- la « com’ » – par l’IA, par l’IoT et demain stockage vers l’applicatif, on s’est plutôt ta science », recadre Florian Douetteau. par la Blockchain. Mais ses enjeux et ses tourné vers la question des flux, de la pé- Revue de vocabulaire utile tant les applications sont, eux, toujours en mou- rennité des données », explique Florian concepts semblent parfois flottants, au vement, voire en construction. Douetteau. gré de l’ambiance marketing du mo- « Nous avons seulement commencé à Les 3V du début (Volume, Variété, ment. « C’est du bullshit de dire que l’IA voir son potentiel à collecter, organiser et Vélocité) se sont alors étoffés de nou- a remplacé le Big Data, tempère Jean- traiter des données dans tous les champs veaux concepts : accessibilité, confiden- David Benassouli : les deux concepts pro- de l’existence » écrivaient Bryant, Katz et tialité, sécurité, connectivité, durabilité, gressent ensemble. Les techniques de Lazowska en 2008. mais surtout… fiabilité. Face à la profu- Machine Learning existaient depuis long- 2018… temps mais c’est la profusion de données sion de sources et de données dispo- et la mise à disposition d’énormes capaci- nibles, l’impératif de qualité est devenu tés de stockage/calculs et de frameworks début d’une plus que jamais central pour éviter de de Machine Learning évolués (de type corrompre les modèles apprenants d’IA. Keras ou TensorFlow) qui leur a permis L’IA. Au fur et à mesure de la décennie de s’étendre aux domaines d’applications qu’on connaît – voix, textes, images ». nouvelle 2010, ce vieux concept tout droit sorti des années 1950 est revenu hanter la sphère décennie ? décisionnelle… quitte à faire de l’ombre à son proche parent, le Big Data. « L’IA c’est 6
Dix ans après des 57 chiffres toujours vertigineux. LE BIG DATA EN CHIFFRES… ET EN KILOMÈTRES ! Milliards $ Si une liasse de 10 billets de 1 dollar fait 1 cm, alors combien font… : … Le chiffre d’affaires généré par les vendeurs de services Big Data en 20171 ? 57 Milliards $ = 5 700 km Soit la distance à vol d’oiseau entre Paris et Oman ! … Le chiffre d’affaires annuel estimé du marché mondial Big Data en 20202 ? 210 Milliards $ = 21 000 km Soit la longueur historique estimée 21000 de la Grande Muraille de Chine ! Km … L’avantage comparatif généré d’ici 2020 par les entreprises utilisatrices du Big Data sur leurs concurrentes non-utilisatrices3 ? 1 200 Milliards $ = 120 000 km Soit 1 tiers de la distance entre la Terre et la Lune ! 120000 7 Km
LE BIG DATA DANS L’ECONOMIE… ET FACE À D’AUTRES INDICATEURS 3 ... c’est la part estimée du secteur « Data Economy » dans la % croissance du PIB de l’Union Européenne d’ici 20204 … c’est également la part prise par les secteurs culturels et créatifs dans le PIB mondial4 8,2 … c’est le taux de croissance annuelle moyenne du secteur Big Data % et Analytique entre 2017 et 20212 … c’est également le taux de croissance du PIB le plus élevé de 2017 : celui de l’Ethiopie … c’est la part estimée des produits et services data dans l’ensemble 11,8 % de la dépense informatique de l’UE28 en 20205 … c’est également le poids de l’industrie manufacturière italienne dans l’industrie européenne OÙ TROUVE-T-ON PRINCIPALEMENT LE BIG DATA ? (et où ne le trouve-t-on pas encore assez…) … Les trois principaux secteurs d’applications du Big Data dans l’Union Européenne4 • Industrie : 16,4 milliards en 2020 • Finance : 15,4 milliards en 2020 • Retail : 8,2 milliards en 2020 Malgré le nombre important d’organisations susceptibles d’utiliser ses données, le secteur de la Construction reste encore en retrait, estimé à 339 millions d’euros dans l’UE en 2020… Et par zone géographique2 : • Etats Unis : $78.8 milliards en 2017 • Europe de l’Ouest : $34.1 milliards en 2017 • Asie Pacifique (hors Japon) : $13.6 milliards en 2017 Si l’Amérique Latine n’est pas encore dans le tiercé de tête, son taux de croissance annuelle s’impose comme le plus élevé sur ces technologies : 16,6% ! 1 SNS Research, Big Data Market: 2017 – 2030 – Opportunities, Challenges, Strategies, Industry Verticals & Forecasts, April 17 2 IDC, Worldwide Semiannual Big Data and Analytics Spending Guide, March 2017 3 Forrester, Insights-Driven Businesses Set The Pace For Global Growth, October 2017 4 http://www.worldcreative.org/wp-content/uploads/2015/12/CulturalTimes_Summary_FR.pdf 5 Source: European Union, Data Landscape, DG Connect 8
BIG DATA RETOUR SUR 10 ANS DE CONQUÊTE Participez à Big Data Paris les 11 & 12 mars 2019 au Palais des Congrès et profitez d’une opportunité unique de vous informer et networker avec l’ensemble des acteurs de l’éco-système Big Data. Inscriptions sur WWW.BIGDATAPARIS.COM/2019.COM
Vous pouvez aussi lire