DataOps Revoir l'industrialisation et la gouvernance des données pour en tirer toute la valeur - SFEIR
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
DataOps Revoir l’industrialisation et la gouvernance des données pour en tirer toute la valeur Par Olivier Rafal
Sommaire 04 Témoignage : Didier Bove 08 Avant-propos 10 1. L’ère du numérique impose une nouvelle approche de la donnée 12 Repenser les usages de la donnée à l’aune du numérique 18 Apprendre des années “Big Data” 24 Témoignage : Laurent Ostiz 28 2. L’industrialisation réussie passe par une refonte complète de la gouvernance 32 Instaurer une nouvelle collaboration IT et métiers 37 Utiliser la donnée sur la donnée 42 Témoignage : Philippe Girolami 46 3. Cloud et IA, le duo gagnant pour accélérer la transition 48 Gagner en agilité, en rapidité et en élasticité 52 Profiter du MLOps clé en main 57 Remerciements 58 À propos de l’auteur 59 À propos de SFEIR
05 La nomination, il y a quelque temps, de Nous sommes en effet une entreprise Chief Digital Officers était l’expression décentralisée, avec 12 zones géogra- d’une forme d’échec de la DSI, de ce phiques et des activités qui peuvent qu’elle aurait dû faire. La situation s’est s’avérer relativement différentes d’une résorbée, mais on voit une résurgence de zone à l’autre, en fonction de l’historique, ce phénomène liée à la donnée, avec la des contraintes légales locales, etc. Cela nomination de Chief Data Officers, qui n’aurait pas vraiment de sens de capter créent des applications, des produits, qui et stocker toutes les données. La période communiquent… Bref, qui recréent une où on mesurait l’efficacité d’une DSI à entreprise à côté de l’entreprise. la taille de son datalake est révolue ! Bien sûr, il y a un souci de gouvernance L’enjeu aujourd’hui est de ne stocker de données dans les entreprises, mais que ce qui a du sens, ce qui nous permet ce n’est pas en créant un poste qu’on le de produire quelque chose d’utile pour résoudra. Ni en achetant un outil. Clas- les métiers sur le terrain ; nous sommes siquement, dans l’IT, 80 % des efforts passés de “big is beautiful” à “useful is passent dans le choix de l’outil, alors qu’il beautiful”. Reboucler avec le terrain, faudrait les faire porter sur les processus conserver une certaine proximité, est et l’organisation. Mais c’est évidemment fondamental. Il faut que nos applica- beaucoup plus compliqué. tions produisent de la valeur pour la personne qui a émis la donnée au bout De notre côté, nous avons revu en de la chaîne. Cela initie un cercle ver- profondeur la façon dont nous abordons tueux : la personne qui saisit la donnée la gouvernance et la valorisation de la fera beaucoup plus attention à sa donnée. Notre objectif est que les BU qualité si elle sait qu’en retour, elle en disposent de capacités opérationnelles obtiendra un bénéfice. locales tout en tirant parti de services créés en central (reporting, supervision…). Pour y parvenir, il faut bien répartir les rôles : côté IT, nous assurons la partie technique, le nettoyage et le cycle de vie de la donnée, tandis que la partie fonc- tionnelle peut être gérée par les métiers.
“ 06 Le passage au Cloud nous a d’ailleurs Une fois que tout cela est mis en place, beaucoup aidé à concrétiser cette façon que la donnée est propre, que les objets de fonctionner ; on peut très facilement sont bien définis, on peut commencer démontrer aux métiers l’intérêt de à agréger d’autres types de données certaines analyses, sans limitation, puis- (venant des usines, notamment) et qu’on peut lancer des requêtes sur des commencer à les exploiter, avec du centaines de millions de lignes sans se machine learning. Cette partie “data préoccuper de l’infrastructure sous- science” est la cerise sur le gâteau. Elle jacente, de la sauvegarde, etc. arrive en dernier mais a le plus de saveur. Il faut également partager les mêmes définitions. Nous avons donc établi un On peut réaliser des choses relative- référentiel d’objets métier fonctionnels ment simples, qui facilitent la vie des (pompe, citerne, hauteur d’eau, etc.) opérationnels sur le terrain. Nous avons mais aussi propres au service finances par exemple conçu une application ou aux ressources humaines. qui reconnaît les valeurs d’un index de consommation sur une photo (grâce Enfin nous avons défini au niveau de l’IT à de l’IA, car les compteurs d’eau sont groupe des axes stratégiques, porteurs très peu normalisés). Nous avons aussi de valeur, pour lesquels nous créons commencé à déployer un service d’aide des “solutions digitales”. Ces priorités à la saisie de formulaires, qui réduit le découlent de la “raison d’être” définie nombre de champs en fonction du en avril 2019 par Veolia, qui veut agir contexte. pour l’environnement. Elles orientent Nous travaillons aussi sur des algo- nos efforts mais aussi le discours : nous rithmes plus complexes, pour optimiser essayons de ne plus raisonner en termes l’efficacité énergétique de nos stations de coûts IT mais de création de valeur. d’épuration, par exemple. Lors-que nous Il faut qu’au minimum deux pays parvenons à gagner quelques pour- demandent une solution pour qu’on cents, tout le monde y gagne : Veolia, initie le projet ; ils doivent s’entendre qui économise de l’énergie, le client, qui sur la valeur attendue de la solution et voit sa facture baisser, et l’environnement. c’est cela qui va engager le travail de la donnée.
“ 07 Dans une entreprise intelligente, la donnée circule à travers toute l’entreprise, l’intelligence artificielle est utilisée dans tous les départements, “ tout est connecté. Jean-Paul Agon, Chairman & CEO L’Oréal Source : https://www.bloomberg.com/news/videos/2021-01-14/leaders-with-lacqua-jean-paul-agon-l-oreal- chairman-ceo-video
09 Avant-propos Didier Girard, co-CEO et VP Engineering de SFEIR, PhD Machine Learning La période n’a jamais été plus propice → un chef d’orchestre, qui met cette pour tirer parti de la donnée. stratégie en musique en s’appuyant sur les métiers et l’IT ; Elle existe en abondance. Plus on l’utilise, → l’IT, dont on attend qu’elle mette en plus on la partage, plus elle se multiplie place une plateforme robuste et agile ; et crée de la valeur. → les métiers, qui détiennent le savoir Le Cloud, ensuite, est la plateforme sur la donnée et en sont les premiers idéale pour valoriser la donnée. Il y a bénéficiaires. encore une dizaine d’années, on ne dis- posait pas forcément des moyens né- Tous les maillons sont essentiels pour cessaires pour analyser de grands vo- réussir sa stratégie data. C’est cette ap- lumes de données, en temps réel, ou proche collaborative que nous avons bien cela s’avérait très complexe et voulu mettre en avant ici, à travers ce coûteux à monter puis à maintenir. livre blanc sur le DataOps. Le Cloud simplifie énormément les problématiques de stockage, de traite- Bonne lecture ! ment ou encore de partage de la donnée au sein d’un écosystème. Il ne manque qu’une stratégie d’en- treprise, une volonté d’avancer et de valoriser ses données, ainsi qu’un mode d’emploi - ou à tout le moins un accom- pagnement pour mettre en place les conditions du succès. Car c’est l’ensemble de ces dimensions qui crée de la valeur, et pas seulement la technologie, la pertinence d’un algo- rithme ou le talent du data scientist. Valoriser la donnée, c’est un travail d’équi- pe, qui doit impliquer : → la direction générale de l’entreprise, qui impulse la stratégie ;
12 La donnée en entreprise, c’est un peu comme l’attention centrée sur le client : Repenser les usages tout le monde dit que c’est essentiel, de la donnée à l’aune mais au final, qui parvient vraiment à traduire ses intentions dans les faits ? du numérique Comment valider l’intuition que c’est dans la donnée que réside le levier qui permettra à l’entreprise d’optimiser ses « La révolution numérique, ce n’est pas processus, de gagner quelques pour- le smartphone ou l’objet connecté. C’est cents sur chacune de ses transactions, tout transformer en données pour tout de se lancer dans de nouveaux business transformer par les données. » models… C’est par ces mots que Thierry Happe, cofondateur de Netexplo, a lancé les La grande époque du décisionnel a Assises de la Data Transformation, qui démontré son utilité. Mais ce n’est certai- ont réuni de nombreux dirigeants, DSI nement pas en restant ancré dans les et CDO de grandes entreprises, en jan- principes forgés au moment où il fallait vier 2021. L’image peut paraître radicale, mettre en place ce décisionnel que la mais elle résume plutôt bien notre donnée pourra révéler son plein poten- monde, où quasiment chacune de nos tiel. Il n’est pas question de remettre la interactions produit de la donnée. BI et ses outils en cause ; il y aura toujours besoin de regarder dans le rétroviseur, On pense bien sûr en premier lieu aux d’analyser des chiffres de vente, de réseaux sociaux (Twitter compte 6000 comparer des performances, etc. nouveaux tweets par seconde !) ou De même, tout le monde n’a pas voca- aux plateformes de contenu. En 2019, tion à devenir “data analyst” ou statis- Youtube a dépassé les 500 heures de ticien. La majorité des acteurs d’une vidéo ajoutées chaque minute. On entreprise resteront des consomma- pense aussi bien sûr aux sites Web, aux teurs de données ; il y aura donc aussi smartphones, aux autres applications toujours besoin de fabriquer et d’envoyer en ligne… Mais c’est oublier que toute des rapports. l’activité économique s’est numérisée, dans tous les secteurs, tous les métiers. Il faut cependant aussi savoir s’extraire Dans nos activités professionnelles de ce mode de pensée, qui a fini par aussi bien que nos activités person- structurer à la fois les processus, les nelles, ce sont toutes nos actions qui métiers et les architectures technolo- produisent des données et déclen- giques autour de la donnée. chent des événements enregistrés Une structure qui n’est plus adaptée dans différents systèmes : créer ou aux challenges posés par l’économie consulter un document, enregistrer un numérique. nouveau client, réaliser ou écouter un podcast, produire ou visionner une série, vendre ou acheter en ligne ou en magasin, retirer de l’argent à un distri- buteur, prendre rendez-vous chez un médecin, établir un diagnostic, em- prunter les transports en commun, se promener dans la rue…
13 Data volume 149 150 125 118 100 94 74 75 59 50 41 33 26 25 18 15.5 12.5 6.5 9 5 2 0 20 24 22 23 10 14 18 16 19 17 12 21 13 15 11 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 Volume de données créées, capturées, copiées et consommées dans le monde, en zettaoctets (millions de pétaoctets), entre 2010 et 2024(1). Du point de vue de l’entreprise, toutes Devenir une entreprise data-driven doit ces données représentent un actif se décréter au plus haut niveau… et être extraordinaire. Là aussi, tous les métiers suivi dans les faits par un accompa- sont concernés, peuvent s’emparer du gnement et un support forts. Depuis sujet et s’appuyer sur la donnée, qu’il les dirigeants de l’entreprise jusqu’aux s’agisse d’améliorer la connaissance de opérationnels métiers sur le terrain, ses clients, d’analyser ses performances, tous doivent prendre conscience de la d’optimiser un processus, de réaliser nécessité de valoriser la donnée. des prévisions plus justes… La plupart Aux Assises de la Data Transformation, du temps, quand la donnée n’est pas c’est Claire Pedini, responsable à la fois utilisée dans l’entreprise, ce n’est pas des ressources humaines de Saint- parce qu’elle manque ; c’est parce que Gobain et de la transformation numé- les collaborateurs n’ont pas conscience rique du groupe, qui insistait sur cette de ce que cela peut leur apporter. Dans priorité : « Soyons obsédés par la donnée, certains cas, c’est parce que la DSI n’aura on ne l’est pas assez, tous les process de pas mis en place les moyens appropriés l’entreprise doivent être revus sous pour s’appuyer sur cette donnée. Mais l’angle de la data. » Pour cela, pas de soyons honnêtes : si l’IT pêche de ce point secret, tous les collaborateurs doivent de vue, c’est généralement par manque en être persuadés, dit Claire Pedini : d’instructions claires et de support de « Avant, il fallait que tout le monde la part de la direction générale. parle anglais. Aujourd’hui, il faut être data-fluent, que tout le monde dans l’entreprise sache parler data. » (1) Source : Statista (https://www.statista.com/statistics/871513/worldwide-data-created/)
14 61 % 39 % with less strong with the strongest analytics culture… analytics culture… 22 % 48 % significantly significantly exceeded exceeded business goals business goals in the past 12 in the past 12 months months Étude Deloitte “Becoming an Insight-Driven Organization”, 2019(1).
15 Dans une étude de 2019 auprès de plus crise du Covid, laquelle a certes ralenti de 1000 personnes au sein de grandes l’activité économique mais encore accé- entreprises (au-delà de 500 employés), léré la transformation numérique). Deloitte souligne les bénéfices d’avoir créé une culture de l’analyse de don- Un scénario optimiste, dit “de forte nées ; les entreprises s’appuyant sur la croissance”, table même sur un taux donnée sont plus de deux fois plus composite de croissance annuelle de nombreuses que les autres à dépasser 11,5 % de l’économie de la donnée entre leurs objectifs (cf. ci-contre). Cette 2020 et 2025 - si les États libèrent les nécessité de s’appuyer sur la donnée données, les valorisent, et que les en- est évidemment renforcée par la pan- treprises réalisent les investissements démie, qui a accéléré la bascule vers nécessaires, dans les compétences, les les activités en ligne et fragilisé nombre organisations et les technologies, no- d’entreprises. Ainsi, pour McKinsey, la tamment l’intelligence artificielle. La donnée est un levier clé pour sortir de politique d’Open Data en France, par la crise. exemple, contribue activement à la Dans un rapport publié en août 2020 croissance de cette économie. Elle peut (The recovery will be digital), le cabi- même être non marchande mais créer net recommande d’analyser « plusieurs de la valeur, comme on l’a vu avec Covid sources de données, sur une base Tracker et Vite Ma Dose. hebdomadaire (ou plus fréquente) afin d’évaluer les besoins changeants de ses clients et ses partenaires - ainsi que 4,00 % ses propres performances ». La donnée est aussi mise en avant par 2,60 % l’Union européenne comme un levier 1,85 % de compétitivité. Les économistes de l’Union européenne estiment que la 550 création de valeur basée sur l’analyse et 325 la vente de données dans l’Europe des 257 27 a représenté 325 milliards d’euros en 2019 (400 milliards avec le Royaume- 2014 2019 2025 Uni), soit 2,6 % du PIB global. Surtout, Volume (en Md€) la croissance de cette économie de % du PIB UE la donnée est bien plus forte que la croissance moyenne du PIB : en pour- centage du PIB, elle représentait seule- Estimations de l’économie de la donnée ment 1,85 % en 2014 et pourrait atteindre au sein de l’UE27(2). 4 % en 2025 (prévisions établies avant la (1) Source : https://www2.deloitte.com/us/en/insights/topics/analytics/insight-driven-organization.html (2) Source : UE & IDC (https://datalandscape.eu/study-reports/final-study-report-european-data-market- monitoring-tool-key-facts-figures-first-policy)
16 McKinsey recommande aussi de s’ap- Les données doivent également être puyer sur la donnée pour investir dans réévaluées. À mesure que les entreprises l’intelligence artificielle afin de recons- construisent ces modèles, les équipes truire des modèles adaptés à une ère d’analystes devront probablement ra- numérique, post-Covid : « De la même ssembler de nouveaux ensembles de manière que de nombreuses entre- données et utiliser des techniques de prises ont dû reconstruire les modèles modélisation améliorées pour prévoir financiers et de risque qui ont échoué la demande et gérer les actifs avec lors de l’effondrement financier de 2008, succès. » les modèles devront également être remplacés en raison des changements économiques et structurels massifs causés par la pandémie. Par exemple, les modèles qui utilisent des séries chronologiques, des prix du pétrole ou des données sur le chômage devront être entièrement reconstruits. Le challenge n’est pas tant de faire mieux, grâce à l’ordinateur et au machine learning, que ce que des statisticiens parviennent à réaliser, mais de pouvoir industrialiser cette approche.
17 MACHINE PRESCRIPTIVE LEARNING Automated - Influence what happens DESCRIPTIVE - What is happening? STATISTICAL PREDICTIVE User-driven MODELING VISUALIZATION - What will happen? ANALYSIS - Why did it happen? REPORTING IT-driven - What happened Complexity Le paysage de l’analytique selon le cabinet 451 Research Le challenge n’est pas tant de faire De la modélisation “avancée” à l’auto- mieux, grâce à l’ordinateur et au machine matisation de processus opérationnels, learning, que ce que des statisticiens les techniques d’intelligence artificielle parviennent à réaliser, mais de pouvoir peuvent aider l’entreprise à s’adapter industrialiser cette approche, de façon aux changements, à la croissance du à traiter davantage de données, plus nombre de sujets à traiter et à l’accélé- souvent, s’attaquer à des problèmes ration des interactions. Dans le retail, plus complexes… Jusqu’à, in fine, auto- par exemple, les acteurs doivent tout à matiser un certain nombre de traite- la fois assurer un renouvellement plus ments. fréquent de leurs gammes, optimiser la mise en rayon, être capable d’échan- Cette progression des techniques ana- ger avec les clients et de vendre sur tout lytiques depuis la BI façon rétroviseur un éventail de canaux (magasin, site jusqu’à l’automatisation et l’intelligence Web, applications mobiles, drive, etc.), artificielle est résumé par le cabinet multiplier les promotions pertinentes, d’analyse 451 Research dans le graphe individualiser les communications par ci-dessus. courriel… Impossible de faire l’ensemble de ces tâches, de façon correcte, à un rythme élevé, sans s’appuyer sur des outils se nourrissant de données et de modèles analytiques.
18 Challenge How AI can help Use case example → Update forecasts in real time → Digital control towers and ? Uncertain and variable supply and demand → Accelarate decision making decision support Operations and supply → Flexibly reallocate resources → Real-time value chain disruption → Improve cost efficiency optimization Suboptimal workforce → Optimize remote offerings → Labor allocation analytics allocation → Reallocate workforce Changing consumer → Rapid response to new → Real-time product confidence and priorities behavior customization Exemples de recours à l’IA pour résoudre des challenges actuels selon le BCG.(1) De la même manière, l’introduction La donnée est au cœur de cette transfor- d’outils d’analyse et d’applications auto- mation numérique ; c’est même ce qui matisant certains traitements dans a conduit nombre d’entreprises dans le secteur public permet aux agents les années 2010 à investir massivement concernés de se libérer du temps dans le Big Data. pour traiter de façon plus approfondie certains dossiers, recevoir le public, etc. En filigrane, on entend bien aussi les risques de ne pas se préoccuper réel- lement de cet actif. Des collaborateurs Apprendre des débordés, démotivés car ils n’ont pas années “Big Data” le temps de faire leur travail correcte- ment. Des processus opérationnels qui coûtent de l’argent, sans qu’on sache très bien comment les améliorer. Des Quelle entreprise n’a pas construit son clients qui restent une masse anonyme, cluster Hadoop au début des années alors que les concurrents leur proposent 2010 ? Le Big Data était partout, il montait une expérience personnalisée… fièrement à l’assaut du pic des attentes exagérées de Gartner (cf. ci-contre). On a longtemps glosé sur le vilain terme Chacun rivalisait pour construire son d’ubérisation. Toujours est-il que dans la lac de données, beaucoup plus versa- réalité, c’est bien la donnée et une façon tile et moins cher que les entrepôts de intelligente de l’utiliser qui ont permis à données, construits pour un type de des acteurs comme Uber, Netflix, Google données et un usage bien précis. C’était ou Amazon de s’imposer. Au détriment aussi la frénésie pour former et recru- d’acteurs pourtant bien implantés, qui ter des “data scientists”, métier qualifié ont tardé à saisir l’importance des chan- “le plus sexy du 21e siècle” par la Harvard gements induits par le numérique. Business Review en octobre 2012. (1) Source : https://www.bcg.com/fr-fr/publications/2020/business-applications-artificial-intelligence-post-covid
19 expectations Enterprisewide Metadata Repositories Database Platform as a Service (dbPaaS) Data Quality Software as a Service Data Stewardship Applications Cross-Platform Structured Data Archiving Data Services Entity Resolution and Analysis Complex-Event Processing In-Memory Database Management Systems noSQL Database Management Systems Open-Source Data Integration Tools In-Memory Data Grids Data Stewardship Enterprise Taxonomy and Ontology MapReduce Management Master Data Management Information Capabilities Framework Data Integration Tools and Data Quality Tools Convergence Data Integration Platform as a Service Information Semantic Enterprise Information Services Data Integration Tool Suites Database Appliances Management Programs Database Software as a Service Data Quality Tools "Big Data" and Extreme Information Column-Store Database Processing and Management Management Systems Data Federation/Virtualization Open-Source Data Quality Tools Open-Source Database Management Systems Data Profiling Content Integration and Migration As of July 2011 Peak of Technology Trough of Plateau of Inflated Slope of Enlightenment Trigger Disillusionment Productivity Expectations time Years to mainstream adoption: obsolete less than 2 years 2 to 5 years 5 to 10 years more than 10 years before plateau Positionnement des technologies “big data” dans l’édition 2011 du Hype Cycle for Data Management, Gartner Du point de vue du marché, cette → 85 % des projets Big Data échouent effervescence a créé une véritable à aller en production (Gartner, 2017). dynamique. Mais pour les entreprises, le retour sur investissement n’a pas été Il y avait pourtant une véritable justifica- évident. tion à cet engouement pour le Big Data. Les entrepôts de données traditionnels Quelques années après les débuts étaient, et sont encore, d’onéreuses fracassants du Big Data, les cabinets mécaniques de précision, ingérant une d’analystes multiplient les constats et donnée structurée nettoyée, qualifiée, prévisions alarmistes : destinée à alimenter des tableaux de → 87 % des projets de data science ne bord et outils de BI, construits par l’IT vont jamais en production (Venture- selon les spécifications des métiers. Beat, 2019) ; L’analyse de la donnée telle qu’elle se → 77 % des entreprises disent que pratiquait jusqu’alors consistait donc l’adoption des projets Big Data et IA essentiellement à regarder dans un représente un gros challenge (New- rétroviseur des éléments définis deux Vantage, 2019) ; ans auparavant. → 60 % des projets Big Data échouent à aller en production (Gartner, 2016) ;
20 Ce schéma convient parfaitement pour C’est en réponse à ces limitations que analyser par exemple des chiffres de le Big Data apparaît : il s’agit de répon- vente, par produit, par zone géogra- dre aux fameux 3 V de l’époque : phique, etc. En revanche, tout change- → vélocité : pour que le business puisse ment de structure doit passer par un obtenir plus rapidement des réponses ; long processus IT. Impossible donc de → volume : pouvoir stocker davantage s’adapter rapidement aux évolutions de données sans se préoccuper du coût de l’entreprise, à la montée en puissance ou de la structure ; de l’économie numérique avec ses → variété : pouvoir traiter des données concurrents extrêmement agiles, à la non structurées. multiplication de la donnée… De même, impossible avec les mêmes outils de De nombreux clusters de machines stocker et d’analyser de la donnée non Linux se montent, s’appuyant sur les structurée (texte, vidéo…) pour proposer technologies open source Hadoop et des services innovants aux collabora- MapReduce, complétées à un rythme teurs ou aux clients. effréné par la Fondation Apache. C’est une décennie très riche qui s’écoule alors, jusqu’à ce que le journal LeBig- Data lui-même pose la question : “La fin du Big Data ?” “L’Apache Software Foundation a déclaré dernièrement l’abandon de 13 projets Apache centrés sur le Big Data comme Apex, Falcon et Sentry. Une page du Big Data se tourne avec ce déclin, relatif, de Apache Hadoop, figure proéminente du secteur jusque-là.” Extrait de l’article “La fin du Big Data ? Apache abandonne une dizaine de projets Hadoop”, 15/04/21, LeBig- Data, https://www.lebigdata.fr/abandon-projets-apache-hadoop
21 En réalité, ce n’est pas véritablement de haut niveau pour concevoir ces le Big Data qui prend fin aujourd’hui : architectures de données et les mettre il y a toujours besoin, et même plus que à jour en fonction des incessantes nou- jamais, de pouvoir réagir rapidement ou veautés proposées par la Fondation de pouvoir analyser de grands volumes Apache et les acteurs du marché. Et de données, notamment pour créer même si on parle de serveurs Linux, il et entraîner des modèles prédictifs et fallait des moyens conséquents pour autres algorithmes de machine lear- monter et faire tourner une telle infra- ning. Ce qui disparaît - et c’est tant mieux structure en entreprise. - est cette croyance en une technologie → Un focus sur la quantité plus que qui d’un coup rendrait les entreprises la qualité. Beaucoup de projets sont data-driven. Tous les projets n’ont pas tombés dans l’excès inverse de la BI échoué, heureusement. Mais l’analyse traditionnelle, où toute donnée devait de cette décennie est sans conteste être fiable. La capacité de pouvoir collec- en demi-teinte. ter des tonnes de données brutes a conduit à vouloir réaliser des analyses On peut distinguer au moins six grandes statistiques sur ces grandes masses. raisons ayant abouti à ce résultat : La plupart du temps, les résultats ont validé l’adage “garbage in, garbage → Une très forte complexité. Les tech- out” : avec des données de mauvaise nologies estampillées Big Data étaient qualité en entrée, difficile de produire complexes à mettre en œuvre et à main- des résultats de qualité. tenir. On a beaucoup parlé de la pénurie de data scientists, mais avant cela, il fallait des architectes et des ingénieurs
22 → L’oubli de la notion de valeur. De très → L’absence d’une stratégie globale. nombreux projets se sont montés pour Une stratégie data-driven ne découle stocker de la donnée, toute la donnée, pas subitement d’un projet informa- sans véritablement se préoccuper de tique ; c’est l’infrastructure de données la finalité. S’il n’y a pas de réflexion en qui doit être conçue en fonction de la amont sur les cas d’usage, il devient stratégie de l’entreprise et des impéra- impossible de mesurer la valeur des tifs business. Le rôle crucial de la donnée projets Big Data pour le business, sans doit être clair pour tout le monde, c’est ce même parler de calculer un ROI. qui déterminera la gouvernance, l’orga- nisation, les processus et l’infrastructure → Une gouvernance axée sur la sécu- technologique. rité et la conformité. La gouvernance des données ne consiste pas seule- → Une approche trop centralisatrice. ment à s’assurer que les rôles ont bien Vouloir tout mettre au même endroit, été distribués et que chacun n’accède qu’il s’agisse des données ou des qu’aux données auxquelles il a le droit ressources humaines, peut s’avérer d’accéder. Au-delà des règles, il s’agit payant dans certains cas, mais cela ne de réorganiser complètement la façon devrait pas être une règle. Abolir les dont les équipes IT, les équipes data et silos n’est pas forcément synonyme de les métiers peuvent travailler ensemble tout regrouper ; la donnée peut être en bonne intelligence pour produire de mieux exploitée par des technologies la valeur. et des équipes différentes, le tout étant de savoir construire des ponts et d’avoir une vision globale.
23 Cette décennie Big Data aura au moins Dans les entreprises orientées clients, les mis en évidence les nouveaux besoins métiers doivent être particulièrement des entreprises et des utilisateurs. Car si réactifs. Ils doivent pouvoir s’adapter aux les projets n’ont pas forcément délivré évolutions technologiques, aux chan- tout leur potentiel, le besoin demeure. Il gements d’habitudes, aux modes, à se fait même plus pressant, avec le trans- l’apparition de nouveaux concurrents… fert croissant de nos activités en ligne Dans les télécoms ou la banque, par et le passage d’un monde centré sur la exemple, les acteurs en place ont dû fabrication et la vente de produits à un lancer des structures de zéro, en mode monde qui se focalise davantage sur le start-up, pour garantir cette agilité, et service et la satisfaction client. tabler sur l’analyse de données pour Nous avons tous observé en tant que concevoir et ajuster les meilleures offres consommateurs l’importance de se voir possibles. proposer des courriers individualisés, des offres personnalisées ou encore des Pour répondre efficacement à ces en- services d’abonnement pour des objets jeux, les métiers doivent être le plus dont l’usage nous intéresse plus que autonomes possible avec les données. la possession. Cette “servicisation” de Là aussi, les années Big Data ont vu l’industrie, qu’on retrouve aussi sous le l’émergence d’un phénomène souvent nom d’économie de la souscription, poussé à l’extrême, qui a de même nécessite une attention toute particu- montré ses limites : la démocratisation lière portée aux clients. de l’accès aux données.
24 Ce qui est à la base une bonne idée s’est Tandis que les directions générales se souvent traduit dans les faits par une BI demandent pourquoi leur entreprise self-service anarchique, avec des jeux n’est toujours pas data-driven. de données poussés aux utilisateurs et ouverts à toutes les interprétations. Le Résoudre ces sujets de tension ne se BCG fait le constat d’une maturité assez fera pas du jour au lendemain. Il est donc faible en 2016, qui aurait bien progressé urgent de s’attaquer à ce problème, en 2019 avec un score passé de 268 à 318 pour aborder sereinement la décennie sur 500 (cf. ci-dessous). qui commence et les prochaines années. De bons choix en matière d’architec- De façon beaucoup plus empirique, ce ture et de gouvernance au sens large que nous constatons sur le terrain, c’est constitueront déjà un bon début pour que cette maturité reste relativement industrialiser l’approche de la donnée. faible, ce qui est cause de beaucoup d’incompréhensions et de frustrations. Les équipes IT sont accusées par les utilisateurs de ne pas aller assez vite, de ne pas proposer de solutions amenant de la valeur. Les utilisateurs sont accusés de manquer de maturité, de préci- sion dans leurs demandes, mais aussi de compétences pour manipuler et comprendre la donnée. 2016 Survey (%) Lagging Developing Mainstream State of the art Best practice (100 points) (200 points) (300 points) (400 points) (500 points) 11 59 27 3 Average maturity index score (268) 2019 Survey (%) Lagging Developing Mainstream State of the art Best practice (100 points) (200 points) (300 points) (400 points) (500 points) 4 34 51 11 Average maturity index score (318) Enquête BCG sur la maturité des entreprises en matière de gouvernance de la donnée(1). (1) Source : https://www.bcg.com/publications/2019/rough-road-to-data-maturity
25 Laurent Ostiz Global Chief Data Officer, Adeo
26 Il y a ceux qui vendent du rêve, qui voient Mais le plus grand défi n’est pas là. Une la data comme une baguette magique. fois que vous avez créé votre ‘produit Ceux qui tentent de faire peur, en ne data’, vous n’avez fait que la moitié du parlant que de biais algorithmiques, de chemin : il faut penser à l’expérience vie privée et d’enfermement. Ou encore utilisateur. Faire en sorte qu’il serve ceux qui viennent vous conseiller les 10 vraiment. S’il s’agit de mettre en place algorithmes que toute entreprise devrait de l’automatisation, il n’y a pas de souci, mettre en place pour être performante. la démarche ira au bout. Mais si la data Je préfère une approche un peu plus doit aider les métiers à prendre des scientifique, et considérer la donnée décisions, alors il faut penser à la façon comme un outil pour résoudre des pro- dont on la présente et dont elle sera blèmes. Cela évite de tomber dans le utilisée. Même si votre algorithme est travers de faire de la data pour faire de plus malin que les règles de gestion la data. Si on formule ce qu’on essaie traditionnelles, cela ne sert à rien de de faire sous la forme d’un problème à présenter l’information dans un rapport résoudre, alors on saura mesurer si on ou un dashboard à côté si l’utilisateur réussit à le faire. n’a pas l’habitude de manipuler ce type de données. Le défi, et on l’a appris en Ma deuxième conviction, c’est que ce chemin, c’est de rendre cela familier, problème doit venir des métiers. On de l’intégrer dans un processus métier peut influencer, inspirer, mais surtout adapté. C’est cela, le sens du MLOps : le pas pousser une solution ex nihilo. Il faut machine learning devient une fonction- aller voir les métiers, comprendre leurs nalité d’un produit digital. problèmes, faire ressortir les sujets qui les préoccupent le plus : des informations Enfin, il y a un dernier élément qu’on qui manquent, des tâches qui pour- oublie souvent : s’assurer que la donnée raient être optimisées, voire automati- présentée sera utile. Il faut mesurer ce sées… Si le sujet n’est pas une priorité du que les gens font de cette information, métier, s’ils ne se cassent pas les dents se nourrir de ça et reboucler. Pour faire dessus depuis un certain temps, il n’y progresser l’algorithme, bien sûr, mais aura pas d’utilisation dans la durée. aussi pour ajuster l’UX, le moment ou encore la façon dont on fournit cette information.
27 Il n’y a pas de réponse absolue à la C’est plus complexe à gérer, mais je question “comment réussir sa stratégie suis convaincu que cela apporte de la data”. La réalité d’une entreprise, c’est valeur : les équipes créent de la conni- qu’on ne peut pas tout faire ; la straté- vence, il n’y a même plus besoin de faire gie data doit s’inscrire dans la stratégie remonter les sujets. de l’entreprise. De notre côté, nous ne considérons nos produits data comme En revanche, la plateforme reste com- des succès que lorsque l’usage de la mune, de même que l’outillage : pour donnée s’inscrit dans la durée, que des raisons de partage, d’économies les équipes métier l’utilisent de façon d’échelle, de gestion centralisée du régulière et familière. cycle de vie de la donnée, d’expertise… Toutes les enseignes partagent l’es- Cela paraît très simple, dit comme ça, sentiel de leurs données sur cette mais parfois les évidences mettent du plateforme, peuvent venir se brancher temps à remonter à la surface. Nous dessus et utiliser le moteur de recherche l’avons appris au fur et à mesure. Parce pour trouver les données dont elles ont qu’au début, on se concentre sur la besoin. Et vu le prix du stockage des partie de l’iceberg qui n’est pas la plus données froides dans le Cloud, on peut importante. Et c’est tout à fait normal, se permettre de conserver l’historique il y a de nombreux challenges tech- de toutes ces données, de façon à être niques et organisationnels à gérer plus pertinents lorsque les métiers ont lorsqu’on démarre : les datalakes, la des besoins spécifiques. plateforme MLOps, les outils, la qualité de la donnée, la gouvernance… Si bien qu’on peut se perdre en route. Notre organisation évolue également. Nous sommes partis d’un modèle très centralisé, mieux adapté pour créer la plateforme et bâtir nos outils et nos process. Aujourd’hui, nous rapprochons les équipes data des équipes métier.
2 L’industrialisation réussie passe par une refonte complète de la gouvernance
30 Fini les tâtonnements, place à l’approche L’objectif de DataOps est de fournir de industrialisée de la donnée : le DataOps. la valeur plus rapidement en créant Si on tire bien les leçons des années Big une livraison prévisible et une gestion Data, qui ont coïncidé avec les débuts du changement des données, des de la transformation numérique de la modèles de données et des artefacts société, c’est bien de cela que les entre- connexes. DataOps utilise la technolo- prises ont besoin : une infrastructure gie pour automatiser la conception, le solide mais agile, qui offre aux métiers déploiement et la gestion de la livrai- la possibilité de s’appuyer sur la donnée son des données avec des niveaux de pour prendre rapidement des décisions gouvernance appropriés, et il utilise les pertinentes, voire automatiser un cer- métadonnées pour améliorer la convi- tain nombre de processus. vialité et la valeur des données dans un environnement dynamique. » Gartner définit le DataOps ainsi : « DataOps est une pratique collabo- Il s’agit donc de la combinaison d’un rative de gestion des données qui vise environnement technique (que nous à améliorer la communication, l’inté- aborderons à la fin de ce chapitre) et gration et l’automatisation des flux de d’une gouvernance modernisée, pre- données entre les gestionnaires et les nant en compte la stratégie, les rôles, consommateurs de données au sein les processus, ou encore les métadon- d’une organisation. nées.
31 Les principes du DataOps 1. Satisfaire continuellement le client en 11. Rendre les résultats reproductibles lui fournissant rapidement et en perma- en prenant soin de tout versionner : les nence des informations analytiques données, les configurations matérielles précieuses. et logicielles, le code et la configuration de chaque outil. 2. Valoriser une analytique avec des données pertinentes fournies par des 12. Minimiser le coût en fournissant aux systèmes robustes. équipes analytiques des environnements techniques faciles à créer, isolés, sûrs et 3. Embrasser le changement, encou- jetables qui reflètent leur environnement rager les clients internes à faire évoluer de production. leurs besoins pour optimiser l’avantage concurrentiel. 13. Privilégier la simplicité, ou l’art de maximiser la quantité de travail qu’on n’a 4. Diversifier les rôles, les compétences pas à effectuer, pour contribuer à l’agilité et les opinions pour augmenter l’innova- globale. tion et la productivité : il s’agit d’un sport d’équipe. 14. Considérer l’analytique comme du ‘lean manufacturing’ : il faut se concen- 5. Prévoir des interactions quotidiennes trer sur les processus de façon à atteindre entre les clients, les équipes analytiques une efficacité continue dans la fabrication et DevOps tout au long du projet. de la connaissance analytique. 6. S’auto-organiser afin de faire émerger 15. Mettre l’accent sur la qualité : les pipe- les meilleurs algorithmes, architectures, lines analytiques doivent pouvoir détecter exigences et conceptions. automatiquement les anomalies et les 7. Réduire l’héroïsme : face au rythme problèmes de sécurité. et à l’ampleur des besoins en analytique, 16. Surveiller la qualité et les perfor- les équipes et processus doivent être mances en permanence pour détecter durables et répétables. les variations inattendues et générer des 8. Affiner les performances opération- statistiques opérationnelles. nelles en prenant régulièrement en 17. Réutiliseraumaximumpouraméliorer compte les retours des clients, ses propres l’efficacité de la production d’informa- retours, ainsi que les statistiques opéra- tions analytiques. tionnelles. 18. Réduire les cycles, de la conception à 9. Garder à l’esprit que l’analytique, c’est la réutilisation après réarrangement, en du code : les outils pour intégrer, modéli- passant par le développement et la diffu- ser ou visualiser les données produisent sion en tant que processus de production du code, qui décrit le travail effectué sur répétable. la donnée. 10. Orchestrer de bout en bout les données, les outils, le code, les environnements et le travail des équipes d’analyse s’avère un facteur clé de succès. Le Manifeste du DataOps (traduction : SFEIR). Source : https://www.dataopsmanifesto.org/
32 Instaurer une ou un outil de BI, recourir à un four- nisseur externe d’analyse, etc. - avec nouvelle collaboration dans tous les cas un accroissement du shadow IT (toute cette part de l’informa- IT et métiers tique d’entreprise qui échappe à toute supervision), une perte du contrôle des données ou encore une perte de savoir- faire et de connaissance métier. Dans ce « Pendant un moment, on nous deman- cas, comment valider que les analyses dait de créer des datalakes, juste pour sont pertinentes ? Que les données collecter des données, observe Florent sont cohérentes au sein de l’entreprise ? Legras, Head of Data chez SFEIR. Je Et comment faire lorsqu’un besoin pense qu’il est temps de remettre le nouveau émerge ? business au centre, que les plateformes Une collaboration entre IT et métiers est de données soient guidées par la valeur absolument nécessaire pour progres- apportée. » ser, délivrer la valeur ajoutée attendue et ne pas tomber dans ces travers. Cela Les sujets autour de la donnée ne sont peut sembler une évidence, mais dans ni complètement IT ni complètement les faits, cette collaboration est loin métiers. S’ils sont guidés uniquement d’être évidente. Nous le constatons par l’IT, ils échoueront, faute de sponsor, régulièrement dans les audits de matu- de direction claire et d’utilité. S’ils restent rité de la gouvernance de données que entre les mains des métiers, chacun fera nous réalisons (cf. un exemple de score ce qu’il souhaite de son côté - créer une ci-dessous). usine à gaz personnelle avec un tableur Data Strategy Data ecosystem Data roles 5 4 3 Data tech environment 2 Data Ops 1 0 Data auditability Data model Data value Data use cases Data awareness Company score Matrice de maturité SFEIR de la gouvernance de données avec un exemple fictif de score
33 Ces problèmes de collaboration entre Ces différentes attributions doivent donc IT et métiers impactent plusieurs axes être claires pour tous, à commencer d’analyse : par les responsables eux-mêmes, dont → La stratégie : les périmètres et missions doivent être la volonté de s’appuyer sur la donnée, précis. Au besoin, il peut être nécessaire de la considérer comme un actif straté- de créer de nouveaux postes (cf. pages gique, doit venir de la direction générale suivantes). de l’entreprise et être déclinée à tous → Les processus (le DataOps) : les niveaux, pour que chaque projet soit la façon dont IT et métiers travaillent aligné avec les objectifs de l’entreprise. ensemble dépend de l’organisation et Sans ce sponsoring explicite, difficile de donc des rôles, mais aussi des outils faire collaborer des gens qui ont leurs mis à disposition par l’IT pour faciliter propres priorités et urgences, et à plus cette collaboration, faire en sorte qu’un forte raison de faire en sorte qu’ils se dialogue s’instaure dès les phases sentent responsables des attributions initiales de cadrage et que les métiers et rôles qu’on peut leur confier. soient les plus autonomes possibles → Les rôles : tout en respectant les contraintes il ne suffit pas de nommer des data légales et techniques. Cela évite de owners, des data stewards ni même devoir reconsidérer un projet à mi-che- un Chief Data Officer pour que, magi- min parce qu’il n’aurait pas respecté quement, tout s’organise. En revanche, une phase de validation ou serait parti ne pas désigner des responsables ou sur des technologies exotiques. Un omettre de clarifier leurs rôles et respon- processus clair évite également les sabilités sont des risques majeurs. incompréhensions, sur les délais d’im- Comment sensibiliser quelqu’un sur plémentation notamment. la notion de qualité d’une donnée, par exemple, s’il ne s’en sent pas responsable ?
34 Une plateforme de données va néces- Ces règles et cette démarche de gou- siter côté IT un data architect, pour la vernance doivent être incarnées : cela concevoir en fonction des besoins de ne fonctionnera pas si les rôles et les l’entreprise, des data engineers, pour missions ne sont pas clairement définis la réaliser et la faire évoluer, des ingé- et s’il n’y a pas une autorité supérieure nieurs machine learning, pour indus- pour impulser et animer la démarche. trialiser les modèles, mais aussi côté Cette autorité doit découler de la direc- métier des data analysts et des data tion générale et s’incarner dans un chief scientists pour tirer parti des données. data officer. Cependant, des règles de gouvernance Ce rôle peut évidemment porter un sont nécessaires pour faire vivre cette autre nom. Dans le schéma ci-dessous, plateforme au quotidien et s’assurer nous l’appelons responsable de la trans- que l’entreprise en tire de la valeur, tout formation data-driven : une façon d’in- en opérant en toute conformité avec sister sur la nécessité de changer les les réglementations en vigueur. habitudes et les processus en s’ap- puyant sur la donnée. « Ces règles et cette démarche de gouvernance doivent être incarnées : cela ne fonctionnera pas si les rôles et les missions ne sont pas clairement définis et s’il n’y a pas une autorité supérieure pour impulser et animer la démarche. »
Vous pouvez aussi lire