À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
À QUOI SERVENT LES DATALABS ? SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 JUILLET 2021 30.20.01 978 2 7371 xxxx x institutparisregion.fr
Cette synthèse présente les principaux enseignements du petit déjeuner « À quoi servent les datalabs ? » Elle s’inscrit dans le thème transversal des petits déjeuners décideurs-chercheurs 2020-2021 sur les territoires en transition : - Comment ça marche en Île-de-France ? (17-06-2020) - Cohabiter avec les animaux sauvages en milieu urbain (30-09-2020) - À quoi sert l’évaluation environnementale ? (24-11-2020) - À quoi servent les datalabs ? (23-03-2021) RENARD ROUX PROGRAMME PROGRAMME PROGRAMME PROGRAMME PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS COMMENT ÇA MARCHE COHABITER AVEC LES ANIMAUX À QUOI SERT L’ÉVALUATION À QUOI SERVENT EN ÎLE-DE-FRANCE ? SAUVAGES EN MILIEU URBAIN ENVIRONNEMENTALE ? LES DATALABS ? WEBINAIRE - MERCREDI 30 SEPTEMBRE 2020 WEBINAIRE - MARDI 24 NOVEMBRE 2020, 9 H-10 H 45 WEBINAIRE - MARDI 23 MARS 2021 WEBINAIRE - MERCREDI 17 JUIN 2020 www www www www institutparisregion.fr institutparisregion.fr institutparisregion.fr institutparisregion.fr Retrouvez les ressources documentaires (podcast, diaporamas, bibliographie, etc.) sur le site de L’Institut Paris Region: https://www.institutparisregion.fr/petits-dejeuners-decideurschercheurs.html Directeur général : Fouad AWADA Synthèse rédigée par Antoine COURMONT, Brigitte GUIGOU, Guillaume LECOEUR, Dany NGUYEN-LUONG à partir d’une retranscription de Béatrice MERCIER. Coordination : Brigitte GUIGOU n° d’ordonnancement : 30.20.01 Crédit photo de couverture : Agsandrew/shutterstock.com
À QUOI SERVENT LES DATALABS ? La disponibilité d’une masse de données individuelles, à des échelles spatiales fines, ouvre de nou- veaux terrains et sujets d’études aux acteurs de la ville. Leur analyse, via de nouvelles méthodologies quantitatives, contribue à enrichir les politiques publiques et nourrir la décision, notamment en matière de mobilité. Pourtant l’organisation et l’usage de cette masse de données posent nombre de questions. Quel cadre juridique, économique, éthique et démocratique construire ? Comment les acteurs publics peuvent-ils avoir accès à ces données, aux mains d’opérateurs privés ou publics ? Comment trier, traiter, agréger, représenter et donner du sens à ce torrent d’information dans le cadre d’un datalab ? Comment coupler ces données avec celles issues d’enquêtes quantitatives classiques ? Quel mode d’organisation et compétences privilégier, notamment dans les agences d’urbanisme ? Pour répondre à ces questions au cœur des pratiques et des productions de L’Institut Paris Region, un chercheur et un décideur croiseront leurs points de vue. PROGRAMME DU 23 MARS 2021 (EN WEBINAIRE) 9 h 00 : OUVERTURE Fouad AWADA, directeur général de L’Institut Paris Region • Introduction : Dany NGUYEN-LUONG, directeur du département Mobilité Transports à L’Institut Paris Region • Organisation et animation : Brigitte GUIGOU, chargée de mission partenariat recherche à L’Institut Paris Region 9 h 30 – 10 h 30 : INTERVENTIONS ET QUESTIONS/RÉPONSES • Antoine COURMONT, chercheur en science politique, directeur scientifique de la chaire Villes et numérique de l’école urbaine de Sciences Po • Guillaume LECOEUR, responsable du pôle Données et Innovation, SNCF Réseau 3 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
À QUOI SERVENT LES DATALABS ? peuvent-ils avoir accès à ces données, aux mains Ouverture d’opérateurs privés ou publics ? Comment trier, traiter, agréger, représenter et donner du sens à ce Fouad AWADA, torrent d’information dans le cadre d’un datalab ? directeur général de L’Institut Paris Region Comment coupler ces données avec celles issues Tout le monde connait l’importance de l’informa- d’enquêtes quantitatives classiques ? Quel mode tion et de la donnée dans le fonctionnement des d’organisation et compétences privilégier, notam- entreprises. Nous avons besoin de savoir pour ment dans les agences d’urbanisme ? agir. Combien de clients pouvons-nous toucher ? À quelle distance ? Quels sont leurs revenus ? Pour répondre à ces questions au cœur des pra- Depuis longtemps les entreprises mobilisent des tiques et des productions de L’Institut Paris Region, données pour répondre à ces questions. Mais de- un chercheur en science politique, Antoine Cour- puis peu on s’intéresse à la valeur de ces informa- mont, et un décideur, Guillaume Lecoeur respon- tions pour soi, mais aussi pour les autres. Certains sable du pôle Données et Innovation, SNCF Réseau, d’entre vous, parmi les plus âgés, se souviennent croiseront leurs points de vue. Au préalable, Dany peut-être des premières cartes utilisées par les Nguyen-Luong, directeur du département Mobilité randonneurs. Il s’agissait de cartes d’État-ma- Transports à L’Institut Paris Region, proposera une jor de l’armée, détournées vers d’autres usages. intervention de cadrage. Dans nos métiers, il nous arrivait régulièrement d‘utiliser l’annuaire téléphonique pour réaliser Dany NGUYEN-LUONG, des enquêtes, tirer des échantillons. Si ce détour- Directeur du département Mobilité Transports, nement n’est pas nouveau, nous sommes entrés L’Institut Paris Region aujourd’hui dans une toute autre dimension en Je vous propose un cadrage sur le concept de Data- raison de la croissance exponentielle des données lab que j’illustrerai par un cas d’usage, le tableau produites grâce au numérique. Certains en ont fait de bord de la mobilité mis en place par L’Institut en un business, c’est le cas de l’économie biface qu’on novembre 2020. appelle aujourd’hui les plateformes qui collectent Un Datalab se base sur l’utilisation du Big data mais les données et les vendent. Les sociétés comme aussi sur celle d’autres technologies. Le graphique Orange, Coyote, SFR, Carrefour, etc., disposent de joint montre la part des entreprises susceptibles données qui, pour certains, ont un autre usage et d’adopter d’ici 2025 des technologies telles que « le qui donc vallent de l’or. Ces sociétés se sont ques- Cloud computing », « le Big data », « l’Internet des tionnées sur la manière de les réemployer. Il s’agit objets », etc., jusqu’à l’Ordinateur quantique. Le Big donc de considérer la donnée, celle qu’on produit data occupe une bonne place, puisque 85 % des ou celle qu’on collecte, comme un actif à valoriser entreprises ont l’intention d’exploiter le Big data et d’avoir une réflexion stratégique sur la manière d’ici 2025. Le Big data est très lié aux autres tech- d’y parvenir. À l’heure du Big data et des capteurs, nologies, au Cloud, à l’Intelligence artificielle, à l’Or- peut-on se passer d’une telle démarche dans n’im- dinateur quantique, au Calcul haute performance, porte quelle entreprise ? L’idée de créer un Datalab à la Modélisation simulation… Ces technologies à L’Institut Paris Region s’inscrit dans ce contexte. sont indissociables. L’objectif de ce petit déjeuner est de nous éclairer sur cette thématique et je remercie tous les inter- venants présents ce matin. Brigitte GUIGOU, Chargée de mission partenariat recherche, L’Institut Paris Region En effet l’organisation et l’usage de cette masse de données individuelles, à des échelles spatiales fines, contribuent à enrichir les politiques pu- bliques et nourrir la décision. Mais ils posent aussi nombre de question aux acteurs de la ville, Quel cadre juridique, économique, éthique et démocra- tique construire ? Comment les acteurs publics Source : The Future of jobs report - word economic forum 2020) 4 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Le Big data est, depuis une vingtaine d’années, elles sont rapidement dépassées. D’où l’intérêt de caractérisé par les fameux 3 V (volume-variété-vé- données de type Big data, ces données innovantes locité). Dans le domaine de la mobilité, on cherche comme celles de Traces numériques, de télébillet- des données d’usage et de fréquentation, beau- tique et espérons un jour, les données issues des coup plus difficiles à collecter que des données capteurs 3D dans les gares et dans les matériels d’offres. roulants. L’avantage des Big data, ce sont les 3 V, leur fraîcheur, la connaissance fine des origines Je retiendrais 4 caractéristiques du Big data. destinations, et elles sont gratuites et disponibles --Le volume des données. On parle aujourd’hui de en Opendata. Elles ont également des limites dont gigaoctet, bientôt de teraoctet, de petaoctet (soit il faut avoir conscience, par exemple l’absence 10 puissance 15), de yottaoctet (soit 10 puissance d’information sur les profils sociaux-économiques 24) et puis un jour lointain, on parlera de google des usagers, ou l’absence de connaissance précise (soit 10 puissance 100). sur les motifs des déplacements. Se pose aussi la --La variété des données. Ce sont les traces nu- question du redressement des données lorsque la mériques des déplacements géolocalisés avec base n’est pas exhaustive. des données, de type GPS, d’opérateurs télépho- Le graal d’un datalab en mobilité est une base de niques « les FMD » ou de télébillétiques. données au croisement entre les données clas- --La rapidité d’accès en « quasi temps réel ». On siques et le Big data. Cette base existe, tout le trouve des données en Open data disponibles à monde l’alimente sans forcément le savoir et il faut J+1 ; par exemple, pour les données du trafic rou- juste savoir comment la récupérer. C’est la Google tier à Paris. L’idéal ce sont ces plateformes d’ac- Maps Timeline. cès aux données à un format Opendatasoft avec possibilité de filtrage. Malheureusement, ce n’est On a parlé des données temps réel. L’INSEE parle pas toujours le cas. L’Opendata est essentiel à la de données haute fréquence mais il y a aussi des réussite des datalabs. Nous avons fait beaucoup données alternatives qui sont utilisées à d’autres de chemin depuis l’initiative Etalab il y a 10 ans, fins que celles pour lesquelles elles ont été pro- d’abord avec la loi pour le numérique, puis avec duites. Par exemple, les données des opérateurs le récent rapport Bothorel qui recommande un téléphoniques utilisées pour suivre la mobilité par meilleur partage des données entre acteurs pu- « grande masse » ou par « origine destination ». blics et la nécessité qu’ils puissent accéder à des Un autre exemple récent est l’analyse des eaux données produites par le privé lorsque celles-ci usées, pour évaluer l’évolution de la pandémie du sont considérées d’intérêt général. La loi LOM va Covid avec plusieurs jours d’avance par rapport aussi dans le sens d’une ouverture de données. au test. Dans notre tableau de bord « Mobilité », La crise Covid a également montré le besoin d’ou- nous avons essayé d’utiliser ces données alter- vrir les données pour permettre aux citoyens, à la natives pour suivre les touristes internationaux à société civile, aux chercheurs ou aux médias de partir des données de transaction de cartes ban- s’approprier ces données pour aider les pouvoirs caires, en remontant les terminaux de paiement. publics à mieux suivre l’évolution de la pandémie. Ce sont des données en Open data de la BPCE. Il --Données horodatées et historisées. Elles per- y a d’autres exemples comme le suivi de l’activité mettent de faire des analyses d’évolution tem- économique à partir des données de recettes TVA, porelle qui font l’objet de graphiques dans notre celles sur la consommation électrique dans le bâti, tableau de bord de la mobilité en ligne. les images satellitaires pour identifier le taux d’oc- cupation dans les parkings des centres commer- Pour mettre en place un Datalab, il faut avoir à ciaux. On peut dire que l’ortho-photo c’est une pho- l’esprit le triptyque « collecter, traiter et partager ». to, alors que les images satellitaires sont un film Dans le domaine de la mobilité, il y a les données qui permet de suivre l’évolution. Parmi les autres classiques provenant des enquêtes traditionnelles données alternatives il y a base de données DVF de type ménage-déplacement, migrations alter- sur les transactions immobilières en open data nantes du recensement, mais aussi des enquêtes avec des mises à jour tous les six mois. Elle per- origines destinations dans les gares. Ces enquêtes met de suivre les effets urbains des transports ou classiques sont indispensables. Ce sont des réfé- les effets de relocalisation résidentielle. La mise à rences, la matière première pour les analystes jour des données de DVF du second semestre 2020 de la mobilité et les modélisateurs. Mais elles est attendue en avril. Pour suivre les déplacements souffrent d’une trop faible fréquence et d’un coût pour motif santé-accompagnement, la méthode élevé. En période de crise, dans un moment où classique serait de lancer une enquête auprès de l’on cherche à suivre la mobilité en « temps réel », la population et des professionnels de santé. 5 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Aujourd’hui, on essaie de recueillir les données faire travailler ensemble les services informatique auprès de l’Assurance Maladie sur la téléconsulta- et communication. C’est une démarche « agile », où tion. L’intérêt d’un datalab – qui permet de recou- l’on choisit un sujet et où l’on procède par essais- per toutes ces données au sein d’une même struc- erreurs. C’est ce que nous avons fait avec notre ta- ture – est de créer un nouveau réflexe d’utilisation bleau de bord de la mobilité. L’étape suivante sera de données alternatives. Ces deux méthodes, clas- d’automatiser la chaîne « collecter-traiter-visuali- sique et datalab, sont complémentaires. ser » en utilisant des API permettant de téléchar- Dans le tryptique « collecter – traiter – partager », ger des jeux de données à la volée et de les traiter. la phase de traitement est essentielle. Il faut pen- Un datalab offre des perspectives d’innovation et ser « traitement, nettoyage, redressement ». Il y a de transformation dans les agences d’urbanisme, une panoplie de traitements mathématiques et les services techniques de l’État et des collectivi- statistiques plus ou moins complexes. Cela va des tés. Cela bouscule évidemment les habitudes de tableaux croisés dynamiques aux méthodes de ré- travail. gression linéaire ou logistique et aux méthodes de classification (ACP, hiérarchique). Depuis quelques Pour conclure, je dirai un mot sur l’exemple du pro- années, pour faire du prédictif, on utilise des mé- jet NEON. C’est un projet fédéral américain dans thodes de machine learning, notamment avec le domaine de l’écologie : National Ecological Ob- l’algorithme « Random forest », et des méthodes servatory Network (NEON). Les données sont col- de Deep learning par réseau neurone artificiel avec lectées par des dizaines de milliers de capteurs l’algorithme de « rétropropagation du gradient ». répartis sur tout le territoire dans les domaines de la biodiversité, du changement climatique, de l’hy- La phase de partage de données est aussi impor- drologie, des maladies infectieuses, de l’artificiali- tante. « Partager, c’est valoriser les données ». La sation, de la faune et la flore, de la météo, etc. Elles visualisation des données fait partie de la science sont mises en ligne et disponibles gratuitement. Le des données. Le choix de la représentation gra- financement est sanctuarisé sur trente ans depuis phique est important, comme le montre le site 2018 avec 80 millions de dollars par an. Je vous « Covidtracker » qui met bien en valeur les données invite à consulter leur site internet (https://www. en open data d’épidémies. Si on parle d’or noir pour neonscience.org/). On peut rêver d’un observatoire la donnée, c’est parce que les outils de data visua- de ce type-là en Île-de-France dans le domaine des lisation sont aux données ce que le raffinage est transports, de l’urbanisme et de l’environnement. au pétrole. Il existe des dizaines d’outils de visua- Notre tableau de bord de la mobilité est la première lisation, par exemple Infogram, Tableau, Qlik View, pierre de ce vaste édifice. Spotfire, Saagie, Power BI, etc. À L’Institut, nous utilisons Infogram. Certains outils parviennent à Brigitte GUIGOU automatiser la chaîne collecter-traiter-partager. Qu’est-ce que la base de données Maps Timeline ? Par exemple, pour répondre à une requête en lan- gage naturel du type « quelles sont les ventes de Dany NGUYEN-LUONG voitures en Espagne au dernier trimestre 2020 ? », Maps Timeline est la base de données de Google le logiciel va chercher la base de données en open qui fonctionne lorsque l’on active sans le savoir la data, la traiter et afficher le graphique de résultats fonction de géolocalisation. Tous nos trajets sont en optant pour la meilleure représentation. C’est ce tracés, enregistrés par Google. Maps Timelines qu’on appelle une « data virtualisation ». garde l’historique des trajets dans le détail sur le modèle d’une enquête ménage déplacement avec Qu’est-ce qu’un datalab ? pour chaque déplacement l’heure de départ et Au sein d’une entreprise, un datalab est une struc- d’arrivée. Sur cette base il est possible de faire des ture dédiée à la collecte, l’exploitation et la visua- hypothèses au motif à la destination et d’arriver à lisation des données. Tout ce qui tourne autour de détecter le mode de transport utilisé. Cette base l’innovation et de la donnée permet de croiser les de données des déplacements désagrégés existe, expertises des experts métiers et des data scien- c’est pourquoi L’Institut souhaiterait en récupérer tists. Un datalab est une structure transversale un échantillon. apportant de la souplesse et de la réactivité aux organisations sans en remanier la hiérarchie ou l’organigramme. C’est aussi l’opportunité d’inté- grer de nouvelles compétences telles que les data scientists. Un datalab peut fonctionner comme une startup au sein de l’organisation. Il permet de 6 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Antoine COURMONT, représenter leur territoire et d’agir, même si l’État Chercheur en science politique, directeur conserve de nombreuses prérogatives, comme cer- scientifique de la chaire Villes et numérique, taines entreprises incontournables dans la gouver- École urbaine de Sciences Po nance urbaine. Les collectivités sont inégalement dotées en Caractère politique des données termes de capacité de production de données. Cela et recompositions des pouvoirs associés dépend aussi des secteurs d’action publique. Par à leur production et à leur utilisation exemple, les collectivités se sont longtemps désin- La donnée sous forme d’information statistique, vesties du secteur énergétique qu’elles ont laissé cartographique ou d’état civil a joué un rôle central aux mains des énergéticiens. Tout récemment, des dans le processus d’étatisation des sociétés. C’est- collectivités souhaitant mettre en place des poli- à-dire dans la capacité de l’État moderne à impo- tiques publiques sur leur territoire en matière de ser une représentation à l’ensemble de la société, stratégie énergétique ont cherché à récupérer et à mettre en œuvre des politiques publiques. La utiliser ces données. construction de l’État-Nation est indissociable de la capacité de l’autorité politique à acquérir une forme L’attachement des données et les difficultés de monopole sur la production de données légi- qui peuvent émerger quand il s’agit de les times et à influer sur notre capacité à voir le monde partager, les mettre en circulation et les au travers de catégories étatiques. C’est ce que le utiliser à des fins alternatives sociologue Luc Boltanski appelle le pouvoir séman- La recomposition des relations de pouvoir entre tique des institutions, leur capacité à représenter échelles gouvernementales peut aussi s’analyser des phénomènes sociaux et surtout à coordonner par la production de données. L’entrée de nos so- les acteurs à partir de cette définition de la réalité. ciétés dans l’ère du numérique et du big data vers Les processus sont inégaux selon les pays qui ont la fin des années 2000, est caractérisée par une une capacité plus ou moins importante à produire capacité accrue d’un ensemble d’organisations ces informations et à les imposer. À l’inverse, ne publiques, privées ou de la société civile, pour pro- pas produire de données pour un acteur politique duire, stocker, traiter et faire circuler la donnée. Là public peut être un excellent moyen de produire de où auparavant les coûts et les investissements né- la méconnaissance et de ne pas gouverner certains cessaires à la production de données étaient réser- secteurs d’action publique. Notamment, des tra- vés à de grandes administrations, aujourd’hui les vaux de recherche mettent en évidence le fait que start-ups, les citoyens, les organisations peuvent les pouvoirs publics produisent volontairement produire de la donnée à des coûts beaucoup plus de la méconnaissance sur certains phénomènes faibles. sociaux. Je pense notamment aux travaux de Tho- Dès lors, tous ces acteurs ont été en mesure de mas Aguilera sur les habitats informels souvent produire des informations fournissant des repré- illégitimés par les autorités publiques en France et sentations alternatives de nos sociétés et de nos à l’étranger. La connaissance de ces phénomènes territoires. On peut prendre l’exemple d’Open Trip- est faible, ce qui empêche leur mise à l’agenda poli- Map, un projet de cartographie libre, le Wikipédia tique et leur prise en charge. de la cartographie. Cela aurait été inimaginable avant l’essor du numérique, qui a impliqué la capa- En suivant les capacités de différents acteurs à cité de tout à chacun à acquérir un GPS. Ce projet a produire des données, on peut observer les recom- permis de cartographier de nombreuses zones, par positions dans la gouvernance des territoires. Bien exemple des bidonvillesou des quartiers informels avant le numérique, à partir des années quatre- qui ont acquis une existence, une forme de légiti- vingt en France avec les lois de décentralisation, il mité et donc une mobilisation politique possible à y a eu une montée en puissance des collectivités partir de cette production de données alternatives. locales, notamment des structures intercommu- nales. Elle s’est accompagnée d’une capacité à Du côté de la société civile et des citoyens produire des données sur son territoire, à le repré- Les citoyens sont aujourd’hui en mesure de pro- senter notamment au travers de la mise en place duire des statistiques qu’ils peuvent opposer à de système d’information géographique ou en l’État. On l’observe avec le mouvement des capteurs association avec des tiers telles que les agences citoyens. Ce sont des citoyens qui par exemple, dé- d’urbanisme. Là où les villes étaient dépendantes cident de mesurer la qualité de l’air et de produire des services de l’État et de leur capacité à produire des mesures alternatives pouvant s’opposer aux des informations sur leur territoire, elles ont gagné mesures officielles. Ces mesures alternatives sont en autonomie. Elles ont été en capacité partielle de de nouvelles formes d’engagement politique. 7 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Du côté des acteurs privés des éléments neutres et immatériels qui circulent Cette capacité accrue en matière de production de aisément. Elles sont, au contraire, solidement atta- données est aussi investie par les acteurs privés, chées à de vastes infrastructures sociotechniques ce qui peut conduire à des conflits de régulation composées d’organisation, de modèles écono- assez forts. C’est le cas par exemple avec l’entre- miques, de cadre juridique, de systèmes d’infor- prise Waze, qui propose une application de calcu- mation, de format voire même de culture métier. lateur d’itinéraires. Les données proviennent des Pour les mettre en circulation, il est nécessaire de usagers, ce qui rend l’application indépendante défaire ces liens. Cela requiert un travail considé- des pouvoirs publics. Ses modalités de calculs al- rable notamment parce que les défis techniques et gorithmiques conduisent à des reports de trafics organisationnels sont intimement liés. Il faut insis- dans des quartiers résidentiels ou des zones peu ter sur l’aspect organisationnel qui est tout aussi fréquentées par les automobilistes. Cela provoque important que l’aspect technique. des conflits avec les autorités en charge de la ré- En matière technique, il y a les activités de stan- gulation de la circulation automobile. Les pouvoirs dardisation, de partage, d’agrégation de bases de publics se voient dépourvus de leur capacité à gou- données métiers. Cela génère des problématiques verner et perdent en quelque sorte la maitrise de la matérielles de mise en cohérence de format. L’en- représentation de leur territoire. jeu est aussi de réussir à partager et extraire des Un des grands enjeux aujourd’hui en matière données de systèmes d’information métier qui de transformation de gouvernance est la mise à peuvent être des systèmes propriétaires, anciens, l’épreuve de ce pouvoir sémantique des institutions qui ne sont pas conçus pour cela et qui nécessitent publiques. L’État, les collectivités ont perdu leur pour être mis en circulation des investissements monopole de production de données à partir des- parfois importants. Il est aussi nécessaire d’enrô- quels des individus vont se coordonner, que ce soit ler les organisations productrices de données pour à l’échelle nationale avec l’identité numérique, en qu’elles acceptent de les mettre à disposition, ce partie aux mains de Facebook ou de Google versus qui ne se fait pas sans réticence. l’état civil précédemment, ou à l’échelle locale avec Un autre enjeu est l’attachement de données éco- les listes de meublés touristiques que possédent nomiques avec des modèles d’affaires pouvant être Airbnb ou les listes de véhicules avec chauffeur associées à des données qui contraignent leur mise possédées par Uber. Il faut signaler l’importance en circulation et leur partage. Ces données sont pour les pouvoirs publics de regagner une exper- également attachées à des cadres juridiques et tise en matière de production et de traitement de réglementaires. Quand elles rentrent dans le cadre données pour conserver la maitrise de la représen- du RGPD (Règlement Général sur la Protection des tation des territoires et des phénomènes sociaux Données), un travail conséquent d’anonymisation et in fine pour conserver la maitrise des politiques est nécessaire avant tout partage. C’est le cas des publiques sur leur territoire. C’est à ce titre que les données bancaires ou de transport de Google. datalabs peuvent jouer un rôle assez crucial. Les données sont porteuses d’un héritage qui contraint leur utilisation. Elles ont été produites La mise en œuvre des datalabs pour une finalité et véhiculent une représentation L’objectif des datalabs repose souvent sur un dis- de l’espace qui rend plus difficile leur usage à des positif, une infrastructure technique et une forme fins alternatives. Par exemple, il y avait un jeu de de plateforme des données. Le datalab permet données sur les toilettes publiques mis à dispo- d’agréger une architecture plus ou moins centrali- sition sur la plateforme open data du Grand Lyon. sée selon des procédures plus ou moins automa- Ce fichier, produit par la direction de la propreté de tisées et des formats devant être standardisés et la Métropole de Lyon, recensait et cartographiait exploitables de données provenant de différentes ces installations. Quelques semaines après sa dif- sources et organisations. Auparavant ces données fusion, l’équipe en charge de l’open data a reçu un quittaient rarement leur système d’information email d’un utilisateur mécontent parce que seules d’origine. trois toilettes publiques était listée sur le territoire Mettre en œuvre cette circulation et ce partage de de la ville de Lyon. D’après la direction de la propre- données en amont de tout traitement demande té ce problème était dû au mode de recensement des investissements et un travail non négligeable. qui, dans la commune de Lyon, identifiait unique- On peut avoir l’impression que c’est facile, qu’il ment les toilettes nettoyées par des agents. Hors suffit de faire un copié/collé dans une base d’in- un grand nombre de toilettes publiques sont des formation métier du producteur vers un système sanisettes autonettoyantes. De plus la direction de d’information de diffusion. Dans les faits, c’est bien la propreté de la Métropole ne disposait pas d’in- plus compliqué car les données sont loin d’être formation sur leur localisation, l’information étant 8 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
détenue par la ville de Lyon qui prend les arrêtés sent les expertises sur les modes doux sont rares d’occupation de l’espace public pour leur installa- et les calculs de flux encore plus. Cela prendra du tion. Cet exemple montre que n’importe quelle don- temps pour collecter les bonnes données et savoir née véhicule une définition de ce que l’on souhaite les intégrer dans des modèles pertinents pour ces représenter en fonction de l’usage que l’on souhaite usages. en faire. L’utilisateur peut faire ce travail d’enrichis- sement de données mais il faut qu’il aille recher- Brigitte GUIGOU cher les données auprès de différents producteurs. A-t-on une idée du nombre de collectivités locales Cela met en évidence ce travail – important mais qui sont aujourd’hui engagées dans ces démarches souvent négligé – de sourcing, de nettoyage, d’enri- de datalabs ? chissement de la donnée, nécessaire pour l’utiliser D’autre part, quels sont pour vous les principaux à des fins alternatives. Cela explique les limites des arguments en faveur du développement des data- portails open data d’aujourd’hui. labs dans les agences d’urbanisme de développer des datalabs ? Construire une expertise des compétences et nouveaux métiers Antoine COURMONT Des nouveaux métiers liés au traitement de la don- Pour les collectivités locales, je n’ai pas de recen- née émergent dans les organisations privées et sement exhaustif. Les collectivités sont entrées publiques : d’abord par l’aspect Open data et par sa mise sur --les chief data officer, administrateur général de l’agenda. L’enjeu pour elles est de rassembler des données, les chefs de projets data, etc. ; données de leur propre système d’information et de --les postes sur la transformation des systèmes ceux de leurs partenaires publics ou privés, autour d’information : les data architectes, les data ingé- de la notion de données d’intérêt général. Le Rap- nieurs ; port Bothorel a rappelé qu’on dépasse le caractère --des nouveaux métiers autour des outils et des public ou privé des données si elles sont d’intérêt pratiques et des métiers d’analyses de données : général. Cela peut ouvrir sur des questions très les data analystes, les data scientistes. conflictuelles en matière d’intérêt général et de données pouvant y être attachées. Aujourd’hui, les Ces profils restent rares et sont donc très recher- métropoles françaises sont engagées dans la mise chés. Leur bonne intégration dans les structures en place de ce type de plateformes. Ces investis- territoriales nécessite de construire une complé- sements sont longs et assez coûteux en matière mentarité avec les expertises métier tradition- technique et organisationnelle. On n’en est aux pré- nelles. Assez techniques, ces profils ont peu de mices et il n’y a pas grand-chose de fait encore. connaissances des enjeux urbains, ce qui peut C’est pareil pour les agences d’urbanisme. Il y a une provoquer des difficultés de compréhension et de prise de conscience du risque qu’un certain nombre construction d’un langage commun avec les ex- de données expertise, entre les mains des agences perts métier. d’urbanisme, se voient concurrencées ou par des J’ai par exemple mené une enquête pour la Ville acteurs privés. Comment les agences d’urbanisme de Paris sur le réaménagement de la place de la peuvent-elles se positionner pour ne pas perdre la Nation. La ville avait décidé d’installer, en partena- main et conserver leur maitrise en matière de pro- riat avec un ensemble de start-up et avec l’entre- duction d’analyse de données ? C’est tout à fait lo- prise Cisco, des capteurs pour comprendre l’usage gique d’investir sur ces nouvelles sources de don- des modes doux sur la place. Or ces données ont nées, d’essayer de les rassembler et de commencer été très peu utilisées par la Ville de Paris en raison à jouer avec pour voir ce qu’on peut en tirer. C’est des difficultés de compréhension entre les diffé- un investissement à long terme, nécessaire pour rentes cultures métier avec d’un côté, une culture maintenir une indépendance publique en matière urbaine d’aménageurs traditionnels, et de l’autre d’expertise des territoires. des cultures issues du secteur informatique. Ces obstacles s’aplaniront sans doute avec le temps. Brigitte GUIGOU En effet l’émergence et l’usage des Big data dans Vous avez évoqué la question de la collecte des les politiques urbaines sont récents, construire de données. Comment inciter les acteurs privés à l’expertise autour de ces nouvelles sources de don- transmettre leurs données dans le bon format ? nées prend du temps. Si la question des flux auto- mobiles est bien maitrisée aujourd’hui c’est parce Antoine COURMONT qu’elle est étudiée depuis un siècle, qu’il y a des Le rapport de force est plutôt défavorable au chercheurs et experts spécialisés. Or jusqu’à pré- domaine public, en particulier aux institutions 9 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
publiques locales dans la mesure où les grosses Antoine COURMONT plateformes numériques n’ont pas forcément inté- En effet, j’ai aussi cité l’exemple des capteurs rêt à récupérer des données du domaine public, citoyens pour les pollutions atmosphériques ou sauf dans le domaine du transport. Néanmoins un sonores. Cette capacité accrue à produire des don- certain nombre d’obligations sont peu à peu trans- nées concerne aussi la société civile. Des groupes crites dans la loi et dans le cadre réglementaire militants ou des associations produisent leurs obligeant les acteurs de l’économie numérique à propres représentations et indicateurs. Ils pro- transmettre leurs données aux collectivités. C’est posent des chiffres alternatifs à ceux des pouvoirs le cas par exemple des locations de meublés tou- publics pour agréger un certain nombre de col- ristiques, dont Airbnb qui depuis peu transmet des lectifs, se mobiliser et faire changer les politiques données chaque année à la Ville de Paris. Cela per- publiques. C’est assez ancien. Certains sociologues met à la Ville de mettre en œuvre la régulation et de ont appelé cela le « statactivisme », c’est-à-dire, repérer les loueurs qui ne respectent pas le seuil lutter avec des statistiques avec un slogan « un des 120 jours. La loi s’accompagne de décrets d’ap- autre nombre est possible ». À l’époque, c’était sur plications sur le format de données. Mais concré- les indicateurs alternatifs au PIB représentant la tement les données sont fournies dans des for- richesse d’un pays. On a la même chose à l’échelle mats et des structures différents et il y a toujours locale aujourd’hui. un enjeu de standardisation pour ces données des acteurs privés. Guillaume LECOEUR, Brigitte GUIGOU Responsable du pôle données et innovation, DGEX Vous avez aussi souligné qu’un certain nombre de Solutions, SNCF réseau données s’appuient sur cette dimension collabora- Le pôle d’innovation de la SNCF, créé depuis 18 tive. Cela pose-t-il des problèmes particuliers ? mois, s’inscrit dans des transformations qui se sont succédées depuis des dizaines d’années à la SNCF. Antoine COURMONT Il est important que les acteurs publics inves- Le pôle innovation et ses missions tissent sur l’aspect collaboratif. Cela leur permet Aux origines de la création du pôle, nous avons d’avoir une représentation dépassant leurs fron- fait le constat que la transformation numérique tières territoriales. Mais les différences de formats engagée depuis une dizaine d’années à la SNCF d’une ville ou d’une intercommunalité à l’autre ne connaissait plusieurs limites, à commencer par la facilitent pas le rôle des utilisateurs externes. qualité des données présentes dans les gisements S’appuyer sur des initiatives comme Open Street de l’entreprise. Le pôle données & innovation a Map permet un certain nombre de standardisa- ainsi été créé pour accélérer la transformation tions de données. Cela permet aussi de s’appuyer numérique de l’entreprise, en participant à l’indus- sur la foule pour produire ces données. Comment trialisation des chaînes de la donnée, sur la base de peut-on alors s’assurer de la fiabilité des données plusieurs innovations dans le domaine. qui peuvent être modifiées rapidement ? Et à quel Néanmoins, la transformation numérique ne point peut-on s’appuyer sur ces données pour me- constitue pas une finalité en soi. Il s’agit en effet ner des politiques publiques ? Il se trouve qu’Open d’aborder la question de la mise en performance du Street Map, en continuité de ce que fait Wikipédia, système ferroviaire, principale promesse accom- a mis en place des dispositifs pour identifier cer- pagnant la transformation numérique de SNCF taines modifications malveillantes. La puissance réseau. En ce sens, la valorisation des données du collectif fait qu’on arrive à avoir des données de l’entreprise constitue la deuxième composante d’assez bonne qualité et assez fiables. Certaines inhérente à la création du pôle données. collectivités commencent à utiliser ces données collaboratives pour représenter des phénomènes À cette fin, le pôle données & innovation rassemble assez coûteux à représenter car ils demandent une de nombreuses expertises qui doivent permettre présence massive sur le terrain. de répondre à ces enjeux nouveaux. Le pôle don- nées rassemble une trentaine de personnes, des Brigitte GUIGOU data scientists, data engineers, des développeurs Le secteur associatif est parfois très actif dans la ou encore des ingénieurs ferroviaires. Après un an production de données alternatives, je pense par et demi de création, le pôle a plus d’une dizaine exemple au baromètre des villes marchables à l’ini- de projets numériques répartis au sein du groupe tiative de plusieurs associations piétonnes. Quel SNCF, essentiellement chez SNCF Réseau. rôle jouent, selon vous, ces associations ? 10 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Planifier ou subir la transformation à ce moment-là qu’une stratégie d’entreprise sur numérique la transformation numérique va naître avec l’éla- La transformation numérique doit être planifiée, boration de modèles, de normes, de gouvernance au risque d’être subie. C’est un mouvement trans- des données. Cette transformation porte deux pro- versal à l’ensemble des activités d’une entreprise. messes : Nous sommes tous des acteurs de la transforma- • réduire les coûts de la transformation numérique tion numérique, dès lors que nous avons l’usage de plusieurs centaines de millions d’euros, d’un smartphone ou d’un ordinateur. L’usage d’un • et permettre la mise en performance du système. tableau Excel ou d’une boîte e-mail ne sont pas des choses aussi anodines qu’on ne le pense. Elles C’est dans ce contexte que le modèle d’entreprise participent à la numérisation des données d’une Ariane va émerger. Il est basé sur le rail TOPOMO- entreprise mais bien souvent sans norme ni gou- DEL, norme internationale sur la manière de par- vernance. Si tout cela n’est pas planifié, on abou- tager des données d’infrastructures entre les ges- tit à des situations non souhaitables qui peuvent tionnaires d’infrastructures, particulièrement en être extrêmement couteuses. À titre d’exemple, la Europe. Il va permettre de décrire tous les objets crise sanitaire a été pour beaucoup d’entreprises métiers de la SNCF de la même manière, quels que un accélérateur de la transformation numérique, soient les outils. On voit également émerger des au sens où elle a permis la dématérialisation grands gisements de données, partagés par l’en- d’échanges auparavant physiques. Pour les entre- semble des outils. On sort du paradigme « un gise- prises qui n’avaient pas les outils adaptés, cette ment de données pour un outil ». Le grand chan- transformation s’est bien souvent faite après avoir gement de la transformation numérique n’est pas testé des dizaines de solutions, sans considérer seulement de transformer les systèmes d’informa- les enjeux de cybersécurité. On a tous en tête ces tion mais aussi de transformer les organisations. réunions auxquelles des personnes qui n’étaient Une organisation appelée Nouvelle Ère va égale- pas conviées ont accédés, y compris dans les plus ment voir le jour. hautes sphères de l’État. Outre les enjeux de cyber- sécurité, il faut également noter les enjeux rela- Dix ans après, on constate que cette première pla- tifs au partage de l’information, à la définition des nification n’est pas complètement réussie. Il nous données, aux langages informatiques utilisés ou reste énormément de données à numériser. On fait encore à la qualité des données. face à des enjeux structurants même si on arrive à avoir des possibilités que l’on n’avait pas il y a une La planification de la transformation numérique à dizaine d’années. la SNCF est récente, alors même que la transfor- mation numérique a débuté au début des années Les défis et le Jumeau Numérique quatre-vingt avec les premiers postes informatisés Premier enjeu : la qualité des données et la collecte massive d’informations. Le principal défi auquel on fait face aujourd’hui Progressivement, la SNCF va collecter de plus en est celui de la qualité des données présentes dans plus de données et, sur la base de ces systèmes, nos gisements de données. Il empêche aujourd’hui produire des outils qui vont participer à la mise en l’industrialisation d’outils à l’échelle nationale, tant performance du système ferroviaire. Dans les an- l’effort de mise en qualité est important. Pour y nées 2010, on dispose d’à peu près un millier d’ou- arriver, cela suppose des données de qualité ho- tils et chacun dispose de sa propre base et de ses mogène, à la fois des données historiques, temps modèles de données. Cette disparité des systèmes réel ou à venir pour le théorique. Cette question de d’informations, dont la cause est la non-planifica- la qualité de données empêche des déploiements tion de la transformation numérique, a créé des massifs ou à des coûts très élevés. Les outils de difficultés considérables pour faire interagir les SNCF Réseau n’ont pas totalement basculé du pa- outils entre eux, ce qui était nécessaire à la ratio- radigme que j’évoquais tout à l’heure – une base de nalisation de l’outil de production et à sa mise en données, un outil –, vers l’usage massif de ces gise- performance. Ainsi, au début des années 2010, le ments de données. On développe, au sein du pôle coût de la maintenance des données pour chaque Données, plusieurs solutions permettant d’accélé- outil et des modules de conversion pour permettre rer cette transformation numérique, mais surtout les échanges entre ces derniers, ou encore celui de passer d’un paradigme de la responsabilité des du déploiement d’outils à l’échelle nationale sont à données à celui de la maîtrise de données. La nou- l’origine d’une prise de conscience et d’une réorien- velle ère va nommer des responsables de la don- tation stratégique. née mais ces responsables n’auront pas les outils On commence alors à imaginer autre chose et c’est suffisants pour adresser la maitrise des données. 11 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Vous pouvez aussi lire