À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region

La page est créée Alexandre Rossi
 
CONTINUER À LIRE
À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
À QUOI SERVENT LES DATALABS ?
  SYNTHÈSE DU PETIT DÉJEUNER
  DÉCIDEURS-CHERCHEURS DU 23 MARS 2021

  JUILLET 2021
  30.20.01
  978 2 7371 xxxx x

institutparisregion.fr
À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
Cette synthèse présente les principaux enseignements du petit déjeuner
« À quoi servent les datalabs ? »

Elle s’inscrit dans le thème transversal des petits déjeuners décideurs-chercheurs 2020-2021
sur les territoires en transition :
- Comment ça marche en Île-de-France ? (17-06-2020)
- Cohabiter avec les animaux sauvages en milieu urbain (30-09-2020)
- À quoi sert l’évaluation environnementale ? (24-11-2020)
- À quoi servent les datalabs ? (23-03-2021)
                                                                       RENARD ROUX

                                     PROGRAMME                                                                           PROGRAMME                                                                     PROGRAMME                                                             PROGRAMME
                           PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS                                                PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS                                        PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS                                       PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS

                          COMMENT ÇA MARCHE                                                 COHABITER AVEC LES ANIMAUX                                                              À QUOI SERT L’ÉVALUATION                                                            À QUOI SERVENT
                             EN ÎLE-DE-FRANCE ?                                               SAUVAGES EN MILIEU URBAIN                                                                 ENVIRONNEMENTALE ?                                                               LES DATALABS ?
                                                                                                                  WEBINAIRE - MERCREDI 30 SEPTEMBRE 2020                                WEBINAIRE - MARDI 24 NOVEMBRE 2020, 9 H-10 H 45
                                                                                                                                                                                                                                                                             WEBINAIRE - MARDI 23 MARS 2021
                                   WEBINAIRE - MERCREDI 17 JUIN 2020

        www                                                                                 www                                                                   www                                                                            www

 institutparisregion.fr                                                              institutparisregion.fr                                                institutparisregion.fr                                                         institutparisregion.fr

Retrouvez les ressources documentaires (podcast, diaporamas, bibliographie, etc.)
sur le site de L’Institut Paris Region:
https://www.institutparisregion.fr/petits-dejeuners-decideurschercheurs.html

Directeur général : Fouad AWADA
Synthèse rédigée par Antoine COURMONT, Brigitte GUIGOU, Guillaume LECOEUR, Dany NGUYEN-LUONG
à partir d’une retranscription de Béatrice MERCIER.
Coordination : Brigitte GUIGOU
n° d’ordonnancement : 30.20.01

Crédit photo de couverture : Agsandrew/shutterstock.com
À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
À QUOI SERVENT LES DATALABS ?
La disponibilité d’une masse de données individuelles, à des échelles spatiales fines, ouvre de nou-
veaux terrains et sujets d’études aux acteurs de la ville. Leur analyse, via de nouvelles méthodologies
quantitatives, contribue à enrichir les politiques publiques et nourrir la décision, notamment en matière
de mobilité. Pourtant l’organisation et l’usage de cette masse de données posent nombre de questions.
Quel cadre juridique, économique, éthique et démocratique construire ? Comment les acteurs publics
peuvent-ils avoir accès à ces données, aux mains d’opérateurs privés ou publics ? Comment trier, traiter,
agréger, représenter et donner du sens à ce torrent d’information dans le cadre d’un datalab ? Comment
coupler ces données avec celles issues d’enquêtes quantitatives classiques ? Quel mode d’organisation et
compétences privilégier, notamment dans les agences d’urbanisme ?

Pour répondre à ces questions au cœur des pratiques et des productions de L’Institut Paris Region,
un chercheur et un décideur croiseront leurs points de vue.

PROGRAMME
DU 23 MARS 2021 (EN WEBINAIRE)
9 h 00 : OUVERTURE
Fouad AWADA, directeur général de L’Institut Paris Region

• Introduction :
  Dany NGUYEN-LUONG, directeur du département Mobilité Transports à L’Institut Paris Region

• Organisation et animation :
  Brigitte GUIGOU, chargée de mission partenariat recherche à L’Institut Paris Region

9 h 30 – 10 h 30 : INTERVENTIONS ET QUESTIONS/RÉPONSES
• Antoine COURMONT, chercheur en science politique, directeur scientifique
  de la chaire Villes et numérique de l’école urbaine de Sciences Po
• Guillaume LECOEUR, responsable du pôle Données et Innovation, SNCF Réseau

                                                           3
               L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
À QUOI SERVENT LES DATALABS ?
                                                              peuvent-ils avoir accès à ces données, aux mains
Ouverture                                                     d’opérateurs privés ou publics ? Comment trier,
                                                              traiter, agréger, représenter et donner du sens à ce
Fouad AWADA,                                                  torrent d’information dans le cadre d’un datalab ?
directeur général de L’Institut Paris Region                  Comment coupler ces données avec celles issues
Tout le monde connait l’importance de l’informa-              d’enquêtes quantitatives classiques ? Quel mode
tion et de la donnée dans le fonctionnement des               d’organisation et compétences privilégier, notam-
entreprises. Nous avons besoin de savoir pour                 ment dans les agences d’urbanisme ?
agir. Combien de clients pouvons-nous toucher ?
À quelle distance ? Quels sont leurs revenus ?                Pour répondre à ces questions au cœur des pra-
Depuis longtemps les entreprises mobilisent des               tiques et des productions de L’Institut Paris Region,
données pour répondre à ces questions. Mais de-               un chercheur en science politique, Antoine Cour-
puis peu on s’intéresse à la valeur de ces informa-           mont, et un décideur, Guillaume Lecoeur respon-
tions pour soi, mais aussi pour les autres. Certains          sable du pôle Données et Innovation, SNCF Réseau,
d’entre vous, parmi les plus âgés, se souviennent             croiseront leurs points de vue. Au préalable, Dany
peut-être des premières cartes utilisées par les              Nguyen-Luong, directeur du département Mobilité
randonneurs. Il s’agissait de cartes d’État-ma-               Transports à L’Institut Paris Region, proposera une
jor de l’armée, détournées vers d’autres usages.              intervention de cadrage.
Dans nos métiers, il nous arrivait régulièrement
d‘utiliser l’annuaire téléphonique pour réaliser              Dany NGUYEN-LUONG,
des enquêtes, tirer des échantillons. Si ce détour-           Directeur du département Mobilité Transports,
nement n’est pas nouveau, nous sommes entrés                  L’Institut Paris Region
aujourd’hui dans une toute autre dimension en                 Je vous propose un cadrage sur le concept de Data-
raison de la croissance exponentielle des données             lab que j’illustrerai par un cas d’usage, le tableau
produites grâce au numérique. Certains en ont fait            de bord de la mobilité mis en place par L’Institut en
un business, c’est le cas de l’économie biface qu’on          novembre 2020.
appelle aujourd’hui les plateformes qui collectent            Un Datalab se base sur l’utilisation du Big data mais
les données et les vendent. Les sociétés comme                aussi sur celle d’autres technologies. Le graphique
Orange, Coyote, SFR, Carrefour, etc., disposent de            joint montre la part des entreprises susceptibles
données qui, pour certains, ont un autre usage et             d’adopter d’ici 2025 des technologies telles que « le
qui donc vallent de l’or. Ces sociétés se sont ques-          Cloud computing », « le Big data », « l’Internet des
tionnées sur la manière de les réemployer. Il s’agit          objets », etc., jusqu’à l’Ordinateur quantique. Le Big
donc de considérer la donnée, celle qu’on produit             data occupe une bonne place, puisque 85 % des
ou celle qu’on collecte, comme un actif à valoriser           entreprises ont l’intention d’exploiter le Big data
et d’avoir une réflexion stratégique sur la manière           d’ici 2025. Le Big data est très lié aux autres tech-
d’y parvenir. À l’heure du Big data et des capteurs,          nologies, au Cloud, à l’Intelligence artificielle, à l’Or-
peut-on se passer d’une telle démarche dans n’im-             dinateur quantique, au Calcul haute performance,
porte quelle entreprise ? L’idée de créer un Datalab          à la Modélisation simulation… Ces technologies
à L’Institut Paris Region s’inscrit dans ce contexte.         sont indissociables.
L’objectif de ce petit déjeuner est de nous éclairer
sur cette thématique et je remercie tous les inter-
venants présents ce matin.

Brigitte GUIGOU,
Chargée de mission partenariat recherche,
L’Institut Paris Region
En effet l’organisation et l’usage de cette masse
de données individuelles, à des échelles spatiales
fines, contribuent à enrichir les politiques pu-
bliques et nourrir la décision. Mais ils posent aussi
nombre de question aux acteurs de la ville, Quel
cadre juridique, économique, éthique et démocra-
tique construire ? Comment les acteurs publics                Source : The Future of jobs report - word economic forum 2020)

                                                            4
                L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
Le Big data est, depuis une vingtaine d’années,                elles sont rapidement dépassées. D’où l’intérêt de
caractérisé par les fameux 3 V (volume-variété-vé-             données de type Big data, ces données innovantes
locité). Dans le domaine de la mobilité, on cherche            comme celles de Traces numériques, de télébillet-
des données d’usage et de fréquentation, beau-                 tique et espérons un jour, les données issues des
coup plus difficiles à collecter que des données               capteurs 3D dans les gares et dans les matériels
d’offres.                                                      roulants. L’avantage des Big data, ce sont les 3 V,
                                                               leur fraîcheur, la connaissance fine des origines
Je retiendrais 4 caractéristiques du Big data.                 destinations, et elles sont gratuites et disponibles
--Le volume des données. On parle aujourd’hui de               en Opendata. Elles ont également des limites dont
  gigaoctet, bientôt de teraoctet, de petaoctet (soit          il faut avoir conscience, par exemple l’absence
  10 puissance 15), de yottaoctet (soit 10 puissance           d’information sur les profils sociaux-économiques
  24) et puis un jour lointain, on parlera de google           des usagers, ou l’absence de connaissance précise
  (soit 10 puissance 100).                                     sur les motifs des déplacements. Se pose aussi la
--La variété des données. Ce sont les traces nu-               question du redressement des données lorsque la
  mériques des déplacements géolocalisés avec                  base n’est pas exhaustive.
  des données, de type GPS, d’opérateurs télépho-              Le graal d’un datalab en mobilité est une base de
  niques « les FMD » ou de télébillétiques.                    données au croisement entre les données clas-
--La rapidité d’accès en « quasi temps réel ». On              siques et le Big data. Cette base existe, tout le
  trouve des données en Open data disponibles à                monde l’alimente sans forcément le savoir et il faut
  J+1 ; par exemple, pour les données du trafic rou-           juste savoir comment la récupérer. C’est la Google
  tier à Paris. L’idéal ce sont ces plateformes d’ac-          Maps Timeline.
  cès aux données à un format Opendatasoft avec
  possibilité de filtrage. Malheureusement, ce n’est           On a parlé des données temps réel. L’INSEE parle
  pas toujours le cas. L’Opendata est essentiel à la           de données haute fréquence mais il y a aussi des
  réussite des datalabs. Nous avons fait beaucoup              données alternatives qui sont utilisées à d’autres
  de chemin depuis l’initiative Etalab il y a 10 ans,          fins que celles pour lesquelles elles ont été pro-
  d’abord avec la loi pour le numérique, puis avec             duites. Par exemple, les données des opérateurs
  le récent rapport Bothorel qui recommande un                 téléphoniques utilisées pour suivre la mobilité par
  meilleur partage des données entre acteurs pu-               « grande masse » ou par « origine destination ».
  blics et la nécessité qu’ils puissent accéder à des          Un autre exemple récent est l’analyse des eaux
  données produites par le privé lorsque celles-ci             usées, pour évaluer l’évolution de la pandémie du
  sont considérées d’intérêt général. La loi LOM va            Covid avec plusieurs jours d’avance par rapport
  aussi dans le sens d’une ouverture de données.               au test. Dans notre tableau de bord « Mobilité »,
  La crise Covid a également montré le besoin d’ou-            nous avons essayé d’utiliser ces données alter-
  vrir les données pour permettre aux citoyens, à la           natives pour suivre les touristes internationaux à
  société civile, aux chercheurs ou aux médias de              partir des données de transaction de cartes ban-
  s’approprier ces données pour aider les pouvoirs             caires, en remontant les terminaux de paiement.
  publics à mieux suivre l’évolution de la pandémie.           Ce sont des données en Open data de la BPCE. Il
--Données horodatées et historisées. Elles per-                y a d’autres exemples comme le suivi de l’activité
  mettent de faire des analyses d’évolution tem-               économique à partir des données de recettes TVA,
  porelle qui font l’objet de graphiques dans notre            celles sur la consommation électrique dans le bâti,
  tableau de bord de la mobilité en ligne.                     les images satellitaires pour identifier le taux d’oc-
                                                               cupation dans les parkings des centres commer-
Pour mettre en place un Datalab, il faut avoir à               ciaux. On peut dire que l’ortho-photo c’est une pho-
l’esprit le triptyque « collecter, traiter et partager ».      to, alors que les images satellitaires sont un film
Dans le domaine de la mobilité, il y a les données             qui permet de suivre l’évolution. Parmi les autres
classiques provenant des enquêtes traditionnelles              données alternatives il y a base de données DVF
de type ménage-déplacement, migrations alter-                  sur les transactions immobilières en open data
nantes du recensement, mais aussi des enquêtes                 avec des mises à jour tous les six mois. Elle per-
origines destinations dans les gares. Ces enquêtes             met de suivre les effets urbains des transports ou
classiques sont indispensables. Ce sont des réfé-              les effets de relocalisation résidentielle. La mise à
rences, la matière première pour les analystes                 jour des données de DVF du second semestre 2020
de la mobilité et les modélisateurs. Mais elles                est attendue en avril. Pour suivre les déplacements
souffrent d’une trop faible fréquence et d’un coût             pour motif santé-accompagnement, la méthode
élevé. En période de crise, dans un moment où                  classique serait de lancer une enquête auprès de
l’on cherche à suivre la mobilité en « temps réel »,           la population et des professionnels de santé.

                                                             5
                 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
À QUOI SERVENT LES DATALABS ? - SYNTHÈSE DU PETIT DÉJEUNER DÉCIDEURS-CHERCHEURS DU 23 MARS 2021 - L'Institut Paris Region
Aujourd’hui, on essaie de recueillir les données              faire travailler ensemble les services informatique
auprès de l’Assurance Maladie sur la téléconsulta-            et communication. C’est une démarche « agile », où
tion. L’intérêt d’un datalab – qui permet de recou-           l’on choisit un sujet et où l’on procède par essais-
per toutes ces données au sein d’une même struc-              erreurs. C’est ce que nous avons fait avec notre ta-
ture – est de créer un nouveau réflexe d’utilisation          bleau de bord de la mobilité. L’étape suivante sera
de données alternatives. Ces deux méthodes, clas-             d’automatiser la chaîne « collecter-traiter-visuali-
sique et datalab, sont complémentaires.                       ser » en utilisant des API permettant de téléchar-
Dans le tryptique « collecter – traiter – partager »,         ger des jeux de données à la volée et de les traiter.
la phase de traitement est essentielle. Il faut pen-          Un datalab offre des perspectives d’innovation et
ser « traitement, nettoyage, redressement ». Il y a           de transformation dans les agences d’urbanisme,
une panoplie de traitements mathématiques et                  les services techniques de l’État et des collectivi-
statistiques plus ou moins complexes. Cela va des             tés. Cela bouscule évidemment les habitudes de
tableaux croisés dynamiques aux méthodes de ré-               travail.
gression linéaire ou logistique et aux méthodes de
classification (ACP, hiérarchique). Depuis quelques           Pour conclure, je dirai un mot sur l’exemple du pro-
années, pour faire du prédictif, on utilise des mé-           jet NEON. C’est un projet fédéral américain dans
thodes de machine learning, notamment avec                    le domaine de l’écologie : National Ecological Ob-
l’algorithme « Random forest », et des méthodes               servatory Network (NEON). Les données sont col-
de Deep learning par réseau neurone artificiel avec           lectées par des dizaines de milliers de capteurs
l’algorithme de « rétropropagation du gradient ».             répartis sur tout le territoire dans les domaines de
                                                              la biodiversité, du changement climatique, de l’hy-
La phase de partage de données est aussi impor-               drologie, des maladies infectieuses, de l’artificiali-
tante. « Partager, c’est valoriser les données ». La          sation, de la faune et la flore, de la météo, etc. Elles
visualisation des données fait partie de la science           sont mises en ligne et disponibles gratuitement. Le
des données. Le choix de la représentation gra-               financement est sanctuarisé sur trente ans depuis
phique est important, comme le montre le site                 2018 avec 80 millions de dollars par an. Je vous
« Covidtracker » qui met bien en valeur les données           invite à consulter leur site internet (https://www.
en open data d’épidémies. Si on parle d’or noir pour          neonscience.org/). On peut rêver d’un observatoire
la donnée, c’est parce que les outils de data visua-          de ce type-là en Île-de-France dans le domaine des
lisation sont aux données ce que le raffinage est             transports, de l’urbanisme et de l’environnement.
au pétrole. Il existe des dizaines d’outils de visua-         Notre tableau de bord de la mobilité est la première
lisation, par exemple Infogram, Tableau, Qlik View,           pierre de ce vaste édifice.
Spotfire, Saagie, Power BI, etc. À L’Institut, nous
utilisons Infogram. Certains outils parviennent à             Brigitte GUIGOU
automatiser la chaîne collecter-traiter-partager.             Qu’est-ce que la base de données Maps Timeline ?
Par exemple, pour répondre à une requête en lan-
gage naturel du type « quelles sont les ventes de             Dany NGUYEN-LUONG
voitures en Espagne au dernier trimestre 2020 ? »,            Maps Timeline est la base de données de Google
le logiciel va chercher la base de données en open            qui fonctionne lorsque l’on active sans le savoir la
data, la traiter et afficher le graphique de résultats        fonction de géolocalisation. Tous nos trajets sont
en optant pour la meilleure représentation. C’est ce          tracés, enregistrés par Google. Maps Timelines
qu’on appelle une « data virtualisation ».                    garde l’historique des trajets dans le détail sur le
                                                              modèle d’une enquête ménage déplacement avec
Qu’est-ce qu’un datalab ?                                     pour chaque déplacement l’heure de départ et
Au sein d’une entreprise, un datalab est une struc-           d’arrivée. Sur cette base il est possible de faire des
ture dédiée à la collecte, l’exploitation et la visua-        hypothèses au motif à la destination et d’arriver à
lisation des données. Tout ce qui tourne autour de            détecter le mode de transport utilisé. Cette base
l’innovation et de la donnée permet de croiser les            de données des déplacements désagrégés existe,
expertises des experts métiers et des data scien-             c’est pourquoi L’Institut souhaiterait en récupérer
tists. Un datalab est une structure transversale              un échantillon.
apportant de la souplesse et de la réactivité aux
organisations sans en remanier la hiérarchie ou
l’organigramme. C’est aussi l’opportunité d’inté-
grer de nouvelles compétences telles que les data
scientists. Un datalab peut fonctionner comme
une startup au sein de l’organisation. Il permet de

                                                            6
                L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Antoine COURMONT,                                             représenter leur territoire et d’agir, même si l’État
Chercheur en science politique, directeur                     conserve de nombreuses prérogatives, comme cer-
scientifique de la chaire Villes et numérique,                taines entreprises incontournables dans la gouver-
École urbaine de Sciences Po                                  nance urbaine.
                                                              Les collectivités sont inégalement dotées en
Caractère politique des données                               termes de capacité de production de données. Cela
et recompositions des pouvoirs associés                       dépend aussi des secteurs d’action publique. Par
à leur production et à leur utilisation                       exemple, les collectivités se sont longtemps désin-
La donnée sous forme d’information statistique,               vesties du secteur énergétique qu’elles ont laissé
cartographique ou d’état civil a joué un rôle central         aux mains des énergéticiens. Tout récemment, des
dans le processus d’étatisation des sociétés. C’est-          collectivités souhaitant mettre en place des poli-
à-dire dans la capacité de l’État moderne à impo-             tiques publiques sur leur territoire en matière de
ser une représentation à l’ensemble de la société,            stratégie énergétique ont cherché à récupérer et
à mettre en œuvre des politiques publiques. La                utiliser ces données.
construction de l’État-Nation est indissociable de la
capacité de l’autorité politique à acquérir une forme         L’attachement des données et les difficultés
de monopole sur la production de données légi-                qui peuvent émerger quand il s’agit de les
times et à influer sur notre capacité à voir le monde         partager, les mettre en circulation et les
au travers de catégories étatiques. C’est ce que le           utiliser à des fins alternatives
sociologue Luc Boltanski appelle le pouvoir séman-            La recomposition des relations de pouvoir entre
tique des institutions, leur capacité à représenter           échelles gouvernementales peut aussi s’analyser
des phénomènes sociaux et surtout à coordonner                par la production de données. L’entrée de nos so-
les acteurs à partir de cette définition de la réalité.       ciétés dans l’ère du numérique et du big data vers
Les processus sont inégaux selon les pays qui ont             la fin des années 2000, est caractérisée par une
une capacité plus ou moins importante à produire              capacité accrue d’un ensemble d’organisations
ces informations et à les imposer. À l’inverse, ne            publiques, privées ou de la société civile, pour pro-
pas produire de données pour un acteur politique              duire, stocker, traiter et faire circuler la donnée. Là
public peut être un excellent moyen de produire de            où auparavant les coûts et les investissements né-
la méconnaissance et de ne pas gouverner certains             cessaires à la production de données étaient réser-
secteurs d’action publique. Notamment, des tra-               vés à de grandes administrations, aujourd’hui les
vaux de recherche mettent en évidence le fait que             start-ups, les citoyens, les organisations peuvent
les pouvoirs publics produisent volontairement                produire de la donnée à des coûts beaucoup plus
de la méconnaissance sur certains phénomènes                  faibles.
sociaux. Je pense notamment aux travaux de Tho-               Dès lors, tous ces acteurs ont été en mesure de
mas Aguilera sur les habitats informels souvent               produire des informations fournissant des repré-
illégitimés par les autorités publiques en France et          sentations alternatives de nos sociétés et de nos
à l’étranger. La connaissance de ces phénomènes               territoires. On peut prendre l’exemple d’Open Trip-
est faible, ce qui empêche leur mise à l’agenda poli-         Map, un projet de cartographie libre, le Wikipédia
tique et leur prise en charge.                                de la cartographie. Cela aurait été inimaginable
                                                              avant l’essor du numérique, qui a impliqué la capa-
En suivant les capacités de différents acteurs à              cité de tout à chacun à acquérir un GPS. Ce projet a
produire des données, on peut observer les recom-             permis de cartographier de nombreuses zones, par
positions dans la gouvernance des territoires. Bien           exemple des bidonvillesou des quartiers informels
avant le numérique, à partir des années quatre-               qui ont acquis une existence, une forme de légiti-
vingt en France avec les lois de décentralisation, il         mité et donc une mobilisation politique possible à
y a eu une montée en puissance des collectivités              partir de cette production de données alternatives.
locales, notamment des structures intercommu-
nales. Elle s’est accompagnée d’une capacité à                Du côté de la société civile et des citoyens
produire des données sur son territoire, à le repré-          Les citoyens sont aujourd’hui en mesure de pro-
senter notamment au travers de la mise en place               duire des statistiques qu’ils peuvent opposer à
de système d’information géographique ou en                   l’État. On l’observe avec le mouvement des capteurs
association avec des tiers telles que les agences             citoyens. Ce sont des citoyens qui par exemple, dé-
d’urbanisme. Là où les villes étaient dépendantes             cident de mesurer la qualité de l’air et de produire
des services de l’État et de leur capacité à produire         des mesures alternatives pouvant s’opposer aux
des informations sur leur territoire, elles ont gagné         mesures officielles. Ces mesures alternatives sont
en autonomie. Elles ont été en capacité partielle de          de nouvelles formes d’engagement politique.

                                                            7
                L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Du côté des acteurs privés                                    des éléments neutres et immatériels qui circulent
Cette capacité accrue en matière de production de             aisément. Elles sont, au contraire, solidement atta-
données est aussi investie par les acteurs privés,            chées à de vastes infrastructures sociotechniques
ce qui peut conduire à des conflits de régulation             composées d’organisation, de modèles écono-
assez forts. C’est le cas par exemple avec l’entre-           miques, de cadre juridique, de systèmes d’infor-
prise Waze, qui propose une application de calcu-             mation, de format voire même de culture métier.
lateur d’itinéraires. Les données proviennent des             Pour les mettre en circulation, il est nécessaire de
usagers, ce qui rend l’application indépendante               défaire ces liens. Cela requiert un travail considé-
des pouvoirs publics. Ses modalités de calculs al-            rable notamment parce que les défis techniques et
gorithmiques conduisent à des reports de trafics              organisationnels sont intimement liés. Il faut insis-
dans des quartiers résidentiels ou des zones peu              ter sur l’aspect organisationnel qui est tout aussi
fréquentées par les automobilistes. Cela provoque             important que l’aspect technique.
des conflits avec les autorités en charge de la ré-           En matière technique, il y a les activités de stan-
gulation de la circulation automobile. Les pouvoirs           dardisation, de partage, d’agrégation de bases de
publics se voient dépourvus de leur capacité à gou-           données métiers. Cela génère des problématiques
verner et perdent en quelque sorte la maitrise de la          matérielles de mise en cohérence de format. L’en-
représentation de leur territoire.                            jeu est aussi de réussir à partager et extraire des
Un des grands enjeux aujourd’hui en matière                   données de systèmes d’information métier qui
de transformation de gouvernance est la mise à                peuvent être des systèmes propriétaires, anciens,
l’épreuve de ce pouvoir sémantique des institutions           qui ne sont pas conçus pour cela et qui nécessitent
publiques. L’État, les collectivités ont perdu leur           pour être mis en circulation des investissements
monopole de production de données à partir des-               parfois importants. Il est aussi nécessaire d’enrô-
quels des individus vont se coordonner, que ce soit           ler les organisations productrices de données pour
à l’échelle nationale avec l’identité numérique, en           qu’elles acceptent de les mettre à disposition, ce
partie aux mains de Facebook ou de Google versus              qui ne se fait pas sans réticence.
l’état civil précédemment, ou à l’échelle locale avec         Un autre enjeu est l’attachement de données éco-
les listes de meublés touristiques que possédent              nomiques avec des modèles d’affaires pouvant être
Airbnb ou les listes de véhicules avec chauffeur              associées à des données qui contraignent leur mise
possédées par Uber. Il faut signaler l’importance             en circulation et leur partage. Ces données sont
pour les pouvoirs publics de regagner une exper-              également attachées à des cadres juridiques et
tise en matière de production et de traitement de             réglementaires. Quand elles rentrent dans le cadre
données pour conserver la maitrise de la représen-            du RGPD (Règlement Général sur la Protection des
tation des territoires et des phénomènes sociaux              Données), un travail conséquent d’anonymisation
et in fine pour conserver la maitrise des politiques          est nécessaire avant tout partage. C’est le cas des
publiques sur leur territoire. C’est à ce titre que les       données bancaires ou de transport de Google.
datalabs peuvent jouer un rôle assez crucial.                 Les données sont porteuses d’un héritage qui
                                                              contraint leur utilisation. Elles ont été produites
La mise en œuvre des datalabs                                 pour une finalité et véhiculent une représentation
L’objectif des datalabs repose souvent sur un dis-            de l’espace qui rend plus difficile leur usage à des
positif, une infrastructure technique et une forme            fins alternatives. Par exemple, il y avait un jeu de
de plateforme des données. Le datalab permet                  données sur les toilettes publiques mis à dispo-
d’agréger une architecture plus ou moins centrali-            sition sur la plateforme open data du Grand Lyon.
sée selon des procédures plus ou moins automa-                Ce fichier, produit par la direction de la propreté de
tisées et des formats devant être standardisés et             la Métropole de Lyon, recensait et cartographiait
exploitables de données provenant de différentes              ces installations. Quelques semaines après sa dif-
sources et organisations. Auparavant ces données              fusion, l’équipe en charge de l’open data a reçu un
quittaient rarement leur système d’information                email d’un utilisateur mécontent parce que seules
d’origine.                                                    trois toilettes publiques était listée sur le territoire
Mettre en œuvre cette circulation et ce partage de            de la ville de Lyon. D’après la direction de la propre-
données en amont de tout traitement demande                   té ce problème était dû au mode de recensement
des investissements et un travail non négligeable.            qui, dans la commune de Lyon, identifiait unique-
On peut avoir l’impression que c’est facile, qu’il            ment les toilettes nettoyées par des agents. Hors
suffit de faire un copié/collé dans une base d’in-            un grand nombre de toilettes publiques sont des
formation métier du producteur vers un système                sanisettes autonettoyantes. De plus la direction de
d’information de diffusion. Dans les faits, c’est bien        la propreté de la Métropole ne disposait pas d’in-
plus compliqué car les données sont loin d’être               formation sur leur localisation, l’information étant

                                                            8
                L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
détenue par la ville de Lyon qui prend les arrêtés             sent les expertises sur les modes doux sont rares
d’occupation de l’espace public pour leur installa-            et les calculs de flux encore plus. Cela prendra du
tion. Cet exemple montre que n’importe quelle don-             temps pour collecter les bonnes données et savoir
née véhicule une définition de ce que l’on souhaite            les intégrer dans des modèles pertinents pour ces
représenter en fonction de l’usage que l’on souhaite           usages.
en faire. L’utilisateur peut faire ce travail d’enrichis-
sement de données mais il faut qu’il aille recher-             Brigitte GUIGOU
cher les données auprès de différents producteurs.             A-t-on une idée du nombre de collectivités locales
Cela met en évidence ce travail – important mais               qui sont aujourd’hui engagées dans ces démarches
souvent négligé – de sourcing, de nettoyage, d’enri-           de datalabs ?
chissement de la donnée, nécessaire pour l’utiliser            D’autre part, quels sont pour vous les principaux
à des fins alternatives. Cela explique les limites des         arguments en faveur du développement des data-
portails open data d’aujourd’hui.                              labs dans les agences d’urbanisme de développer
                                                               des datalabs ?
Construire une expertise des compétences
et nouveaux métiers                                            Antoine COURMONT
Des nouveaux métiers liés au traitement de la don-             Pour les collectivités locales, je n’ai pas de recen-
née émergent dans les organisations privées et                 sement exhaustif. Les collectivités sont entrées
publiques :                                                    d’abord par l’aspect Open data et par sa mise sur
--les chief data officer, administrateur général de            l’agenda. L’enjeu pour elles est de rassembler des
  données, les chefs de projets data, etc. ;                   données de leur propre système d’information et de
--les postes sur la transformation des systèmes                ceux de leurs partenaires publics ou privés, autour
  d’information : les data architectes, les data ingé-         de la notion de données d’intérêt général. Le Rap-
  nieurs ;                                                     port Bothorel a rappelé qu’on dépasse le caractère
--des nouveaux métiers autour des outils et des                public ou privé des données si elles sont d’intérêt
  pratiques et des métiers d’analyses de données :             général. Cela peut ouvrir sur des questions très
  les data analystes, les data scientistes.                    conflictuelles en matière d’intérêt général et de
                                                               données pouvant y être attachées. Aujourd’hui, les
Ces profils restent rares et sont donc très recher-            métropoles françaises sont engagées dans la mise
chés. Leur bonne intégration dans les structures               en place de ce type de plateformes. Ces investis-
territoriales nécessite de construire une complé-              sements sont longs et assez coûteux en matière
mentarité avec les expertises métier tradition-                technique et organisationnelle. On n’en est aux pré-
nelles. Assez techniques, ces profils ont peu de               mices et il n’y a pas grand-chose de fait encore.
connaissances des enjeux urbains, ce qui peut                  C’est pareil pour les agences d’urbanisme. Il y a une
provoquer des difficultés de compréhension et de               prise de conscience du risque qu’un certain nombre
construction d’un langage commun avec les ex-                  de données expertise, entre les mains des agences
perts métier.                                                  d’urbanisme, se voient concurrencées ou par des
J’ai par exemple mené une enquête pour la Ville                acteurs privés. Comment les agences d’urbanisme
de Paris sur le réaménagement de la place de la                peuvent-elles se positionner pour ne pas perdre la
Nation. La ville avait décidé d’installer, en partena-         main et conserver leur maitrise en matière de pro-
riat avec un ensemble de start-up et avec l’entre-             duction d’analyse de données ? C’est tout à fait lo-
prise Cisco, des capteurs pour comprendre l’usage              gique d’investir sur ces nouvelles sources de don-
des modes doux sur la place. Or ces données ont                nées, d’essayer de les rassembler et de commencer
été très peu utilisées par la Ville de Paris en raison         à jouer avec pour voir ce qu’on peut en tirer. C’est
des difficultés de compréhension entre les diffé-              un investissement à long terme, nécessaire pour
rentes cultures métier avec d’un côté, une culture             maintenir une indépendance publique en matière
urbaine d’aménageurs traditionnels, et de l’autre              d’expertise des territoires.
des cultures issues du secteur informatique. Ces
obstacles s’aplaniront sans doute avec le temps.               Brigitte GUIGOU
En effet l’émergence et l’usage des Big data dans              Vous avez évoqué la question de la collecte des
les politiques urbaines sont récents, construire de            données. Comment inciter les acteurs privés à
l’expertise autour de ces nouvelles sources de don-            transmettre leurs données dans le bon format ?
nées prend du temps. Si la question des flux auto-
mobiles est bien maitrisée aujourd’hui c’est parce             Antoine COURMONT
qu’elle est étudiée depuis un siècle, qu’il y a des            Le rapport de force est plutôt défavorable au
chercheurs et experts spécialisés. Or jusqu’à pré-             domaine public, en particulier aux institutions

                                                             9
                 L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
publiques locales dans la mesure où les grosses              Antoine COURMONT
plateformes numériques n’ont pas forcément inté-             En effet, j’ai aussi cité l’exemple des capteurs
rêt à récupérer des données du domaine public,               citoyens pour les pollutions atmosphériques ou
sauf dans le domaine du transport. Néanmoins un              sonores. Cette capacité accrue à produire des don-
certain nombre d’obligations sont peu à peu trans-           nées concerne aussi la société civile. Des groupes
crites dans la loi et dans le cadre réglementaire            militants ou des associations produisent leurs
obligeant les acteurs de l’économie numérique à              propres représentations et indicateurs. Ils pro-
transmettre leurs données aux collectivités. C’est           posent des chiffres alternatifs à ceux des pouvoirs
le cas par exemple des locations de meublés tou-             publics pour agréger un certain nombre de col-
ristiques, dont Airbnb qui depuis peu transmet des           lectifs, se mobiliser et faire changer les politiques
données chaque année à la Ville de Paris. Cela per-          publiques. C’est assez ancien. Certains sociologues
met à la Ville de mettre en œuvre la régulation et de        ont appelé cela le « statactivisme », c’est-à-dire,
repérer les loueurs qui ne respectent pas le seuil           lutter avec des statistiques avec un slogan « un
des 120 jours. La loi s’accompagne de décrets d’ap-          autre nombre est possible ». À l’époque, c’était sur
plications sur le format de données. Mais concré-            les indicateurs alternatifs au PIB représentant la
tement les données sont fournies dans des for-               richesse d’un pays. On a la même chose à l’échelle
mats et des structures différents et il y a toujours         locale aujourd’hui.
un enjeu de standardisation pour ces données des
acteurs privés.
                                                             Guillaume LECOEUR,
Brigitte GUIGOU                                              Responsable du pôle données et innovation, DGEX
Vous avez aussi souligné qu’un certain nombre de             Solutions, SNCF réseau
données s’appuient sur cette dimension collabora-            Le pôle d’innovation de la SNCF, créé depuis 18
tive. Cela pose-t-il des problèmes particuliers ?            mois, s’inscrit dans des transformations qui se sont
                                                             succédées depuis des dizaines d’années à la SNCF.
Antoine COURMONT
Il est important que les acteurs publics inves-              Le pôle innovation et ses missions
tissent sur l’aspect collaboratif. Cela leur permet          Aux origines de la création du pôle, nous avons
d’avoir une représentation dépassant leurs fron-             fait le constat que la transformation numérique
tières territoriales. Mais les différences de formats        engagée depuis une dizaine d’années à la SNCF
d’une ville ou d’une intercommunalité à l’autre ne           connaissait plusieurs limites, à commencer par la
facilitent pas le rôle des utilisateurs externes.            qualité des données présentes dans les gisements
S’appuyer sur des initiatives comme Open Street              de l’entreprise. Le pôle données & innovation a
Map permet un certain nombre de standardisa-                 ainsi été créé pour accélérer la transformation
tions de données. Cela permet aussi de s’appuyer             numérique de l’entreprise, en participant à l’indus-
sur la foule pour produire ces données. Comment              trialisation des chaînes de la donnée, sur la base de
peut-on alors s’assurer de la fiabilité des données          plusieurs innovations dans le domaine.
qui peuvent être modifiées rapidement ? Et à quel            Néanmoins, la transformation numérique ne
point peut-on s’appuyer sur ces données pour me-             constitue pas une finalité en soi. Il s’agit en effet
ner des politiques publiques ? Il se trouve qu’Open          d’aborder la question de la mise en performance du
Street Map, en continuité de ce que fait Wikipédia,          système ferroviaire, principale promesse accom-
a mis en place des dispositifs pour identifier cer-          pagnant la transformation numérique de SNCF
taines modifications malveillantes. La puissance             réseau. En ce sens, la valorisation des données
du collectif fait qu’on arrive à avoir des données           de l’entreprise constitue la deuxième composante
d’assez bonne qualité et assez fiables. Certaines            inhérente à la création du pôle données.
collectivités commencent à utiliser ces données
collaboratives pour représenter des phénomènes               À cette fin, le pôle données & innovation rassemble
assez coûteux à représenter car ils demandent une            de nombreuses expertises qui doivent permettre
présence massive sur le terrain.                             de répondre à ces enjeux nouveaux. Le pôle don-
                                                             nées rassemble une trentaine de personnes, des
Brigitte GUIGOU                                              data scientists, data engineers, des développeurs
Le secteur associatif est parfois très actif dans la         ou encore des ingénieurs ferroviaires. Après un an
production de données alternatives, je pense par             et demi de création, le pôle a plus d’une dizaine
exemple au baromètre des villes marchables à l’ini-          de projets numériques répartis au sein du groupe
tiative de plusieurs associations piétonnes. Quel            SNCF, essentiellement chez SNCF Réseau.
rôle jouent, selon vous, ces associations ?

                                                           10
               L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Planifier ou subir la transformation                         à ce moment-là qu’une stratégie d’entreprise sur
numérique                                                    la transformation numérique va naître avec l’éla-
La transformation numérique doit être planifiée,             boration de modèles, de normes, de gouvernance
au risque d’être subie. C’est un mouvement trans-            des données. Cette transformation porte deux pro-
versal à l’ensemble des activités d’une entreprise.          messes :
Nous sommes tous des acteurs de la transforma-               • réduire les coûts de la transformation numérique
tion numérique, dès lors que nous avons l’usage                de plusieurs centaines de millions d’euros,
d’un smartphone ou d’un ordinateur. L’usage d’un             • et permettre la mise en performance du système.
tableau Excel ou d’une boîte e-mail ne sont pas
des choses aussi anodines qu’on ne le pense. Elles           C’est dans ce contexte que le modèle d’entreprise
participent à la numérisation des données d’une              Ariane va émerger. Il est basé sur le rail TOPOMO-
entreprise mais bien souvent sans norme ni gou-              DEL, norme internationale sur la manière de par-
vernance. Si tout cela n’est pas planifié, on abou-          tager des données d’infrastructures entre les ges-
tit à des situations non souhaitables qui peuvent            tionnaires d’infrastructures, particulièrement en
être extrêmement couteuses. À titre d’exemple, la            Europe. Il va permettre de décrire tous les objets
crise sanitaire a été pour beaucoup d’entreprises            métiers de la SNCF de la même manière, quels que
un accélérateur de la transformation numérique,              soient les outils. On voit également émerger des
au sens où elle a permis la dématérialisation                grands gisements de données, partagés par l’en-
d’échanges auparavant physiques. Pour les entre-             semble des outils. On sort du paradigme « un gise-
prises qui n’avaient pas les outils adaptés, cette           ment de données pour un outil ». Le grand chan-
transformation s’est bien souvent faite après avoir          gement de la transformation numérique n’est pas
testé des dizaines de solutions, sans considérer             seulement de transformer les systèmes d’informa-
les enjeux de cybersécurité. On a tous en tête ces           tion mais aussi de transformer les organisations.
réunions auxquelles des personnes qui n’étaient              Une organisation appelée Nouvelle Ère va égale-
pas conviées ont accédés, y compris dans les plus            ment voir le jour.
hautes sphères de l’État. Outre les enjeux de cyber-
sécurité, il faut également noter les enjeux rela-           Dix ans après, on constate que cette première pla-
tifs au partage de l’information, à la définition des        nification n’est pas complètement réussie. Il nous
données, aux langages informatiques utilisés ou              reste énormément de données à numériser. On fait
encore à la qualité des données.                             face à des enjeux structurants même si on arrive à
                                                             avoir des possibilités que l’on n’avait pas il y a une
La planification de la transformation numérique à            dizaine d’années.
la SNCF est récente, alors même que la transfor-
mation numérique a débuté au début des années                Les défis et le Jumeau Numérique
quatre-vingt avec les premiers postes informatisés           Premier enjeu : la qualité des données
et la collecte massive d’informations.                       Le principal défi auquel on fait face aujourd’hui
Progressivement, la SNCF va collecter de plus en             est celui de la qualité des données présentes dans
plus de données et, sur la base de ces systèmes,             nos gisements de données. Il empêche aujourd’hui
produire des outils qui vont participer à la mise en         l’industrialisation d’outils à l’échelle nationale, tant
performance du système ferroviaire. Dans les an-             l’effort de mise en qualité est important. Pour y
nées 2010, on dispose d’à peu près un millier d’ou-          arriver, cela suppose des données de qualité ho-
tils et chacun dispose de sa propre base et de ses           mogène, à la fois des données historiques, temps
modèles de données. Cette disparité des systèmes             réel ou à venir pour le théorique. Cette question de
d’informations, dont la cause est la non-planifica-          la qualité de données empêche des déploiements
tion de la transformation numérique, a créé des              massifs ou à des coûts très élevés. Les outils de
difficultés considérables pour faire interagir les           SNCF Réseau n’ont pas totalement basculé du pa-
outils entre eux, ce qui était nécessaire à la ratio-        radigme que j’évoquais tout à l’heure – une base de
nalisation de l’outil de production et à sa mise en          données, un outil –, vers l’usage massif de ces gise-
performance. Ainsi, au début des années 2010, le             ments de données. On développe, au sein du pôle
coût de la maintenance des données pour chaque               Données, plusieurs solutions permettant d’accélé-
outil et des modules de conversion pour permettre            rer cette transformation numérique, mais surtout
les échanges entre ces derniers, ou encore celui             de passer d’un paradigme de la responsabilité des
du déploiement d’outils à l’échelle nationale sont à         données à celui de la maîtrise de données. La nou-
l’origine d’une prise de conscience et d’une réorien-        velle ère va nommer des responsables de la don-
tation stratégique.                                          née mais ces responsables n’auront pas les outils
On commence alors à imaginer autre chose et c’est            suffisants pour adresser la maitrise des données.

                                                           11
               L’INSTITUT PARIS REGION – Synthèse du petit déjeuner décideurs-chercheurs du 23 mars 2021
Vous pouvez aussi lire