Open Data et Big Data Territoriaux Glossaire - Décembre 2018 - Inet-ets.net

La page est créée Severine Guerin
 
CONTINUER À LIRE
Open Data et Big Data Territoriaux Glossaire - Décembre 2018 - Inet-ets.net
Open Data et Big Data Territoriaux
                                             Glossaire

                                         Décembre 2018

Conçu par le réseau GRICO - grico.fr

Maryse Carmes, maitre de conférences, Conservatoire National des Arts & Métiers
maryse.carmes@lecnam.net

Jean-Max Noyer, professeur Emérite des Universités, noyer@grico.fr

                                  CC-BY-NC-4.0: Attribution-NonCommercial 4.0 International

                                                                                              1
Open Data et Big Data Territoriaux Glossaire - Décembre 2018 - Inet-ets.net
Algorithme .................................................................................................................... 4
API ................................................................................................................................ 6
Big Data ........................................................................................................................ 6
Blockchain ..................................................................................................................... 7
CADA ............................................................................................................................ 8
CivicTech ....................................................................................................................... 8
Chief Data & Digital Officer ............................................................................................ 9
CONSEIL NATIONAL DU NUMERIQUE ............................................................................. 9
CNIL RGPD DPO (Délégué à la protection des données / Data protection officer) ........... 9
Crowdsourcing ............................................................................................................ 10
Datamining ................................................................................................................. 10
DATA.GOUV.FR ........................................................................................................... 11
Datajournalisme .......................................................................................................... 11
Datavisualisation ......................................................................................................... 12
Données brutes (ou primaires) .................................................................................... 12
Données Publiques - Données d'intérêt général (Service public de la donnée) .............. 12
Données ouvertes (publiques) ..................................................................................... 13
Données pivot (ou format pivot ou données de référence) ........................................... 14
ETALAB ....................................................................................................................... 14
Fablab ......................................................................................................................... 15
Gouvernement ouvert ................................................................................................. 15
Intelligence Artificielle et Action publique ................................................................... 15
Inspire ......................................................................................................................... 16
IOT (Internet des objets) .............................................................................................. 16
LICENCE OUVERTE ....................................................................................................... 17
Métadonnées .............................................................................................................. 18
NFC ............................................................................................................................. 18
Open Data (Mouvements) ........................................................................................... 19
Open Data France (ODF) .............................................................................................. 20
OKF ............................................................................................................................. 20

                                                                                                                                    2
Open Data et Big Data Territoriaux Glossaire - Décembre 2018 - Inet-ets.net
Régie de données territoriales (Data sharing) .............................................................. 20
Self Data (Données personnelles redistribuées) ........................................................... 21
SUNLIGHT FOUNDATION ............................................................................................. 21
Villes intelligentes (Smart Cities).................................................................................. 21
W3C ............................................................................................................................ 22

                                                                                                                                 3
Open Data et Big Data Territoriaux Glossaire - Décembre 2018 - Inet-ets.net
Algorithme
Un algorithme est une méthode ou un procédé décrits pas à pas.
C'est une façon systématique de procéder pour faire quelque chose : trier des objets, situer des villes
sur une carte, multiplier deux nombres, extraire une racine carrée, chercher un mot dans le
dictionnaire… Il se trouve que certaines actions mécaniques - peut-être toutes ! - se prêtent bien à la
décortication. On peut les décrire de manière générale, identifier des procédures, des suites d'actions
ou de manipulations précises à accomplir séquentiellement. C'est cela, un algorithme. En tant que
méthode, il répond donc à des questions du type : « comment faire ceci ? », « obtenir cela ? »,
« trouver telle information ? », « calculer tel nombre ? ». C'est un concept pratique, qui traduit la
notion intuitive de procédé systématique, applicable mécaniquement, sans réfléchir, en suivant
simplement un mode d'emploi précis. La vertu essentielle des algorithmes est de permettre l'exécution
optimisée de procédés répétitifs, essentiellement grâce à la formalisation et à la description des
enchaînements logiques à un niveau plus abstrait, et donc plus général. Ils s'étendent ainsi à des
domaines de la société toujours plus nombreux et plus inattendus.
Bien avant le premier ordinateur électronique, dans les années trente, les mathématiciens ont
découvert un modèle général de machines procédant de manière logique (Logical Computing Machine)
- les fameuses machines de Turing - capables d'effectuer mécaniquement tous les algorithmes
possibles et imaginables, déjà découverts ou qui le seront jusqu'à la fin des temps. La thèse, dite de
Church-Turing, selon laquelle tous les algorithmes sont représentables et effectuables sur une Machine
de Turing, est aujourd'hui universellement acceptée.
Ce n'est pas un problème de décision, mais une méthode pour résoudre un tel problème. Un
algorithme n'est pas non plus un langage de programmation, mais tout algorithme dont les entrées et
les résultats peuvent être codés par des entiers peut être traduit (plus ou moins directement, plus ou
moins        « naturellement »)      dans    n'importe      quel     langage     de    programmation.
Enfin, un algorithme n'est pas un codage numérique, mais les données et les résultats de n'importe
quel algorithme doivent être codés de façon numérique - et même arithmétique - pour être mis en
œuvre sur un ordinateur.
Il existe différents types d'algorithmes : ceux qui servent à recommander (des livres sur Amazon, des
contacts sur Facebook), ceux qui servent à classer selon des critères spécifiques (les résultats de
recherches sur Google), ceux qui servent à trier et à extraire (dans les données massives cf Big Data ou
des données non structurées du web 2), à regrouper selon des similarités, à prédire selon des
probabilités (en s'appuyant sur un historique), à enclencher des actions (les rendre possible ou non
selon les réactions du dispositif ou des comportements) etc. Plusieurs peuvent regrouper ces diverses
finalités. Ils s'appliquent sur tout type de processus et de données (le Big Data n'est pas le seul
concerné) et la prédiction n'est qu'une application possible (parmi beaucoup d'autres du traitement
algorithmique). Les méthodes d'analyse de données qui utilisent des algorithmes sont regroupées sous
le terme "datamining".

Ouverture du "code" des algorithmes utilisés par l'administration : ce sujet a été mis à l'ordre du jour
lors de l'élaboration de la loi pour une République Numérique (art.11). A l’avenir, sauf exception, toute
personne destinataire d’une décision fondée sur un traitement algorithmique pourra demander à
l’administration les règles définissant ce traitement et ses principales caractéristiques. De plus, les
administrations devront publier en ligne les règles de leurs principaux traitements algorithmiques
fondant des décisions individuelles.
Exemples d'algorithmes utilisés dans les missions de service public :
Inscriptions des élèves dans le supérieur (APBAC/ParcoursSup) dont les logiques sont très discutées
(logiques et accès au code source); le calcul des impôts; le calcul des allocations logement; la prédiction
de trafic dans la ville et la régulation des flux par les feux de signalisation; la prédiction de
consommation d'énergie des habitants selon la saison/ la température/le type d'habitat/l'isolation; la

                                                                                                       4
médecine prédictive; l'analyse morphologique sur vidéos-surveillance; l'efficience des pratiques
agricoles; ...
Autres termes associés : Intelligence Artificielle, Datamining, Big Data
Sources :
Qu'est-ce qu'un algorithme ? Inria. https://interstices.info/jcms/c_5776/qu-est-ce-qu-un-algorithme
M Carmes, Les désirs algorithmiques de l'action publique, février 2016, http://www.grico.fr/wp-
content/uploads/2016/02/Grico_ActionpubliqueAlgorithmique.pdf

                                                                                                5
API

En informatique, une interface de programmation applicative (souvent désignée par le terme API pour
Application Programming Interface). Les API sont notamment proposées sur les portails Open Data.
Une API permet la communication, des échanges, entre des systèmes informatiques qui n'ont pas
forcément été conçus ensemble à l'origine et donc hétérogènes (une sorte de système de
branchement). Cela permet l’interconnexion entre des applications et des machines, sans intervention
humaine. Elle est offerte par une bibliothèque logicielle ou un service web, le plus souvent
accompagnée d'une description qui spécifie comment des programmes consommateurs (utilisateurs)
peuvent se servir des fonctionnalités du programme fournisseur. Par exemple pour l'Open Data, le
portail de l'organisme (public ou privé) est le fournisseur de données pour des usagers (habitants), des
développeurs d'applications ou autres entités ré-exploitatrices de celles-ci. L'API permet ainsi à une
application de dialoguer, "récupérer" automatiquement des données de trafic de bus (horaires, retards
etc.) afin de proposer un service aux habitants facilitant leurs déplacements. Les API peuvent faciliter
le dialogue entre deux applications de différentes administrations. Les API permettent de nombreux
usages. Elles sont déjà utilisées largement. Par exemple, les entreprise françaises utilisent tous les mois
celle de la Déclaration Sociale Nominative. Les entreprises ne communiquent pas les données de leur
employés manuellement à l’administration : leur logiciel de paie transmet directement ces données
grâce à une API.
 Certaines administrations ont ouvert en juin 2016 un site d'accès à plusieurs API. Exemples
d'utilisation :
* Mise en accès de l'API de la CAF : "imaginons qu'une association universitaire francilienne lance un
site destiné à aider les étudiants à se loger en utilisant les API de la CAF, du CROUS, de l'Université et
de la RATP. L'utilisateur pourrait alors, une fois ses données paramétrées, se voir proposer une liste de
logements étudiants, une estimation d'allocation et un itinéraire jusqu'aux amphithéâtres calculés
automatiquement pour chaque logement."
* Simplifier les démarches en limitant les demandes de pièces justificatives : applications publiques
fonctionnant sur le principe "dites le nous qu'une fois"; candidater à un marché public avec seulement
le SIRET; simulateur d'un coût d'embauches; demande de bourses en ligne par exemple. Avec mise en
liaisons des systèmes informatiques servant à l'impôt sur le revenu, l'adresse certifiée du foyer fiscal,
les données de la CAF (quotient familial, composition foyer...)
Si en adéquation avec le mouvement Open Data, les API peuvent être "ouvertes" c'est à dire ici
gratuites, d'autres utilisations d'API peuvent être soumises à contrats et redevances (tarification en
fonction de fréquence de téléchargement et de flux de données publiques par un tiers par exemple).
Cette dernière approche est notamment appliquée par la SNCF et la RATP.
Sources :
https://api.gouv.fr/. https://api.gouv.fr/qu-est-ce-qu-une-api

Big Data

Le big data (ou mégadonnées ou encore données massives ) désigne des ensembles de données
produites par l’extension de la numérisation des documents, la multiplication des capteurs et la
croissance des objets connectés (internet des objets). La production de données numériques est telle
que les outils classiques de gestion de base de données ou de gestion de l'information ne suffisent plus
et que des algorithmes mathématiques de plus en plus nombreux et puissants doivent accroître le

                                                                                                       6
traitement automatique de fonctions d’analyses toujours plus variées. Cette explosion quantitative et
qualitative de données numériques contraint à de nouvelles manières de voir et analyser le monde. De
nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l'analyse et
la visualisation des données. Les perspectives du traitement des big data sont énormes et en partie
encore insoupçonnées ; on évoque souvent de nouvelles possibilités d'exploration de l'information
diffusée par les médias, de connaissance et d'évaluation, d'analyse tendancielle et prospective
(climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques
(commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques,
mais aussi en termes de génomique ou postgénomique, pour la médecine (compréhension du
fonctionnement du cerveau, épidémiologie, éco épidémiologie...), la médecine dite de précision et
personnalisée ,la météorologie et la climatologie , la gestion de réseaux énergétiques complexes (via
les smartgrids ou un futur « internet de l'énergie »), l'écologie, ou encore la sécurité et la lutte contre
la criminalité. Ce ne sont là que des exemples. La multiplicité de ces applications engendre le
développement d’économies politiques et financières nouvelles et parfois en tension ainsi que des
modes industriels et organisationnels innovants fondées en partie, sur des infrastructures et des
plateformes distribuées à bas coûts et sur les usages.

Blockchain

La chaîne de blocs (en anglais blockchain) est une technologie de stockage et de transmission
d’informations, transparente, sécurisée, et fonctionnant sans organe central de contrôle. (wikipédia).
Pour les néophytes, cette technologie de stockage et de transmissions d’informations totalement
décentralisée et sans organe de contrôle permet de certifier des échanges, des prix, des transactions
ou encore des titres de propriété et des procédures, le tout de manière instantanée, infalsifiable et à
faible coût. Comme l’écrit le mathématicien Jean-Paul Delahaye cité sur le site Blockchain France, il
faut s’imaginer «un très grand cahier, que tout le monde peut lire librement et gratuitement, sur
lequel tout le monde peut écrire, mais qui est impossible à effacer et indestructible.» a blockchain est
née, d’une part, de la rencontre de la cryptographie asymétrique et des systèmes distribués, et,
d’autre part, d’un terreau sociologique opportun. Ce dernier résulte de la crise de confiance des
citoyens envers les institutions, les amenant à chercher de nouvelles formes de gouvernance.

L’avènement d’Internet a démontré l’effectivité d’un système mondial de communication sans le
besoin d’opérateurs de télécommunications. Désormais, il est possible de se connecter en quelques
secondes à n’importe quel réseau Wi-Fi dans le monde. La blockchain permet la même révolution, mais
appliquée aux transactions. Elle permet à des personnes de réaliser entre elles des
opérations, notamment financières, qui sont garanties sans l’interaction d’un tiers de confiance
(banques, assurances, administrations..). De ce fait, les échanges sont plus rapides et moins coûteux.
Par conséquent, la blockchain remet totalement en question le rôle des institutions, banques, études
notariales, et modifie en profondeur l’administration. (Source : http://www.fondapol.org/etude/yves-
caseau-et-serge-soudoplatoff-la-blockchain-ou-la-confiance-distribuee/)

«La Caisse des dépôts (CDC) pourrait jouer un rôle dans la conservation et la protection des identités
numériques cruciales dans le système blockchain», (Philippe Dewost, en charge de l’économie
numérique et du financement des entreprises à la Mission programme d’investissements d’avenir à la
CDC. (http://www.caissedesdepots.fr/lancement-dune-initiative-de-place-sur-la-blockchain-avec-11-
partenaires)

                                                                                                       7
Le W3C (voir ce terme) a constitué en 2016 une communauté internationale travaillant sur le sujet et
la mise en rapport des principes de fonctionnement du web et de la blockchain.
https://www.w3.org/community/blockchain/

CADA

Commission d’Accès aux Documents Administratifs, elle sert de recours aux citoyens qui ont des
problèmes pour accéder aux données publiques.La CADA est une autorité administrative indépendante
dont le rôle est consultatif. Elle peut aider un citoyen à obtenir un document administratif individuel
qui lui a été refusé. Elle répond aux consultations des administrations qui la saisissent sur le caractère
communicable ou réutilisable des documents qu’elles détiennent ou sur les modalités de leur
communication ou de leur réutilisation. Elle intervient pour tous les documents détenus par un service
de l’Etat, une collectivité territoriale, un établissement public ou un organisme chargé de la gestion
d’un service public, que cet organisme soit public ou privé.

CivicTech

Les CivicTechs sont un mouvement, une agrégation de pratiques et de dispositifs, qui visent à
revitaliser, transformer les institutions et l'action publique à partir de la participation des citoyens. Elles
se substitueraient aux notions de gouvernement 2.0 et de eGovernement. Pour certains, les civicTech
peuvent être vues comme “tout outil ou processus que les individus ou les groupes utilisent pour influer
sur la scène publique”, ou permettant aux citoyens de rendre le gouvernement plus accessible,
efficient et efficace. D es organisations comme Code for America ont porté le sujet plus avant,
dépassant les limites mêmes des services publics. Des fonds d’investissements et des startups avec des
modèles d’affaires stables se sont montés sur ces sujets, comme Change.org ou SeamlessDocs. Autres
exemples : Neighborland (une boîte à outils pour favoriser la collaboration et la participation locale),
Loomio (un service de prise de décision distribué), SeeClickFix (une plateforme de communication entre
les citoyens et les autorités) ou HandUp (une plateforme de dons aux sans-abris).

                                                                                                           8
Sources   :     centre    des     médias    citoyens      du          MIT      https://civic.mit.edu/       ;
http://www.slideshare.net/knightfoundation/knight-civictech

Chief Data & Digital Officer
(responsable stratégie numérique et management des données)

Le responsable du management des données (parfois dénommé pour les grandes organisations
publiques et gouvernementales Administrateur Général des Données) a pour mission « de coordonner
l’action des administrations en matière d’inventaire, de gouvernance, de production, de circulation et
d’exploitation des données. » Il devra aussi « améliorer l’exploitation de ces données et leur circulation,
dans le respect de la protection des données personnelles et des secrets protégés par la loi, notamment
le secret de la Défense Nationale. En conséquence il collabore également avec les responsables de
traitements et de la conformité juridique (Data Protection Officer - voir ce terme).
Il convient toutefois d'envisager ce nouveau métier en l'associant à la conception d'une politique et
d'une stratégie numérique, à la création de nouveaux services et usages, et en le positionnant par
rapport à la responsabilité du pilotage de projet. Enfin, il ne faut pas confondre l'acronyme CDO
employé pour l'univers des datascientists et du Big Data (statisticiens et informaticiens) avec ce métier
qui prendra aussi en charge les stratégies Open Data. A ce titre, il est responsable du management tout
au long de leur cycle de vie et de la valorisation des données par le pilotage des dispositifs Open Data,
et pilote des dispositifs de la collecte des données, organise le partage de leur analyse avec les autres
directions, la valorisation et la mise en accès pour les parties prenantes (habitants etc.).Un intitulé
pouvant résumer ce métier : responsable de stratégies numériques et du management des données,
ou encore responsable OpenGov Territorial.
Source : M.Carmes, pour le certificat de spécialisation CNAM "Innovations Territoriales et Données
Numériques".

CONSEIL NATIONAL DU NUMERIQUE

Le Conseil National du Numérique a été créé par décret le 29 avril 2011. Le Conseil National du
Numérique est une commission indépendante dont la mission est d’émettre des recommandations et
des avis sur les questions relatives à l’impact des technologies numériques sur l’économie et la société.
Réunissant initialement 18 membres, la composition du Conseil National du Numérique a été modifiée
par décrêt le 12 décembre 2012 et élargie à un collège de 30 membres composé de chercheurs,
d’entrepreneurs et de membres de la société civile. Le CNNum a produit différents rapports dont
"Ambition Numérique : pour une politique française et européenne de la transition numérique" (2015)
ainsi que de nombreuses recommandations sur l'Open Data suite à diverses consultations.
https://contribuez.cnnumerique.fr/

CNIL RGPD DPO (Délégué à la protection des données / Data protection
officer)

La CNIL est l'autorité administrative indépendante créée en 1978, composée d’un collège pluraliste de
17 commissaires, provenant d’horizons divers (4 parlementaires, 2 membres du Conseil économique
et social, 6 représentants des hautes juridictions, 5 personnalités qualifiées désignées par le Président
de l’Assemblée nationale (1), par le Président du Sénat (1), par le Conseil des ministres (3). Le mandat
de ses membres est de 5 ans. L’article 29 de la directive du 24 octobre 1995 sur la protection des

                                                                                                        9
données et la libre circulation de celles-ci a institué un groupe de travail rassemblant les représentants
de chaque autorité indépendante de protection des données nationale. Cette organisation réunissant
l’ensemble des CNIL européennes a pour mission de contribuer à l’élaboration des normes
européennes en adoptant des recommandations, de rendre des avis sur le niveau de protection dans
les pays tiers et de conseiller la Commission européenne sur tout projet ayant une incidence sur les
droits et libertés des personnes physiques à l’égard des traitements de données personnelles.
Les DPO (Data Protection Officer) ou Délégué à la Protection des Données : acronyme européen pour
les CIL (correspondant informatique et libertés). Acteur central de la conformité « Informatique et
Libertés », veille à la sécurité juridique et informatique de son organisme. Il bénéficie d’un service dédié
proposé par la CNIL pour l’accompagner dans l’exercice de ses missions. La gestion des données
massives et des données ouvertes rend incontournable la sollicitation du DPO. Le nouveau règlement
européen (règlement général sur la protection des données, RGPD) rend obligatoire la désignation d'un
DPO depuis mai 2018, notamment si l'organisme appartient au secteur public, ou si leur activité les
amène à réaliser du profiling. Il crée un nouveau principe d’ « accountability » qui désigne et rend
obligatoire la documentation de l’ensemble des mesures internes définies et prises par un responsable
de traitement ou ses sous-traitants afin d'attester de son niveau de conformité. Chaque organisme doit
capable de rendre compte à l’autorité de protection des données, des mesures mises en place en son
sein afin de respecter les dispositions de la loi.
https://www.cnil.fr/fr/reglement-europeen-sur-la-protection-des-donnees-ce-qui-change-pour-les-
professionnels

Crowdsourcing

Le crowdsourcing (approvisionnement par la foule) consiste littéralement à externaliser (to outsource)
une activité vers la foule (crowd) c’est-à-dire vers un grand nombre d’acteurs anonymes (à priori). Bien
que le phénomène soit ancien, son essor est fortement lié au développement des nouvelles
technologies de l’information et de la communication et, plus particulièrement, du Web 2.0 qui facilite
la mise en relation d’un grand nombre d’acteurs dispersés.
Décrit une pratique d'externalisation ouverte ou production participative, et l'utilisation de la
créativité, de l'intelligence et du savoir-faire d'un grand nombre de personnes, en sous-traitance, pour
réaliser certaines tâches traditionnellement effectuées par un employé ou un entrepreneur.
(Wikipédia). Pratique caractérisée par l'appel à des internautes volontaires pour proposer ou créer des
contenus. Il s’agit ainsi d’une mutualisation des ressources et des compétences. En lien avec l'Open
Data; exemples : Open Street Map est une carte collaborative utilisée à travers le monde y compris par
les organisations elles-mêmes (privées ou publiques); la captologie citoyenne qui consiste à proposer
aux habitants de recueillir aux moyens de capteurs (par exemple sur des vélos) des données de la
pollution dans la ville, de niveaux d'allergènes... données qui seront ensuite traitées par la collectivité
et remises à disposition de l'ensemble des citoyens.
Sources : M Carmes; Burger-Helmchen Thierry, Pénin Julien, « Crowdsourcing : définition, enjeux,
typologie », Management & Avenir 1/2011 (n° 41); et Wikipédia, OpenDataSoft.

Datamining

L’exploration de données (conçues dans un sens très extensif) connue aussi sous l'expression de fouille
de données, forage de données, prospection de données, data mining, ou encore extraction de
connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir
de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Elle se
propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les
statistiques, la scientométrie, l’infométrie, l'intelligence artificielle, la science des réseaux, les

                                                                                                       10
mathématiques…pour construire des modèles à partir des données, faire émerger des systèmes de
relations entre ces données, des graphes, c'est-à-dire trouver des structures intéressantes ou des
motifs éclairants, tantôt selon des critères ou concepts fixés au préalable, tantôt sans apriori, et d'en
extraire des connaissances nouvelles ou des moyens pour de nouvelles conditions de la connaissance.
Le DataMining à partir de données structurées, semi structurées ou non structurées rend possible de
nouvelles visibilités. L'utilisation industrielle ou opérationnelle du Datamining, dans le monde
professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à
la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites
web. C'est aussi le mode de travail du journalisme de données. Le Data Mining permet encore de
cartographier les dynamiques de la science, d’accroître de manière générale les capacités de
veille informationnelle et stratégique ainsi que les capacités de renseignement au sens large.
Le Marketing fait un usage intensif du Datamining et son économie repose sur la capacité à
traitre de grandes quantité de données hétérogènes. En décuplant, au moyen d’algorithmes
puissants, les fonctions de triage, classement des données et en permettant de dévoiler les
liens entre les données le Datamining est au cœur de la boucle "description-prédiction-
performation" (JM Noyer).

DATA.GOUV.FR

Site officiel servant de répertoire pour les données publiques du gouvernement français, qui a été mis
en ligne le lundi 5 décembre 2011 par la Mission Etalab. En décembre 2013, data.gouv.fr a subi une
profonde transformation, en changeant sa structure et la philosophie de son site. Elle est en effet
devenue une plateforme collaborative orientée vers la communauté, au bénéfice d’une meilleurs
réutilisation des données publiques.
Déclinaisons par pays, exemples : data.gov (USA), data.gov.uk ...
Liste de tous les portails gouvernementaux existants :
Par le W3C : http://opendatabarometer.org/?lang=fr
Par l'Open Knowledge Foundation F : http://index.okfn.org/
Comparaison européenne : http://blogs.worldbank.org/opendata/european-countries-making-clear-
progress-open-data

Datajournalisme

Nouveau type de journalisme basé essentiellement sur l’utilisation des données, consistant à identifier
des données intéressantes, en faire l’analyse, en extraire des informations nouvelles et en présenter
éventuellement les résultats sous la forme d’une visualisation interactive. (OpenDataSoft).
La prétention des journalistes à produire une connaissance objective est souvent critiquée. Il est
pourtant décisif de prendre cette prétention au sérieux si l’on veut saisir ce qui se joue aujourd’hui
dans la mobilisation des techniques de traitement de données par les journalistes. Une des
caractéristiques    des    datajournalistes     seraient    d'utiliser    massivement     les   outils
infographiques/datavisualisation voire des outils de datamining.

Voir : S Parasie, Justicier, chercheur ou hacker ? Le journalisme d’enquête à l’ère du traitement de
données, In les débats du numérique, 2013 http://books.openedition.org/pressesmines/1667

                                                                                                    11
Datavisualisation

Aussi nommée « dataviz", il s’agit de technologies, méthodes et outils de visualisation des données.
Elle peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des
chronologies, des infographies, ou même des créations graphiques inédites. La présentation sous une
forme illustrée rend les données plus lisibles et compréhensibles. Cette approche est devenue
essentielle dans la communication des organismes sur leurs approches Open Data et met au coeur du
dispositif la question de la médiation et de la compréhension des données. Reste à savoir si une
infographie règle totalement la question interprétative, la différence de compétences, de capacités
cognitives (et donc les asymétries liées).

Données brutes (ou primaires)

Les données brutes (aussi appelées données primaires) sont « les données non interprétées émanant
d'une source primaire, ayant des caractéristiques liées à celle-ci et qui n'ont été soumises à aucun
traitement ou toute autre manipulation" W3C. Néanmoins, selon de nombreux chercheurs comme
E.Ruppert, les données ne sont jamais brutes car toujours construites. Il convient de prendre en compte
les conditions de production, l'origine et la sélection, de ces "matériaux". Selon le philosophe français
B.Latour, afin de maintenir l'interrogation politique et sociologique, il s'agit donc de les considérer
comme des "obtenues". Voir encore Lisa GITELMAN (dir.), Raw Data is An Oxymoron, Cambridge, MIT
Press, 2013

Données Publiques - Données d'intérêt général (Service public de la donnée)

Données publiques : données collectées, maintenues et utilisées par les organismes publics pour
accomplir leur mission.
- Une information contenue dans tout document produit ou reçu par une personne agissant dans le
cadre d’une mission de service public (Etat, collectivité, EPCI ou personne privée). Loi Cada Art 1
- Une donnée collectée ou créée par une administration ou un service public dans le cadre de sa
mission, ne portant atteinte ni à la vie privée, ni à la sécurité du territoire, ni au secret industriel et
commercial, ni à la propriété intellectuelle. (et secrets des affaires/2016)
Cf Loi pour une République Numérique (promulgation octobre 2016). L’État se voit confier une nouvelle
mission : celui du service public de la donnée. Celui-ci sera chargé de faciliter la réutilisation des
principales bases de données de l’État par les acteurs privés ou publics (entreprises, associations,
chercheurs, etc.), en leur garantissant un niveau élevé de qualité de service. Il s’agit de construire une
infrastructure nationale autour de quelques grandes bases de "données de référence".

Le service public de la donnée vise à mettre à disposition, en vue de faciliter leur réutilisation, les jeux
de données de référence qui présentent le plus fort impact économique et social. Il s’adresse
principalement aux entreprises et aux administrations pour qui la disponibilité d’une donnée de qualité
est critique. La mission Etalab, rattachée à la Direction interministérielle du numérique et du système
d’information et de communication de l’Etat (DINSIC), est chargée de la mise en œuvre et de la
gouvernance de ce nouveau service public.
Exemples : neuf bases de données de référence ont été constituées au niveau de l’Etat :
    • le répertoire des entreprises et des établissements (base Sirene)
    • le répertoire national des associations (RNA),

                                                                                                       12
• le plan cadastral informatisé (« Cadastre »),
    • le registre parcellaire graphique (RPG),
    • le référentiel à grande échelle (RGE),
    • la base adresse nationale (BAN),
    • le répertoire opérationnel des métiers et des emplois (ROME),
    • le référentiel de l’organisation administrative de l’Etat,
Ce service public de mise à disposition des données de référence s’organise autour de 3 acteurs :
    • les producteurs qui produisent la donnée de référence et documentent les métadonnées ;
    • les diffuseurs qui mettent à disposition les données avec un haut niveau de qualité ;
    • les utilisateurs qui utilisent les données de référence pour produire de nouveaux services et
        créer de la valeur économique et sociale

Voir : Directive PSI (Public Sector Information) révisée 2013 (Directive 2013/37/EU) ; Loi Lemaire pour
une République Numérique (Titre 1) 2016

Données ouvertes (publiques)

« Donnée ouverte » est la traduction littérale de l’expression « open data ». Cette notion n’est pas
juridique, mais plutôt un standard de fait dans la communauté internationale. Les 10 critères de
l'association Sunlight Foundation sont les suivants :
1. complètes (tout domaine de l’action publique); toutes les données publiques doivent être ouvertes
     à l’exception de celles susceptibles de porter atteinte à la vie privée des individus ou à la sécurité
     du territoire
2. primaires /brutes; mises à disposition sans travail d’agrégation ou d’interprétation. Dans leur
     forme première.
3. fraîches ; données à jour, publiées rapidement
4. accessibles à tous ;
5. lisibles par une machine ; données qui peuvent faire l’objet d’un traitement automatisé,
     informatique
6. accessibles sans discrimination ; : l’accès aux données ne doit pas faire l’objet d’un enregistrement
ou d’une demande préalable
7. respectant les standards ouverts ; données sont mises à disposition dans des formats non-
propriétaires (par exemple pas de document PDF ou excel)
8. libres de droit; les données ne doivent pas être soumises à des droits d’auteur et couverts par la
propriété intellectuelle.
9. accessibles de façon pérenne ; les données doivent être mises à disposition de manière permanente
10. gratuites; en France le principe de gratuité prime selon les textes législatifs, mais des redevances
sont possibles.

Par ailleurs, le W3C (Tim Berness Lee) a élaboré un modèle simple classant les formats de données en
fonction de leur adéquation aux contraintes et visées de l'Open Data.

                                                                                                      13
Voir "Open Data" (mouvement).

Données pivot (ou format pivot ou données de référence)

Donnée utilisée par un grand nombre d’acteurs ayant valeur de référence pour plusieurs
métiers/écosystèmes.
 La mise en place d’un format pivot consiste à définir un format intermédiaire permettant de tenir
compte des différents cas d’usages, puis de développer des traitements d’intégration pour que
chacune des applications puissent interagir avec ce format. Cela consiste par exemple à définir
l'ensemble des catégories de données (descripteurs ou métadonnées) à recueillir pour un domaine et
de préciser quels types d'informations sont attendues pour chacune des catégories (exemple dans le
cas des marchés publics, il s'agit de définir les descripteurs comme le montant du marché en HT, la
durée du marché en mois ou année, le lieu d'exécution, la localisation de l'exécuteur etc.). Les données
de référence, aussi appelées « données pivots » ou « données de base », sont « des données utilisées
par un grand nombre d’acteurs, qui y recourent fréquemment, comme par exemple le code officiel
géographique, le répertoire SIRENE, le cadastre, etc.) »
Ce sont des données « ayant valeur de référence pour plusieurs métiers/écosystèmes, permettant ainsi
de croiser ou relier des données. Le code postal est une donnée pivot. "La donnée de référence possède
des similarités avec la monnaie, qui est produite et garantie par l’État, pour permettre des échanges
entre acteurs et le bon fonctionnement de l’économie. » Source : Open Data France

ETALAB

Etalab coordonne l’action des services de l’Etat et de ses établissements publics pour faciliter la
réutilisation la plus large possible de leurs informations publiques. Etalab administre le portail
interministériel data.gouv.fr destiné à rassembler et à mettre à disposition librement l’ensemble des
informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des collectivités
territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public.
https://www.etalab.gouv.fr/qui-sommes-nous

                                                                                                        14
Fablab

Contraction de l'anglais fabrication laboratory, « laboratoire de fabrication », pensé par Neil
Gershenfeld, physicien et informaticien, professeur au sein du M.I.T., à la fin des années 1990 sur base
de ses observations faites au sein de hackerspaces se transformant en makerspace pour répondre aux
besoins des communautés créées. C'est ainsi que l'on retrouve dans les fablab beaucoup de préceptes
provenant directement de l'éthique hacker et des valeurs de la culture maker.
Il se décrit comme un tiers-lieu de type makerspace : "atelier de fabrication", évolution du hackerspace,
ouvert au public et mettant à disposition des machines-outils et machines-outils à commande
numérique habituellement réservés à des professionnels dans un but de prototypage rapide ou de
production à petite échelle. Les imprimantes 3D en sont devenues des outils emblématiques. S'y
organisent également des opérations destinées à penser de nouvelles opportunités d'exploitation des
données ouvertes (Hackathon).
La FabFoundation propose un inventaire minimal permettant la création des principaux projets fablabs,
un ensemble de logiciels et solutions libres et open-sources, les Fab Modules, et une charte de
gouvernance, la Fab Charter.

Gouvernement ouvert

Héritage plus ou moins long du droit d'accès à l'information gouvernementale en Europe ou aux USA.
Cette approche a connu un regain d'intérêt à la faveur des possibilités offertes par internet comme
moyen de communication des administrations et de participation des citoyens. Cette orientation a été
fortement investie par deux associations : l'Open Knowledge Foundation en Grande Bretagne (2004)
et par la Sunlight Foundation (USA) en 2006. L'administration Obama a investi fortement le sujet dès
2009 à travers le programme Transparency and Open Government (TOG). De plus, lancé en septembre
2011 par 8 pays fondateurs, l’Open Government Partnership (OGP) ou "Partenariat pour le
Gouvernement ouvert" est une initiative internationale, qui s’attache à promouvoir la transparence et
l’intégrité des gouvernements, et l’utilisation des nouvelles technologies, en particulier d’Internet,
pour faciliter cette ouverture. Le Partenariat regroupe aujourd'hui 66 pays membres, dont la France
(Sommet mondial à Paris en décembre 2016). La démarche prône : un plus large accès aux informations
sur les activités gouvernementales et les administrations notamment en érigeant comme norme l'Open
Data public; le développement de pratiques démocratiques dont la "transparence" se présente comme
pilier au même titre que la participation des citoyens (pour contrôler, superviser et prendre part aux
décisions); un recours massif aux technologies d'internet. Les objectifs liés sont d'ordre politique, social
et économique.
http://www.opengovpartnership.org/

Intelligence Artificielle et Action publique

L’intelligence artificielle "désigne moins un champ de recherches bien défini qu’un programme, fondé
autour d’un objectif ambitieux : comprendre comment fonctionne la cognition humaine et la
reproduire ; créer des processus cognitifs. Le champ est donc naturellement extrêmement vaste, tant
en ce qui concerne les procédures techniques utilisées que les disciplines convoquées :
mathématiques, informatiques, sciences cognitives… Les méthodes d’IA sont très nombreuses et
diverses (ontologique, apprentissage par renforcement, apprentissage adversarial, réseaux de

                                                                                                       15
neurones…) et ne sont pas nouvelles : beaucoup d’algorithmes utilisés aujourd’hui ont été développés
il y a plusieurs dizaines d’années comparables à ceux de l’être humain. L’intelligence artificielle est
entrée, depuis quelques années, dans une nouvelle ère, qui donne lieu à de nombreux espoirs. C’est
en particulier dû à l’essor de l’apprentissage automatique. Rendues possibles par des algorithmes
nouveaux, par la multiplication des jeux de données et le décuplement des puissances de calcul, les
applications se multiplient : traduction, voiture autonome, détection de cancer,… Le développement
de l’IA se fait dans un contexte technologique marqué par la « mise en données » du monde
(datafication), qui touche l’ensemble des domaines et des secteurs, la robotique, la blockchain, le
supercalcul et le stockage massif. Au contact de ces différentes réalités technologiques se jouera
sûrement le devenir de l’intelligence artificielle." (source : Rapport Villani, 2017). Il n’y a pas une, mais
une multiplicité de fins et de contingences possibles associées aux algorithmes, des types de
traitements différents / Analyse sémantique, représentation symbolique, apprentissage statistique ou
exploratoire, les réseaux de neurones multicouches dans le cas de « l’apprentissage profond » (ou deep
learning). La prolifération des données, leur hétérogénéité (traces qualitatives et quantitatives), les
moyens de traitement, relancent la question de la possibilité d’une remise en cause des modes de
pilotage hérités, et peut-être, des formes de gouvernementalité (Rouvroy et Berns, 2013), sans
préjuger des directions politiques qui s’imposeront, des striages socio-politiques qui arriveront à
maturité. Il n’y aucune incarnation écrite à l’avance et tout cela reste fortement discuté (Etat
plateforme, utilisation de l'IA dans l'action publique, libertés individuelles etc.).
ABITEBOUL, S. et DOWEK, G., Le Temps des algorithmes, Paris, Le Pommier, coll. « Essais et documents »,
2017; Carmès M, Les désirs algorithmiques de l'action publique, Essentiels Hermes, 2018; Carmès M,
Noyer JM, Désirs de data in Traces numériques et Territoires; Presses des Mines/Paris-Tech, 2015
MOROZOV, E., Pour tout résoudre cliquez ici : l’aberration du solutionnisme technologique [To save
everything, click here: Technology, solutionism, and the urge to fix problems that don’t exist], Limoges,
FYP, 2014. Villani C, Donner un sens à l'intelligence artificielle, Pour une stratégie nationale et
européenne, mars 2018 - Site de l'Inria : https://interstices.info/dossier/idees-recues/

Voir : Algorithme, Big Data, Datamining

Inspire

Norme européenne de traitement des données géographiques. Directive européenne actée en 2007
et transposée en France en 2010, qui pousse les nombreux systèmes d’information géographique
d’Europe à converger vers les mêmes standards pour faciliter la circulation et l’interopérabilité des
données. Son périmètre porte sur 34 thématiques.
Une « passerelle Inspire » technique développée entre SIG et Open Data par
l’équipe d’Etalab en 2014. (utilisation de l’API data.gouv.fr).
Tout producteur de données au « format Inspire » peut donc partager ses données sur data.gouv.fr et
y référencer son portail.

IOT (Internet des objets)

L'Internet des objets (ou IdO, en anglais Internet of Things ou IoT) représente l'extension d'Internet à
des choses et à des lieux du monde physique.

                                                                                                        16
Alors qu'Internet ne se prolonge habituellement pas au-delà du monde électronique, l'Internet des
objets connectés représente les échanges d'informations et de données provenant de dispositifs
présents dans le monde réel vers le réseau Internet. Considéré comme la troisième évolution de
l'Internet, baptisée Web 3.0 (parfois perçu comme la généralisation du Web des objets mais aussi
comme celle du Web sémantique) qui fait suite à l'ère du Web social, l'Internet des objets revêt un
caractère universel pour désigner des objets connectés aux usages variés, dans le domaine de la e-
santé, de la domotique ou du Quantified Self. Il fait également écho à l'échange de données entre
smartphones et objets permis notamment par l'utilisation de la technologie NFC (voir ce terme dans le
glossaire). L'internet des objets est en partie responsable d'un accroissement exponentiel du volume
de données générées sur le réseau, à l'origine du big data.

LICENCE OUVERTE

Pour que les données soient ouvertes, elles doivent être accessibles, (en général, cela signifie qu’elles
sont publiées en ligne) et bénéficier d’une licence ouverte permettant à quiconque d’y accéder, de les
utiliser et de les partager.
Sans licence, les données ne sont pas véritablement ouvertes (voir les 10 principes de l’OD selon la
Sunlight Foundation).
Une licence garantit à tous le droit d'utiliser, de partager et d’accéder à vos données.
Pour que les données soient ouvertes, la licence doit en autoriser l’accès, l’utilisation et le partage.
C’est une garantie pour l’utilisateur et le producteur : éviter le flou juridique.
Elle doit s’étendre au tiers , sous-traitants cf Délégations de service public. La licence constitue
également un élément de discussion avec les éditeurs de logiciel. Deux licences fréquemment utilisées
par les collectivités territoriales sur leurs portails Open Data : la licence ouverte d'Etalab version 2 et
l'Open Database Licence (ODBL) d'OpenDataCommons. Quand les administrations souhaitent proposer
une licence pour la réutilisation gratuite de leurs informations publiques, qu’il s’agisse de données ou
de logiciels, elles devront choisir celle-ci parmi les licences figurant dans le décret prévu à l’article L.
323-2 du CRPA. La publication du décret prévu par l’article L 323-2 du CRPA fait de la LO 2.0 la licence
de référence pour les administrations pour la publication de données publiques, aux côtés de l’ODbL,
et permet ainsi son utilisation par l’ensemble des administrations. https://www.etalab.gouv.fr/licence-
ouverte-open-licence.
Le Guide OKF :
https://theodi.org/guides/reusers-guide-open-data-licensing
http://www.europeandataportal.eu/en/licence-assistant

                                                                                                       17
Vous pouvez aussi lire