Open Data et Big Data Territoriaux Glossaire - Décembre 2018 - Inet-ets.net
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Open Data et Big Data Territoriaux Glossaire Décembre 2018 Conçu par le réseau GRICO - grico.fr Maryse Carmes, maitre de conférences, Conservatoire National des Arts & Métiers maryse.carmes@lecnam.net Jean-Max Noyer, professeur Emérite des Universités, noyer@grico.fr CC-BY-NC-4.0: Attribution-NonCommercial 4.0 International 1
Algorithme .................................................................................................................... 4 API ................................................................................................................................ 6 Big Data ........................................................................................................................ 6 Blockchain ..................................................................................................................... 7 CADA ............................................................................................................................ 8 CivicTech ....................................................................................................................... 8 Chief Data & Digital Officer ............................................................................................ 9 CONSEIL NATIONAL DU NUMERIQUE ............................................................................. 9 CNIL RGPD DPO (Délégué à la protection des données / Data protection officer) ........... 9 Crowdsourcing ............................................................................................................ 10 Datamining ................................................................................................................. 10 DATA.GOUV.FR ........................................................................................................... 11 Datajournalisme .......................................................................................................... 11 Datavisualisation ......................................................................................................... 12 Données brutes (ou primaires) .................................................................................... 12 Données Publiques - Données d'intérêt général (Service public de la donnée) .............. 12 Données ouvertes (publiques) ..................................................................................... 13 Données pivot (ou format pivot ou données de référence) ........................................... 14 ETALAB ....................................................................................................................... 14 Fablab ......................................................................................................................... 15 Gouvernement ouvert ................................................................................................. 15 Intelligence Artificielle et Action publique ................................................................... 15 Inspire ......................................................................................................................... 16 IOT (Internet des objets) .............................................................................................. 16 LICENCE OUVERTE ....................................................................................................... 17 Métadonnées .............................................................................................................. 18 NFC ............................................................................................................................. 18 Open Data (Mouvements) ........................................................................................... 19 Open Data France (ODF) .............................................................................................. 20 OKF ............................................................................................................................. 20 2
Régie de données territoriales (Data sharing) .............................................................. 20 Self Data (Données personnelles redistribuées) ........................................................... 21 SUNLIGHT FOUNDATION ............................................................................................. 21 Villes intelligentes (Smart Cities).................................................................................. 21 W3C ............................................................................................................................ 22 3
Algorithme Un algorithme est une méthode ou un procédé décrits pas à pas. C'est une façon systématique de procéder pour faire quelque chose : trier des objets, situer des villes sur une carte, multiplier deux nombres, extraire une racine carrée, chercher un mot dans le dictionnaire… Il se trouve que certaines actions mécaniques - peut-être toutes ! - se prêtent bien à la décortication. On peut les décrire de manière générale, identifier des procédures, des suites d'actions ou de manipulations précises à accomplir séquentiellement. C'est cela, un algorithme. En tant que méthode, il répond donc à des questions du type : « comment faire ceci ? », « obtenir cela ? », « trouver telle information ? », « calculer tel nombre ? ». C'est un concept pratique, qui traduit la notion intuitive de procédé systématique, applicable mécaniquement, sans réfléchir, en suivant simplement un mode d'emploi précis. La vertu essentielle des algorithmes est de permettre l'exécution optimisée de procédés répétitifs, essentiellement grâce à la formalisation et à la description des enchaînements logiques à un niveau plus abstrait, et donc plus général. Ils s'étendent ainsi à des domaines de la société toujours plus nombreux et plus inattendus. Bien avant le premier ordinateur électronique, dans les années trente, les mathématiciens ont découvert un modèle général de machines procédant de manière logique (Logical Computing Machine) - les fameuses machines de Turing - capables d'effectuer mécaniquement tous les algorithmes possibles et imaginables, déjà découverts ou qui le seront jusqu'à la fin des temps. La thèse, dite de Church-Turing, selon laquelle tous les algorithmes sont représentables et effectuables sur une Machine de Turing, est aujourd'hui universellement acceptée. Ce n'est pas un problème de décision, mais une méthode pour résoudre un tel problème. Un algorithme n'est pas non plus un langage de programmation, mais tout algorithme dont les entrées et les résultats peuvent être codés par des entiers peut être traduit (plus ou moins directement, plus ou moins « naturellement ») dans n'importe quel langage de programmation. Enfin, un algorithme n'est pas un codage numérique, mais les données et les résultats de n'importe quel algorithme doivent être codés de façon numérique - et même arithmétique - pour être mis en œuvre sur un ordinateur. Il existe différents types d'algorithmes : ceux qui servent à recommander (des livres sur Amazon, des contacts sur Facebook), ceux qui servent à classer selon des critères spécifiques (les résultats de recherches sur Google), ceux qui servent à trier et à extraire (dans les données massives cf Big Data ou des données non structurées du web 2), à regrouper selon des similarités, à prédire selon des probabilités (en s'appuyant sur un historique), à enclencher des actions (les rendre possible ou non selon les réactions du dispositif ou des comportements) etc. Plusieurs peuvent regrouper ces diverses finalités. Ils s'appliquent sur tout type de processus et de données (le Big Data n'est pas le seul concerné) et la prédiction n'est qu'une application possible (parmi beaucoup d'autres du traitement algorithmique). Les méthodes d'analyse de données qui utilisent des algorithmes sont regroupées sous le terme "datamining". Ouverture du "code" des algorithmes utilisés par l'administration : ce sujet a été mis à l'ordre du jour lors de l'élaboration de la loi pour une République Numérique (art.11). A l’avenir, sauf exception, toute personne destinataire d’une décision fondée sur un traitement algorithmique pourra demander à l’administration les règles définissant ce traitement et ses principales caractéristiques. De plus, les administrations devront publier en ligne les règles de leurs principaux traitements algorithmiques fondant des décisions individuelles. Exemples d'algorithmes utilisés dans les missions de service public : Inscriptions des élèves dans le supérieur (APBAC/ParcoursSup) dont les logiques sont très discutées (logiques et accès au code source); le calcul des impôts; le calcul des allocations logement; la prédiction de trafic dans la ville et la régulation des flux par les feux de signalisation; la prédiction de consommation d'énergie des habitants selon la saison/ la température/le type d'habitat/l'isolation; la 4
médecine prédictive; l'analyse morphologique sur vidéos-surveillance; l'efficience des pratiques agricoles; ... Autres termes associés : Intelligence Artificielle, Datamining, Big Data Sources : Qu'est-ce qu'un algorithme ? Inria. https://interstices.info/jcms/c_5776/qu-est-ce-qu-un-algorithme M Carmes, Les désirs algorithmiques de l'action publique, février 2016, http://www.grico.fr/wp- content/uploads/2016/02/Grico_ActionpubliqueAlgorithmique.pdf 5
API En informatique, une interface de programmation applicative (souvent désignée par le terme API pour Application Programming Interface). Les API sont notamment proposées sur les portails Open Data. Une API permet la communication, des échanges, entre des systèmes informatiques qui n'ont pas forcément été conçus ensemble à l'origine et donc hétérogènes (une sorte de système de branchement). Cela permet l’interconnexion entre des applications et des machines, sans intervention humaine. Elle est offerte par une bibliothèque logicielle ou un service web, le plus souvent accompagnée d'une description qui spécifie comment des programmes consommateurs (utilisateurs) peuvent se servir des fonctionnalités du programme fournisseur. Par exemple pour l'Open Data, le portail de l'organisme (public ou privé) est le fournisseur de données pour des usagers (habitants), des développeurs d'applications ou autres entités ré-exploitatrices de celles-ci. L'API permet ainsi à une application de dialoguer, "récupérer" automatiquement des données de trafic de bus (horaires, retards etc.) afin de proposer un service aux habitants facilitant leurs déplacements. Les API peuvent faciliter le dialogue entre deux applications de différentes administrations. Les API permettent de nombreux usages. Elles sont déjà utilisées largement. Par exemple, les entreprise françaises utilisent tous les mois celle de la Déclaration Sociale Nominative. Les entreprises ne communiquent pas les données de leur employés manuellement à l’administration : leur logiciel de paie transmet directement ces données grâce à une API. Certaines administrations ont ouvert en juin 2016 un site d'accès à plusieurs API. Exemples d'utilisation : * Mise en accès de l'API de la CAF : "imaginons qu'une association universitaire francilienne lance un site destiné à aider les étudiants à se loger en utilisant les API de la CAF, du CROUS, de l'Université et de la RATP. L'utilisateur pourrait alors, une fois ses données paramétrées, se voir proposer une liste de logements étudiants, une estimation d'allocation et un itinéraire jusqu'aux amphithéâtres calculés automatiquement pour chaque logement." * Simplifier les démarches en limitant les demandes de pièces justificatives : applications publiques fonctionnant sur le principe "dites le nous qu'une fois"; candidater à un marché public avec seulement le SIRET; simulateur d'un coût d'embauches; demande de bourses en ligne par exemple. Avec mise en liaisons des systèmes informatiques servant à l'impôt sur le revenu, l'adresse certifiée du foyer fiscal, les données de la CAF (quotient familial, composition foyer...) Si en adéquation avec le mouvement Open Data, les API peuvent être "ouvertes" c'est à dire ici gratuites, d'autres utilisations d'API peuvent être soumises à contrats et redevances (tarification en fonction de fréquence de téléchargement et de flux de données publiques par un tiers par exemple). Cette dernière approche est notamment appliquée par la SNCF et la RATP. Sources : https://api.gouv.fr/. https://api.gouv.fr/qu-est-ce-qu-une-api Big Data Le big data (ou mégadonnées ou encore données massives ) désigne des ensembles de données produites par l’extension de la numérisation des documents, la multiplication des capteurs et la croissance des objets connectés (internet des objets). La production de données numériques est telle que les outils classiques de gestion de base de données ou de gestion de l'information ne suffisent plus et que des algorithmes mathématiques de plus en plus nombreux et puissants doivent accroître le 6
traitement automatique de fonctions d’analyses toujours plus variées. Cette explosion quantitative et qualitative de données numériques contraint à de nouvelles manières de voir et analyser le monde. De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données. Les perspectives du traitement des big data sont énormes et en partie encore insoupçonnées ; on évoque souvent de nouvelles possibilités d'exploration de l'information diffusée par les médias, de connaissance et d'évaluation, d'analyse tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques, mais aussi en termes de génomique ou postgénomique, pour la médecine (compréhension du fonctionnement du cerveau, épidémiologie, éco épidémiologie...), la médecine dite de précision et personnalisée ,la météorologie et la climatologie , la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur « internet de l'énergie »), l'écologie, ou encore la sécurité et la lutte contre la criminalité. Ce ne sont là que des exemples. La multiplicité de ces applications engendre le développement d’économies politiques et financières nouvelles et parfois en tension ainsi que des modes industriels et organisationnels innovants fondées en partie, sur des infrastructures et des plateformes distribuées à bas coûts et sur les usages. Blockchain La chaîne de blocs (en anglais blockchain) est une technologie de stockage et de transmission d’informations, transparente, sécurisée, et fonctionnant sans organe central de contrôle. (wikipédia). Pour les néophytes, cette technologie de stockage et de transmissions d’informations totalement décentralisée et sans organe de contrôle permet de certifier des échanges, des prix, des transactions ou encore des titres de propriété et des procédures, le tout de manière instantanée, infalsifiable et à faible coût. Comme l’écrit le mathématicien Jean-Paul Delahaye cité sur le site Blockchain France, il faut s’imaginer «un très grand cahier, que tout le monde peut lire librement et gratuitement, sur lequel tout le monde peut écrire, mais qui est impossible à effacer et indestructible.» a blockchain est née, d’une part, de la rencontre de la cryptographie asymétrique et des systèmes distribués, et, d’autre part, d’un terreau sociologique opportun. Ce dernier résulte de la crise de confiance des citoyens envers les institutions, les amenant à chercher de nouvelles formes de gouvernance. L’avènement d’Internet a démontré l’effectivité d’un système mondial de communication sans le besoin d’opérateurs de télécommunications. Désormais, il est possible de se connecter en quelques secondes à n’importe quel réseau Wi-Fi dans le monde. La blockchain permet la même révolution, mais appliquée aux transactions. Elle permet à des personnes de réaliser entre elles des opérations, notamment financières, qui sont garanties sans l’interaction d’un tiers de confiance (banques, assurances, administrations..). De ce fait, les échanges sont plus rapides et moins coûteux. Par conséquent, la blockchain remet totalement en question le rôle des institutions, banques, études notariales, et modifie en profondeur l’administration. (Source : http://www.fondapol.org/etude/yves- caseau-et-serge-soudoplatoff-la-blockchain-ou-la-confiance-distribuee/) «La Caisse des dépôts (CDC) pourrait jouer un rôle dans la conservation et la protection des identités numériques cruciales dans le système blockchain», (Philippe Dewost, en charge de l’économie numérique et du financement des entreprises à la Mission programme d’investissements d’avenir à la CDC. (http://www.caissedesdepots.fr/lancement-dune-initiative-de-place-sur-la-blockchain-avec-11- partenaires) 7
Le W3C (voir ce terme) a constitué en 2016 une communauté internationale travaillant sur le sujet et la mise en rapport des principes de fonctionnement du web et de la blockchain. https://www.w3.org/community/blockchain/ CADA Commission d’Accès aux Documents Administratifs, elle sert de recours aux citoyens qui ont des problèmes pour accéder aux données publiques.La CADA est une autorité administrative indépendante dont le rôle est consultatif. Elle peut aider un citoyen à obtenir un document administratif individuel qui lui a été refusé. Elle répond aux consultations des administrations qui la saisissent sur le caractère communicable ou réutilisable des documents qu’elles détiennent ou sur les modalités de leur communication ou de leur réutilisation. Elle intervient pour tous les documents détenus par un service de l’Etat, une collectivité territoriale, un établissement public ou un organisme chargé de la gestion d’un service public, que cet organisme soit public ou privé. CivicTech Les CivicTechs sont un mouvement, une agrégation de pratiques et de dispositifs, qui visent à revitaliser, transformer les institutions et l'action publique à partir de la participation des citoyens. Elles se substitueraient aux notions de gouvernement 2.0 et de eGovernement. Pour certains, les civicTech peuvent être vues comme “tout outil ou processus que les individus ou les groupes utilisent pour influer sur la scène publique”, ou permettant aux citoyens de rendre le gouvernement plus accessible, efficient et efficace. D es organisations comme Code for America ont porté le sujet plus avant, dépassant les limites mêmes des services publics. Des fonds d’investissements et des startups avec des modèles d’affaires stables se sont montés sur ces sujets, comme Change.org ou SeamlessDocs. Autres exemples : Neighborland (une boîte à outils pour favoriser la collaboration et la participation locale), Loomio (un service de prise de décision distribué), SeeClickFix (une plateforme de communication entre les citoyens et les autorités) ou HandUp (une plateforme de dons aux sans-abris). 8
Sources : centre des médias citoyens du MIT https://civic.mit.edu/ ; http://www.slideshare.net/knightfoundation/knight-civictech Chief Data & Digital Officer (responsable stratégie numérique et management des données) Le responsable du management des données (parfois dénommé pour les grandes organisations publiques et gouvernementales Administrateur Général des Données) a pour mission « de coordonner l’action des administrations en matière d’inventaire, de gouvernance, de production, de circulation et d’exploitation des données. » Il devra aussi « améliorer l’exploitation de ces données et leur circulation, dans le respect de la protection des données personnelles et des secrets protégés par la loi, notamment le secret de la Défense Nationale. En conséquence il collabore également avec les responsables de traitements et de la conformité juridique (Data Protection Officer - voir ce terme). Il convient toutefois d'envisager ce nouveau métier en l'associant à la conception d'une politique et d'une stratégie numérique, à la création de nouveaux services et usages, et en le positionnant par rapport à la responsabilité du pilotage de projet. Enfin, il ne faut pas confondre l'acronyme CDO employé pour l'univers des datascientists et du Big Data (statisticiens et informaticiens) avec ce métier qui prendra aussi en charge les stratégies Open Data. A ce titre, il est responsable du management tout au long de leur cycle de vie et de la valorisation des données par le pilotage des dispositifs Open Data, et pilote des dispositifs de la collecte des données, organise le partage de leur analyse avec les autres directions, la valorisation et la mise en accès pour les parties prenantes (habitants etc.).Un intitulé pouvant résumer ce métier : responsable de stratégies numériques et du management des données, ou encore responsable OpenGov Territorial. Source : M.Carmes, pour le certificat de spécialisation CNAM "Innovations Territoriales et Données Numériques". CONSEIL NATIONAL DU NUMERIQUE Le Conseil National du Numérique a été créé par décret le 29 avril 2011. Le Conseil National du Numérique est une commission indépendante dont la mission est d’émettre des recommandations et des avis sur les questions relatives à l’impact des technologies numériques sur l’économie et la société. Réunissant initialement 18 membres, la composition du Conseil National du Numérique a été modifiée par décrêt le 12 décembre 2012 et élargie à un collège de 30 membres composé de chercheurs, d’entrepreneurs et de membres de la société civile. Le CNNum a produit différents rapports dont "Ambition Numérique : pour une politique française et européenne de la transition numérique" (2015) ainsi que de nombreuses recommandations sur l'Open Data suite à diverses consultations. https://contribuez.cnnumerique.fr/ CNIL RGPD DPO (Délégué à la protection des données / Data protection officer) La CNIL est l'autorité administrative indépendante créée en 1978, composée d’un collège pluraliste de 17 commissaires, provenant d’horizons divers (4 parlementaires, 2 membres du Conseil économique et social, 6 représentants des hautes juridictions, 5 personnalités qualifiées désignées par le Président de l’Assemblée nationale (1), par le Président du Sénat (1), par le Conseil des ministres (3). Le mandat de ses membres est de 5 ans. L’article 29 de la directive du 24 octobre 1995 sur la protection des 9
données et la libre circulation de celles-ci a institué un groupe de travail rassemblant les représentants de chaque autorité indépendante de protection des données nationale. Cette organisation réunissant l’ensemble des CNIL européennes a pour mission de contribuer à l’élaboration des normes européennes en adoptant des recommandations, de rendre des avis sur le niveau de protection dans les pays tiers et de conseiller la Commission européenne sur tout projet ayant une incidence sur les droits et libertés des personnes physiques à l’égard des traitements de données personnelles. Les DPO (Data Protection Officer) ou Délégué à la Protection des Données : acronyme européen pour les CIL (correspondant informatique et libertés). Acteur central de la conformité « Informatique et Libertés », veille à la sécurité juridique et informatique de son organisme. Il bénéficie d’un service dédié proposé par la CNIL pour l’accompagner dans l’exercice de ses missions. La gestion des données massives et des données ouvertes rend incontournable la sollicitation du DPO. Le nouveau règlement européen (règlement général sur la protection des données, RGPD) rend obligatoire la désignation d'un DPO depuis mai 2018, notamment si l'organisme appartient au secteur public, ou si leur activité les amène à réaliser du profiling. Il crée un nouveau principe d’ « accountability » qui désigne et rend obligatoire la documentation de l’ensemble des mesures internes définies et prises par un responsable de traitement ou ses sous-traitants afin d'attester de son niveau de conformité. Chaque organisme doit capable de rendre compte à l’autorité de protection des données, des mesures mises en place en son sein afin de respecter les dispositions de la loi. https://www.cnil.fr/fr/reglement-europeen-sur-la-protection-des-donnees-ce-qui-change-pour-les- professionnels Crowdsourcing Le crowdsourcing (approvisionnement par la foule) consiste littéralement à externaliser (to outsource) une activité vers la foule (crowd) c’est-à-dire vers un grand nombre d’acteurs anonymes (à priori). Bien que le phénomène soit ancien, son essor est fortement lié au développement des nouvelles technologies de l’information et de la communication et, plus particulièrement, du Web 2.0 qui facilite la mise en relation d’un grand nombre d’acteurs dispersés. Décrit une pratique d'externalisation ouverte ou production participative, et l'utilisation de la créativité, de l'intelligence et du savoir-faire d'un grand nombre de personnes, en sous-traitance, pour réaliser certaines tâches traditionnellement effectuées par un employé ou un entrepreneur. (Wikipédia). Pratique caractérisée par l'appel à des internautes volontaires pour proposer ou créer des contenus. Il s’agit ainsi d’une mutualisation des ressources et des compétences. En lien avec l'Open Data; exemples : Open Street Map est une carte collaborative utilisée à travers le monde y compris par les organisations elles-mêmes (privées ou publiques); la captologie citoyenne qui consiste à proposer aux habitants de recueillir aux moyens de capteurs (par exemple sur des vélos) des données de la pollution dans la ville, de niveaux d'allergènes... données qui seront ensuite traitées par la collectivité et remises à disposition de l'ensemble des citoyens. Sources : M Carmes; Burger-Helmchen Thierry, Pénin Julien, « Crowdsourcing : définition, enjeux, typologie », Management & Avenir 1/2011 (n° 41); et Wikipédia, OpenDataSoft. Datamining L’exploration de données (conçues dans un sens très extensif) connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, la scientométrie, l’infométrie, l'intelligence artificielle, la science des réseaux, les 10
mathématiques…pour construire des modèles à partir des données, faire émerger des systèmes de relations entre ces données, des graphes, c'est-à-dire trouver des structures intéressantes ou des motifs éclairants, tantôt selon des critères ou concepts fixés au préalable, tantôt sans apriori, et d'en extraire des connaissances nouvelles ou des moyens pour de nouvelles conditions de la connaissance. Le DataMining à partir de données structurées, semi structurées ou non structurées rend possible de nouvelles visibilités. L'utilisation industrielle ou opérationnelle du Datamining, dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. C'est aussi le mode de travail du journalisme de données. Le Data Mining permet encore de cartographier les dynamiques de la science, d’accroître de manière générale les capacités de veille informationnelle et stratégique ainsi que les capacités de renseignement au sens large. Le Marketing fait un usage intensif du Datamining et son économie repose sur la capacité à traitre de grandes quantité de données hétérogènes. En décuplant, au moyen d’algorithmes puissants, les fonctions de triage, classement des données et en permettant de dévoiler les liens entre les données le Datamining est au cœur de la boucle "description-prédiction- performation" (JM Noyer). DATA.GOUV.FR Site officiel servant de répertoire pour les données publiques du gouvernement français, qui a été mis en ligne le lundi 5 décembre 2011 par la Mission Etalab. En décembre 2013, data.gouv.fr a subi une profonde transformation, en changeant sa structure et la philosophie de son site. Elle est en effet devenue une plateforme collaborative orientée vers la communauté, au bénéfice d’une meilleurs réutilisation des données publiques. Déclinaisons par pays, exemples : data.gov (USA), data.gov.uk ... Liste de tous les portails gouvernementaux existants : Par le W3C : http://opendatabarometer.org/?lang=fr Par l'Open Knowledge Foundation F : http://index.okfn.org/ Comparaison européenne : http://blogs.worldbank.org/opendata/european-countries-making-clear- progress-open-data Datajournalisme Nouveau type de journalisme basé essentiellement sur l’utilisation des données, consistant à identifier des données intéressantes, en faire l’analyse, en extraire des informations nouvelles et en présenter éventuellement les résultats sous la forme d’une visualisation interactive. (OpenDataSoft). La prétention des journalistes à produire une connaissance objective est souvent critiquée. Il est pourtant décisif de prendre cette prétention au sérieux si l’on veut saisir ce qui se joue aujourd’hui dans la mobilisation des techniques de traitement de données par les journalistes. Une des caractéristiques des datajournalistes seraient d'utiliser massivement les outils infographiques/datavisualisation voire des outils de datamining. Voir : S Parasie, Justicier, chercheur ou hacker ? Le journalisme d’enquête à l’ère du traitement de données, In les débats du numérique, 2013 http://books.openedition.org/pressesmines/1667 11
Datavisualisation Aussi nommée « dataviz", il s’agit de technologies, méthodes et outils de visualisation des données. Elle peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des chronologies, des infographies, ou même des créations graphiques inédites. La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles. Cette approche est devenue essentielle dans la communication des organismes sur leurs approches Open Data et met au coeur du dispositif la question de la médiation et de la compréhension des données. Reste à savoir si une infographie règle totalement la question interprétative, la différence de compétences, de capacités cognitives (et donc les asymétries liées). Données brutes (ou primaires) Les données brutes (aussi appelées données primaires) sont « les données non interprétées émanant d'une source primaire, ayant des caractéristiques liées à celle-ci et qui n'ont été soumises à aucun traitement ou toute autre manipulation" W3C. Néanmoins, selon de nombreux chercheurs comme E.Ruppert, les données ne sont jamais brutes car toujours construites. Il convient de prendre en compte les conditions de production, l'origine et la sélection, de ces "matériaux". Selon le philosophe français B.Latour, afin de maintenir l'interrogation politique et sociologique, il s'agit donc de les considérer comme des "obtenues". Voir encore Lisa GITELMAN (dir.), Raw Data is An Oxymoron, Cambridge, MIT Press, 2013 Données Publiques - Données d'intérêt général (Service public de la donnée) Données publiques : données collectées, maintenues et utilisées par les organismes publics pour accomplir leur mission. - Une information contenue dans tout document produit ou reçu par une personne agissant dans le cadre d’une mission de service public (Etat, collectivité, EPCI ou personne privée). Loi Cada Art 1 - Une donnée collectée ou créée par une administration ou un service public dans le cadre de sa mission, ne portant atteinte ni à la vie privée, ni à la sécurité du territoire, ni au secret industriel et commercial, ni à la propriété intellectuelle. (et secrets des affaires/2016) Cf Loi pour une République Numérique (promulgation octobre 2016). L’État se voit confier une nouvelle mission : celui du service public de la donnée. Celui-ci sera chargé de faciliter la réutilisation des principales bases de données de l’État par les acteurs privés ou publics (entreprises, associations, chercheurs, etc.), en leur garantissant un niveau élevé de qualité de service. Il s’agit de construire une infrastructure nationale autour de quelques grandes bases de "données de référence". Le service public de la donnée vise à mettre à disposition, en vue de faciliter leur réutilisation, les jeux de données de référence qui présentent le plus fort impact économique et social. Il s’adresse principalement aux entreprises et aux administrations pour qui la disponibilité d’une donnée de qualité est critique. La mission Etalab, rattachée à la Direction interministérielle du numérique et du système d’information et de communication de l’Etat (DINSIC), est chargée de la mise en œuvre et de la gouvernance de ce nouveau service public. Exemples : neuf bases de données de référence ont été constituées au niveau de l’Etat : • le répertoire des entreprises et des établissements (base Sirene) • le répertoire national des associations (RNA), 12
• le plan cadastral informatisé (« Cadastre »), • le registre parcellaire graphique (RPG), • le référentiel à grande échelle (RGE), • la base adresse nationale (BAN), • le répertoire opérationnel des métiers et des emplois (ROME), • le référentiel de l’organisation administrative de l’Etat, Ce service public de mise à disposition des données de référence s’organise autour de 3 acteurs : • les producteurs qui produisent la donnée de référence et documentent les métadonnées ; • les diffuseurs qui mettent à disposition les données avec un haut niveau de qualité ; • les utilisateurs qui utilisent les données de référence pour produire de nouveaux services et créer de la valeur économique et sociale Voir : Directive PSI (Public Sector Information) révisée 2013 (Directive 2013/37/EU) ; Loi Lemaire pour une République Numérique (Titre 1) 2016 Données ouvertes (publiques) « Donnée ouverte » est la traduction littérale de l’expression « open data ». Cette notion n’est pas juridique, mais plutôt un standard de fait dans la communauté internationale. Les 10 critères de l'association Sunlight Foundation sont les suivants : 1. complètes (tout domaine de l’action publique); toutes les données publiques doivent être ouvertes à l’exception de celles susceptibles de porter atteinte à la vie privée des individus ou à la sécurité du territoire 2. primaires /brutes; mises à disposition sans travail d’agrégation ou d’interprétation. Dans leur forme première. 3. fraîches ; données à jour, publiées rapidement 4. accessibles à tous ; 5. lisibles par une machine ; données qui peuvent faire l’objet d’un traitement automatisé, informatique 6. accessibles sans discrimination ; : l’accès aux données ne doit pas faire l’objet d’un enregistrement ou d’une demande préalable 7. respectant les standards ouverts ; données sont mises à disposition dans des formats non- propriétaires (par exemple pas de document PDF ou excel) 8. libres de droit; les données ne doivent pas être soumises à des droits d’auteur et couverts par la propriété intellectuelle. 9. accessibles de façon pérenne ; les données doivent être mises à disposition de manière permanente 10. gratuites; en France le principe de gratuité prime selon les textes législatifs, mais des redevances sont possibles. Par ailleurs, le W3C (Tim Berness Lee) a élaboré un modèle simple classant les formats de données en fonction de leur adéquation aux contraintes et visées de l'Open Data. 13
Voir "Open Data" (mouvement). Données pivot (ou format pivot ou données de référence) Donnée utilisée par un grand nombre d’acteurs ayant valeur de référence pour plusieurs métiers/écosystèmes. La mise en place d’un format pivot consiste à définir un format intermédiaire permettant de tenir compte des différents cas d’usages, puis de développer des traitements d’intégration pour que chacune des applications puissent interagir avec ce format. Cela consiste par exemple à définir l'ensemble des catégories de données (descripteurs ou métadonnées) à recueillir pour un domaine et de préciser quels types d'informations sont attendues pour chacune des catégories (exemple dans le cas des marchés publics, il s'agit de définir les descripteurs comme le montant du marché en HT, la durée du marché en mois ou année, le lieu d'exécution, la localisation de l'exécuteur etc.). Les données de référence, aussi appelées « données pivots » ou « données de base », sont « des données utilisées par un grand nombre d’acteurs, qui y recourent fréquemment, comme par exemple le code officiel géographique, le répertoire SIRENE, le cadastre, etc.) » Ce sont des données « ayant valeur de référence pour plusieurs métiers/écosystèmes, permettant ainsi de croiser ou relier des données. Le code postal est une donnée pivot. "La donnée de référence possède des similarités avec la monnaie, qui est produite et garantie par l’État, pour permettre des échanges entre acteurs et le bon fonctionnement de l’économie. » Source : Open Data France ETALAB Etalab coordonne l’action des services de l’Etat et de ses établissements publics pour faciliter la réutilisation la plus large possible de leurs informations publiques. Etalab administre le portail interministériel data.gouv.fr destiné à rassembler et à mettre à disposition librement l’ensemble des informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public. https://www.etalab.gouv.fr/qui-sommes-nous 14
Fablab Contraction de l'anglais fabrication laboratory, « laboratoire de fabrication », pensé par Neil Gershenfeld, physicien et informaticien, professeur au sein du M.I.T., à la fin des années 1990 sur base de ses observations faites au sein de hackerspaces se transformant en makerspace pour répondre aux besoins des communautés créées. C'est ainsi que l'on retrouve dans les fablab beaucoup de préceptes provenant directement de l'éthique hacker et des valeurs de la culture maker. Il se décrit comme un tiers-lieu de type makerspace : "atelier de fabrication", évolution du hackerspace, ouvert au public et mettant à disposition des machines-outils et machines-outils à commande numérique habituellement réservés à des professionnels dans un but de prototypage rapide ou de production à petite échelle. Les imprimantes 3D en sont devenues des outils emblématiques. S'y organisent également des opérations destinées à penser de nouvelles opportunités d'exploitation des données ouvertes (Hackathon). La FabFoundation propose un inventaire minimal permettant la création des principaux projets fablabs, un ensemble de logiciels et solutions libres et open-sources, les Fab Modules, et une charte de gouvernance, la Fab Charter. Gouvernement ouvert Héritage plus ou moins long du droit d'accès à l'information gouvernementale en Europe ou aux USA. Cette approche a connu un regain d'intérêt à la faveur des possibilités offertes par internet comme moyen de communication des administrations et de participation des citoyens. Cette orientation a été fortement investie par deux associations : l'Open Knowledge Foundation en Grande Bretagne (2004) et par la Sunlight Foundation (USA) en 2006. L'administration Obama a investi fortement le sujet dès 2009 à travers le programme Transparency and Open Government (TOG). De plus, lancé en septembre 2011 par 8 pays fondateurs, l’Open Government Partnership (OGP) ou "Partenariat pour le Gouvernement ouvert" est une initiative internationale, qui s’attache à promouvoir la transparence et l’intégrité des gouvernements, et l’utilisation des nouvelles technologies, en particulier d’Internet, pour faciliter cette ouverture. Le Partenariat regroupe aujourd'hui 66 pays membres, dont la France (Sommet mondial à Paris en décembre 2016). La démarche prône : un plus large accès aux informations sur les activités gouvernementales et les administrations notamment en érigeant comme norme l'Open Data public; le développement de pratiques démocratiques dont la "transparence" se présente comme pilier au même titre que la participation des citoyens (pour contrôler, superviser et prendre part aux décisions); un recours massif aux technologies d'internet. Les objectifs liés sont d'ordre politique, social et économique. http://www.opengovpartnership.org/ Intelligence Artificielle et Action publique L’intelligence artificielle "désigne moins un champ de recherches bien défini qu’un programme, fondé autour d’un objectif ambitieux : comprendre comment fonctionne la cognition humaine et la reproduire ; créer des processus cognitifs. Le champ est donc naturellement extrêmement vaste, tant en ce qui concerne les procédures techniques utilisées que les disciplines convoquées : mathématiques, informatiques, sciences cognitives… Les méthodes d’IA sont très nombreuses et diverses (ontologique, apprentissage par renforcement, apprentissage adversarial, réseaux de 15
neurones…) et ne sont pas nouvelles : beaucoup d’algorithmes utilisés aujourd’hui ont été développés il y a plusieurs dizaines d’années comparables à ceux de l’être humain. L’intelligence artificielle est entrée, depuis quelques années, dans une nouvelle ère, qui donne lieu à de nombreux espoirs. C’est en particulier dû à l’essor de l’apprentissage automatique. Rendues possibles par des algorithmes nouveaux, par la multiplication des jeux de données et le décuplement des puissances de calcul, les applications se multiplient : traduction, voiture autonome, détection de cancer,… Le développement de l’IA se fait dans un contexte technologique marqué par la « mise en données » du monde (datafication), qui touche l’ensemble des domaines et des secteurs, la robotique, la blockchain, le supercalcul et le stockage massif. Au contact de ces différentes réalités technologiques se jouera sûrement le devenir de l’intelligence artificielle." (source : Rapport Villani, 2017). Il n’y a pas une, mais une multiplicité de fins et de contingences possibles associées aux algorithmes, des types de traitements différents / Analyse sémantique, représentation symbolique, apprentissage statistique ou exploratoire, les réseaux de neurones multicouches dans le cas de « l’apprentissage profond » (ou deep learning). La prolifération des données, leur hétérogénéité (traces qualitatives et quantitatives), les moyens de traitement, relancent la question de la possibilité d’une remise en cause des modes de pilotage hérités, et peut-être, des formes de gouvernementalité (Rouvroy et Berns, 2013), sans préjuger des directions politiques qui s’imposeront, des striages socio-politiques qui arriveront à maturité. Il n’y aucune incarnation écrite à l’avance et tout cela reste fortement discuté (Etat plateforme, utilisation de l'IA dans l'action publique, libertés individuelles etc.). ABITEBOUL, S. et DOWEK, G., Le Temps des algorithmes, Paris, Le Pommier, coll. « Essais et documents », 2017; Carmès M, Les désirs algorithmiques de l'action publique, Essentiels Hermes, 2018; Carmès M, Noyer JM, Désirs de data in Traces numériques et Territoires; Presses des Mines/Paris-Tech, 2015 MOROZOV, E., Pour tout résoudre cliquez ici : l’aberration du solutionnisme technologique [To save everything, click here: Technology, solutionism, and the urge to fix problems that don’t exist], Limoges, FYP, 2014. Villani C, Donner un sens à l'intelligence artificielle, Pour une stratégie nationale et européenne, mars 2018 - Site de l'Inria : https://interstices.info/dossier/idees-recues/ Voir : Algorithme, Big Data, Datamining Inspire Norme européenne de traitement des données géographiques. Directive européenne actée en 2007 et transposée en France en 2010, qui pousse les nombreux systèmes d’information géographique d’Europe à converger vers les mêmes standards pour faciliter la circulation et l’interopérabilité des données. Son périmètre porte sur 34 thématiques. Une « passerelle Inspire » technique développée entre SIG et Open Data par l’équipe d’Etalab en 2014. (utilisation de l’API data.gouv.fr). Tout producteur de données au « format Inspire » peut donc partager ses données sur data.gouv.fr et y référencer son portail. IOT (Internet des objets) L'Internet des objets (ou IdO, en anglais Internet of Things ou IoT) représente l'extension d'Internet à des choses et à des lieux du monde physique. 16
Alors qu'Internet ne se prolonge habituellement pas au-delà du monde électronique, l'Internet des objets connectés représente les échanges d'informations et de données provenant de dispositifs présents dans le monde réel vers le réseau Internet. Considéré comme la troisième évolution de l'Internet, baptisée Web 3.0 (parfois perçu comme la généralisation du Web des objets mais aussi comme celle du Web sémantique) qui fait suite à l'ère du Web social, l'Internet des objets revêt un caractère universel pour désigner des objets connectés aux usages variés, dans le domaine de la e- santé, de la domotique ou du Quantified Self. Il fait également écho à l'échange de données entre smartphones et objets permis notamment par l'utilisation de la technologie NFC (voir ce terme dans le glossaire). L'internet des objets est en partie responsable d'un accroissement exponentiel du volume de données générées sur le réseau, à l'origine du big data. LICENCE OUVERTE Pour que les données soient ouvertes, elles doivent être accessibles, (en général, cela signifie qu’elles sont publiées en ligne) et bénéficier d’une licence ouverte permettant à quiconque d’y accéder, de les utiliser et de les partager. Sans licence, les données ne sont pas véritablement ouvertes (voir les 10 principes de l’OD selon la Sunlight Foundation). Une licence garantit à tous le droit d'utiliser, de partager et d’accéder à vos données. Pour que les données soient ouvertes, la licence doit en autoriser l’accès, l’utilisation et le partage. C’est une garantie pour l’utilisateur et le producteur : éviter le flou juridique. Elle doit s’étendre au tiers , sous-traitants cf Délégations de service public. La licence constitue également un élément de discussion avec les éditeurs de logiciel. Deux licences fréquemment utilisées par les collectivités territoriales sur leurs portails Open Data : la licence ouverte d'Etalab version 2 et l'Open Database Licence (ODBL) d'OpenDataCommons. Quand les administrations souhaitent proposer une licence pour la réutilisation gratuite de leurs informations publiques, qu’il s’agisse de données ou de logiciels, elles devront choisir celle-ci parmi les licences figurant dans le décret prévu à l’article L. 323-2 du CRPA. La publication du décret prévu par l’article L 323-2 du CRPA fait de la LO 2.0 la licence de référence pour les administrations pour la publication de données publiques, aux côtés de l’ODbL, et permet ainsi son utilisation par l’ensemble des administrations. https://www.etalab.gouv.fr/licence- ouverte-open-licence. Le Guide OKF : https://theodi.org/guides/reusers-guide-open-data-licensing http://www.europeandataportal.eu/en/licence-assistant 17
Vous pouvez aussi lire