LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Le Magazine d'AgroParisTech Alumni REGARDS SUR… LE BIG DATA EN DIRECT DE L’ÉCOLE Le Musée du Vivant, un musée qui bouge ! LA VIE DE L’ASSOCIATION Assemblée Générale AgroParisTech Alumni JUILLET 1 NUMÉRO 1 ÉCHOS DE NOS RÉSEAUX Fond Français pour www.aptalumni.org l’Alimentation et la Santé RENCONTRES Alain Loones Georges Darret Jean Bohl
Editorial Chance ou malchance, qui peut le dire ? C e conte chinois, que vous connaissez peut-être, met Néanmoins, l’encadrement de l’exploitation de ces données en perspective des événements a priori négatifs est primordial, et le législateur a du pain sur la planche… qui surviennent dans la vie du héros. Chance ou Qui mieux que les ingénieurs et scientifiques du vivant malchance ? Bien sûr, la suite de l’histoire montre que fina- peuvent accompagner les politiques ? Chance ou mal- lement c’est plutôt « chance », et qu’il ne faut pas s’inquiéter chance, l’objectivation des conséquences grâce à la science à outrance d’un changement qui bouleverse nos vies… est en tout cas un bon rempart au populisme et à la déma- Pour les personnes de ma génération, le changement est gogie, qui s’appuient sur les peurs inhérentes au manque un état quasi permanent : Internet, téléphones portables, de connaissance… CQFD ! Google, objets connectés, font leur apparition dans notre vie depuis que nous sommes nés et nous font comprendre que le changement, c’est maintenant, et que chance ou malchance il faudra bien s’y faire. « C’est ce que nous pensons déjà connaître qui nous empêche souvent d’apprendre » — Claude Bernard Ce dossier sur le big data, qui ravira nos lecteurs les plus technophiles et scientifiques, nous est cher car il montre combien notre monde change en profondeur avec la col- lecte de données, dans tous les domaines, et notamment le nôtre, celui des sciences du vivant. Etant une fervente optimiste, je vois dans l’Apple Watch, Betterise et 23andMe des opportunités de vivre mieux, plus en conscience de mon propre organisme pour adapter mon environnement ❙❙Ghislaine Challamel (E 03) et mes actes à mes aspirations. Rédactrice en Chef Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 1
Sommaire N° 12 – juillet 2015 5e Année 03 Regards sur… 28 La vie de l’Association Editeur : AgroParisTech Alumni Le Big data 28 Les actus de l’association Association des Diplômés et Anciens Élèves d’AgroParisTech 31 Vie des promos 5 quai Voltaire – 75007 Paris 19 En direct de l’École 32 Carnet Tél. : 01 42 60 25 00 Fax : 01 42 61 48 50 19 Étudiants redaction@aptalumni.org 36 Échos de nos réseaux www.aptalumni.org 36 Fonds Français pour l’Alimentation Directeur de la publication : Pierre Sabatier et la Santé Rédactrice en chef : 38 Nénufar Ghislaine Challamel Coordination du dossier : Antoine Cornuéjols Comité de rédaction : Christian Abbas, Nadia Bastide, L’équipe d’Agro contre le Paludisme 2015 Inès Boughammoura, Justine Dyon, Ludivine Faes, Maude Le Guennec, Camille Laborie, Manon Salle, Elena Sauvage, Christelle Thouvenin, Solange Van Robais Edition et Régie Publicitaire : Mazarine Partenaires Deux jeunes agros pour révolutionner 2, Square Villaret de Joyeuse 75017 Paris la méthanisation ! www.mazarine.com Directeur : 40 Rencontres Yvan Guglielmetti 40 Alain Loones Responsable de la publicité : Isabelle Cordier AgroIsraël sur la plage de Césarée 42 Georges Darret Tél. : 01 58 05 49 20 magazine-symbiose@mazarine.com 22 École Conception maquette : Laetitia Langlois Prix de vente au numéro : 8 € N° ISSN : 2115-3736 Georges Darret 44 Jean Bohl Le Musée du Vivant, un musée qui bouge ! 46 Lu, vu, entendu Nos partenaires : KINCANNON & REED • NACTIS 2
Regards sur… Le Big data « Big data » : les données comme matière première ? U n phénomène massif d’une rapi- ››La numérisation de données de toutes sortes : bases de données classiques, mais dité extrême est intervenu ces aussi textes, photos, vidéos, musiques… ce qui permet des traitements croisés sur tous dernières années : alors que 2 % les types de données. En 30 ans en effet, le coût de stockage des données numérisées des données étaient stockées sous format a été divisé par 100 000, et les capacités de calcul ont doublé approximativement tous numérique en 1982, ce sont 98 % d’entre les 18 mois selon la fameuse loi de Moore qui date de 1965 ! De plus, les capteurs de elles qui sont numérisées maintenant. tous ordres : téléphones mobiles, mais demain aussi tous nos appareils ménagers, nos Parallèlement, la croissance des données maisons, nos voitures, nos montres, nos vêtements, produisent désormais des don- produites est d’ordre exponentiel. Il est nées sous format numérique, tout en se miniaturisant à l’extrême, tandis que leur coût ainsi estimé que les données numérisées diminue de façon prodigieuse. produites par l’humanité en 2013 sont ››Le développement des réseaux, et d’Internet en particulier, là aussi à un degré tota- égales à toutes les données produites lement imprévu, permet l’échange des données et leur traitement distribué pour un avant 2010. coût extrêmement modéré. Les réseaux sociaux sont devenus une partie intégrante de Naturellement, si le terme « données » nos vies privées et professionnelles. L’échange automatique de données entre « objets recouvre des choses de qualités et de connectés » va encore accroître la numérisation du monde et la capacité de réactivité à valeurs très différentes, il n’empêche que toute nouvelle information ou donnée. l’existence de cet univers numérique en ››Le développement de nouveaux algorithmes d’analyse de données allié à des expansion très rapide change et va chan- capacités de calcul extraordinairement amplifiées et largement accessibles, par exemple ger très profondément la manière de faire grâce au « cloud ». de la science, et l’ensemble des processus Incroyablement, alors que la production de données est devenue phénoménale et de décision. qu’elle se fait bien souvent en réaction de plus en plus rapide à d’autres données, une grande partie de cette « écume numérique du monde » est stockée, ce qui ouvre des Les « données » du problème possibilités complètement nouvelles d’analyse, et provoque un débat entre droit à D’un certain côté, la révolution du « Big l’oubli et droit à l’histoire. data » s’est imposée à nous plus qu’elle Il faut bien comprendre que les technologies et approches classiques de gestion et de n’a été décidée en réponse à un problème. traitement de données ne sont plus à même de nous permettre de faire face aux « Big C’est pour cela que l’on s’interroge de data » et ses nouvelles caractéristiques. Il est ainsi devenu classique de mettre en avant toute part sur sa signification et sur les au moins quatre problèmes avec les défis qui les accompagnent : besoins qu’elle pourrait satisfaire. ››Le volume. Comme nous l’avons vu, ce volume explose. Le mégaoctet a longtemps été Le « Big data » est la résultante de trois l’unité de mesure de la taille des mémoires des ordinateurs, puis le gigaoctet a témoigné facteurs : de l’arrivée de la numérisation de l’image animée, le téraoctet (1012 octets) désigne la Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 3
Regards sur… Le Big data puissance de stockage désormais acces- de fidélité ainsi que le niveau de confiance Il est en tous les cas essentiel de bien réa- sible à chacun d’entre nous, permettant en qu’on peut leur accorder est très varié. Il liser que d’un questionnement orienté théorie de conserver l’équivalent de fonds faut donc savoir combiner les sources et et raisonné, on passe avec le « Big data » de grandes bibliothèques nationales. Le raisonner en tenant compte de ces indices à une exploration tous azimuts de cor- petaoctet (10^15 octets) correspond aux de précision, des biais éventuellement rélations ou de signaux faibles ou de masses de données entreposées dans connus ou identifiés et du niveau de tendances, pour ensuite les filtrer, les les « fermes de données », et l’exacotet confiance. recouper, et alimenter l’univers numé- (10^18 octets) est tutoyé dans certains Cette disponibilité quasi infinie de don- rique. Il n’y a plus en pratique de question domaines (physique des particules, astro- nées et les nouvelles possibilités de trai- de taille d’échantillon, et, de plus, les don- nomie). Le stade de fichiers Excel que cha- tements massifs désormais accessibles à nées ne servent plus seulement à répondre cun pouvait examiner sur son ordinateur bas prix, grâce en particulier au « cloud à une question pour laquelle elles ont été personnel est complètement dépassé. On computing », bouleversent l’approche récoltées, mais elles sont ré-utilisables à dit souvent que le « Big data » commence scientifique du monde. l’infini en fonction de nouveaux traite- quand on ne peut plus stocker les données Avant, la démarche était de réfléchir à ments que n’importe quel « data scien- concernées dans la mémoire centrale de une question, par exemple l’existence ou tist » qui en dispose peut imaginer. son ordinateur, et donc qu’il faut recourir à des traitements sophistiqués pour rendre les calculs réalisables, c’est-à-dire faisables « Cette disponibilité quasi infinie de données et en un temps raisonnable. les nouvelles possibilités de traitements massifs ››La vélocité. Les données modernes bouleversent l’approche scientifique du monde » sont maintenant produites en flux. Elles incluent les millions de tweets échan- non d’une corrélation entre deux variables Une nouvelle ère gés chaque heure, les centaines d’heures (voire entre quelques variables peu nom- scientifique s’ouvre de média déposées sur YouTube chaque breuses), d’établir avec soin un « plan À côté de ces caractérisations techniques, minute, les données communiquées d’expériences », de récolter l’échantillon un autre regard sur le « Big data » fait res- et produites par nos smartphones, les de données aussi limité et aussi propre sortir la nouvelle ère scientifique ouverte séquences de clics et de transactions que possible pour satisfaire les contraintes grâce à lui. Un découpage en quatre enregistrées sur les sites web, etc. Même de significativité statistique, et de mesu- grandes ères scientifiques et en quatre les images satellitaires de télé-détection rer la corrélation faisant l’objet de notre approches est ainsi formulé : vont maintenant être disponibles toutes attention, avant de conclure ou non à son ››Approche empirique. Elle correspon- les cinq heures pour chaque zone géogra- existence, par exemple en comparant à drait à une première étape de la démarche phique au lieu d’une fois tous les 2 mois une p-value. scientifique, qui consiste à répertorier et (cf. la mise en place du réseau de satellites Désormais, la démarche est de demander à classer les objets, êtres vivants et phé- Sentinelles par l’Europe, sans compter les aux machines de découvrir toutes les cor- nomènes naturels. micro-satellites que des start-up améri- rélations multi-variables existantes dans ››Approche théorique. Inaugurée magis- caines envoient désormais par dizaines un énorme volume de données souvent tralement par Galilée et Newton, elle est dans l’espace). Il faut donc être capable de bruitées, puis seulement ensuite, d’exa- associée à la modélisation du monde et traiter une grande partie de ces données miner ce qui peut présenter un intérêt à sa mise en équations. Cependant, elle « à la volée ». De plus la « fraicheur » des dans cette masse de liens potentiels. De trouve des limites dans son application données devient un critère qu’il importe manière alternative, on peut demander car toutes les équations, de loin s’en faut, de prendre en compte. aux machines de détecter ce qui émerge n’ont pas de solutions analytiques. ››La variété. Les données ne sont plus comme étant la norme et, à partir de ››A p p r o c h e p a r l a s i m u l a t i o n . issues de processus bien définis de là, d’identifier des « signaux faibles », Heureusement, l’informatique, apparue recueil dans un format établi, mais elles c’est-à-dire des phénomènes étranges, dans les années 1940, a offert le moyen sont désormais stockées au mieux dans hors norme, qu’il peut être intéressant de résoudre numériquement les équations des entrepôts de données, au pire dans d’examiner. et modèles mathématiques du monde, et des fichiers d’origines diverses, avec des De même, avant, on était centré sur l’ajus- d’en étendre ainsi le champ bien au-delà formats variés, impliquant possiblement tement des modèles statistiques aux don- des systèmes assez simples et simplifiés des données multi-média audio et vidéo, nées (prédire le passé), tandis que l’on de la physique du xixe siècle. Ainsi ces du texte brut ou dans des formats plus cherche à présent des capacités prédictives simulations numériques ont permis à ou moins propriétaires, des transactions par la généralisation et l’extrapolation des la physique quantique, la physique des financières, des méta-données, etc. La régularités découvertes. solides et la relativité générale de faire question de la mise en relation de tous De plus, les corrélations ainsi découvertes des prédictions vérifiables. Elles contri- ces types de données très hétérogènes peuvent à leur tour servir d’entrées pour buent aussi de manière essentielle au devient ainsi cruciale. d’autres mécanismes de « data mining », développement des sciences du vivant et ››La véracité. Les données étant issues participant ainsi à un processus d’enri- de l’environnement et, généralement, des de capteurs ou de sources humaines très chissement (ou de pollution) cumulatif sciences des systèmes complexes naturels diverses, leur degré de précision et surtout et potentiellement exponentiel. ou artificiels. 4
Le Big data ››Approche par exploration des don- nées. Finalement, nous serions entrés dans l’ère de nouvelles découvertes rendues possibles par l’exploitation des énormes masses de données acquises sur le monde grâce à toutes les nouvelles technologies du « Big data ». Il est indéniable que des champs scien- tifiques tels que la sociologie ou les sciences de l’environnement sont en pro- fonde mutation grâce au « Big data ». De même que dans des domaines plus « tra- ditionnels », tel que celui de la physique des particules, les nouvelles découvertes (e.g. boson de Higgs) seraient impossibles sans cette nouvelle capacité à traiter des données hyper-massives. Une matière première et de nouvelles opportunités Personne sans doute n’est encore capable de prédire avec précision quelles seront les applications du « Big data » et les (r)évolutions à en attendre. Très généra- lement, les possibilités suivantes, qui sont neuves, font miroiter tout un ensemble de nouvelles opportunités : des configurations de protéines, ou bien optimiser son sommeil en fonction des ››Nouvelles possibilités pour com- déchiffrer pour une numérisation ulté- événements de la journée et de l’agenda prendre le monde. La science s’appuie rieure des manuscrits écrits en vieux fran- du lendemain). Ces mêmes technologies désormais autant sur l’analyse de don- çais par exemple. Finalement, le fait que permettent aussi la mise aux enchères nées que sur la modélisation mathéma- chacun puisse a priori facilement poser en quelques micro-secondes d’espaces tique ou la simulation. Certaines sciences des questions très variées via l’analyse publicitaires à introduire dans les pages connaissent grâce au « Big data » des des données rendues publiques ou de qui s’affichent durant les recherches développements considérables : la géno- ses propres données ouvre la perspective Internet d’un utilisateur. Généralement, mique, la climatologie, la physique des de découvertes et de services inattendus. le marketing va devenir une science avec particules, l’astronomie. D’autres sont car- ››De nouvelles possibilités d’optimi- en particulier une mesure de l’impact en rément bouleversées, comme les sciences ser le fonctionnement de la société. temps réel des messages, et un suivi très humaines et la sociologie qui deviennent On parle ainsi de « villes intelligentes ». fin des comportements, dans les magasins des sciences quantitatives, grâce à l’ana- Les réseaux de transport pourront être ou sur les sites marchands. lyse des réseaux sociaux et à l’usage reconfigurés en temps réel pour répondre ››L’open data, c’est-à-dire l’accès libre et massif des Smartphones et autres objets aux mesures sur les flux de personnes, la gratuit aux données, en particulier gou- connectés (voir aussi les villes intelligentes distribution de l’énergie et les heures de vernementales et des collectivités locales, basées sur des mesures massives de com- consommation seront optimisées grâce avec l’espoir d’une démocratie participa- portement : exemple le projet Living Lab aux compteurs « Linky » intelligents et à tive et directe. à Trente en Italie). On parle désormais des mesures en temps réel de la météo. La Pour se focaliser davantage sur les sciences de « physique sociale ». La médecine se sécurité des lieux publics et privés sera de du vivant et de l’environnement, on peut renouvelle profondément grâce aux nou- même révolutionnée par la disponibilité attendre des impacts importants sur les velles possibilités d’analyse du génome, de données multi-sources : caméras de secteurs suivants : (voir par exemple : l’entreprise 23andMe surveillance, objets connectés portés par ››Les sciences de l’environnement qui qui offre des services basés sur l’analyse les individus, traces d’ADN que l’on peut vont bénéficier de la possibilité d’intégrer du génome de ses clients), et aux outils désormais détecter dans l’atmosphère et de combiner des données de capteurs du « quantified self » en particulier par d’une pièce plusieurs jours après le départ très variés, très multi-échelles (des satel- l’usage de montres connectées, etc. On de ses occupants… lites aux drones et aux capteurs dans les peut aussi mentionner le « crowd compu- ››Le développement de panoplies de tracteurs et dans les champs) et avec suivi ting » qui permet de faire appel au public, services très ciblés, individualisés par des évolutions. De fait, le changement via des interfaces et des réseaux dédiés, exemple pour une médecine personnali- climatique ne serait peut-être pas encore pour aider à résoudre des questions scien- sée, des conseils de consommation (livres, perçu, et en tous les cas ne serait pas tifiques ou autres : par exemple, étudier films…) et la vie en général (ex : comment apprécié pleinement, sans une capacité Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 5
Regards sur… Le Big data manque de recul et de réflexion, mais avec le sceau de l’objectivité de l’« algorithme ». ››Recul de la solidarité par segmentation ultrafine des usagers. C’est certainement l’une des tentations dans le domaine de l’assurance, qui va tendre à privilégier des offres hyper-segmentées en fonction du profil mesuré des clients, au détriment de la mutualisation des risques. Pour aller plus loin, il peut être intéressant de se reporter à une journée spéciale « Big data : adieu à la vie privée ? » organisée le 28 mars à la Cité des Sciences en par- tenariat avec AgroParisTech alumni. Cette journée visait à avertir les citoyens que nous sommes du phénomène du « Big data » avec ses promesses et ses risques, en particulier liés à l’usage, plus ou moins conscient et plus ou moins accepté, de nos données personnelles par tout un ensemble d’acteurs du Web. Lors de cette d’analyse multi-source et à grande échelle tirer des régularités exploitables et des journée ont été notamment abordés les des données. prédictions. C’est pourquoi, pour essayer promesses et les risques dans le domaine ››La logistique et les chaînes de distri- de comprendre l’avenir, tant d’analystes de la santé, ainsi que la réalité et les consé- bution, en particulier les chaînes d’appro- se focalisent sur les GAFA (Google, quences possibles d’une surveillance visionnement en produits frais, vont voir Amazon, Facebook et Apple) et leurs stra- généralisée. Les débats et interventions leur fonctionnement très optimisé, avec tégies, c’est-à-dire sur ces entreprises (et des spécialistes seront bientôt disponibles à la clé beaucoup moins de déchets, et d’autres) très jeunes qui ont détrôné les sur le site de la Cité des Sciences. des dates de péremption beaucoup plus acteurs traditionnels grâce à leur récolte Les défis sont d’ordre technique, mais ils précises et attachées à chaque produit unique et massive de données sur les sont surtout humains. par l’analyse de son « histoire » grâce à utilisateurs, leurs machines, leurs com- Les défis technologiques sont liés aux l’arrivée des multi-capteurs sur les pro- portements, et peuvent ainsi devenir les quatre « V » évoqués dans l’introduction : duits eux-mêmes. vrais donneurs d’ordre reléguant les autres Volume, Vélocité, Variété, Véracité. De ces ››L’agriculture se prépare également à entreprises à de la sous-traitance. quatre V, les deux premiers sont les plus une révolution. Pour donner un exemple, Bien sûr ce nouvel Eldorado annoncé exigeants en termes d’infrastructures. Il John Deere et AGCO (marques de s’accompagne de risques. faut des capacités de stockage, d’inter- machines agricoles d’occasion) ont ainsi rogation et de visualisation des données entrepris de relier les machines agricoles Les risques et les défis performantes. De même qu’il faut être entre elles, mais aussi les systèmes d’irri- Les risques concernent en premier lieu la capable de traiter de gros volumes de don- gation, des mesures sur les sols et sur les vie politique. En vrac : nées, ce qui peut impliquer de manière intrants, via éventuellement des drones, ››Risque de surveillance généralisée, routinière du swapping en mémoire cen- tout cela en plus d’informations relatives détaillée, en temps réel et à une échelle trale, le recours à des clusters de calcul ou à la météo locale à court et moyen terme planétaire. à du cloud computing. Certaines applica- et de données sur les cours de bourse ››Tentation de prédiction de compor- tions sur des flux de données demandent des produits récoltés et des matières pre- tements « déviants » avant le passage à un traitement « à la volée » qui impose ses mières, le tout afin d’optimiser les perfor- l’acte. propres contraintes, en particulier sur les mances d’une exploitation agricole dans ››Croisement illégal et illicite de données. systèmes de requêtes et sur les traitements son ensemble. ››Cycles de décision raccourcis à l’extrême, possibles. Ce tour d’horizon extrêmement rapide en raison en particulier de l’utilisation de Cependant, ce sont les défis en termes et nullement exhaustif souligne l’impor- systèmes de décision automatiques, au de compétences qui sont prééminents et tance et le large spectre des mutations détriment du temps de la réflexion et de vont conditionner l’avenir du « Big data ». attendues. Ce qui est clair c’est que l’on la consultation. La connaissance des nouveaux outils de est en train d’assister à un transfert massif ››Cacophonie sur la décision politique si stockage et de traitement des données est de pouvoir des acteurs économiques qui des experts auto-proclamés de l’analyse nécessaire, mais c’est surtout la compré- maîtrisent les techniques et les procédés de données affirment n’importe quoi et hension des problèmes liés à l’exploitation de fabrication ou de services vers ceux s’appuient sur une pseudo objectivité pour de données multi-sources, très hétéro- qui maîtrisent l’information, c’est-à-dire dicter des sentences et des ordonnances. gènes dans leurs formats et leur fiabilité, qui détiennent les données et savent en ››Découverte de corrélations stupides par et la maîtrise des techniques d’intégration 6
Le Big data Sommaire du dossier de données et de ré-expression qui vont réponse forte, raisonnée et exemplaire à p. 08 Méta-analyse : pourquoi et comment être déterminantes. De même, explorer cette demande. synthétiser des données d’origines massivement les corrélations potentielles Il est sans doute opportun de terminer diverses ? et les signaux faibles demande des experts cette section en insistant sur l’importance Par David Makowski qui savent utiliser les méthodes adéquates, du fait que, au delà des spécialistes des mais aussi, de manière tout aussi cru- données et de leur analyse, chacun, en ciale, qui sont conscients des risques de tant que citoyen, ait connaissance des découverte de régularités fortuites sans risques liés à une numérisation sociali- signification réelle et savent comment s’en sante du monde et de la vie, les com- prémunir. La recherche de « causalités » prenne, et devienne ainsi un acteur éclairé au milieu des corrélations est encore un et vigilant dans la définition des poli- problème de recherche, mais devra égale- tiques publiques sur ces questions. La ment faire bientôt partie des compétences formation des jeunes, et moins jeunes, à maîtriser pour être un expert du « Big peut et doit contribuer à cette prise de p. 11 Données massives : analyse d’images data », ce que l’on appelle maintenant conscience. de télédétection pour suivre les souvent un « data scientist ». Pour finir, Pour résumer, il est clair que le « Big data » variations de l’environnement ces spécialistes devront aussi être informés n’est pas seulement un buzzword, un Par Isabelle Mougenot et Eric Delaître de tous les aspects juridiques et éthiques, concept à la mode qui s’évanouira aussi ainsi que des problèmes de sécurité, liés vite qu’il est apparu et qui ne concerne à l’exploitation de données massives que quelques « geeks ». Il correspond comprenant souvent des données indi- à une mutation profonde de notre rap- viduelles, voire intimes. port au monde et de nos processus de décision. Ce numéro spécial dédié au « Big data » « Il est urgent de former témoigne de l’importance de la révolu- des ingénieurs aux métiers tion en cours pour notre secteur. L’article p. 14 Les nouveaux défis de la biologie liés aux big data » d’Isabelle Mougenot et Éric Delaître sur moléculaire les « données massives : analyse d’images Par Céline Lévy-Leduc Les estimations sur les besoins en spé- de télédétection pour suivre les variations et Stéphane Robin cialistes de ce type sont faramineuses, se de l’environnement » montre comment p. 16 L’Internet des objets : le big data chiffrant par exemple à plus de 100 000 en les nouvelles techniques d’observation puissance 2 arrive déjà ! France dans les 6 prochaines années et à de la Terre et de croisement de données Par Dominique Cagnon plus d’un million aux Etats-Unis. Même si multiples permettent des suivis en temps ces chiffres sont peut-être surestimés, ils réel beaucoup plus fins des agrosystèmes donnent une idée de l’urgence de former partout dans le monde, ainsi que l’ana- des ingénieurs en nombre très significatif lyse de catastrophes naturelles rapides sans techniques puissantes de stockage et sur ces métiers, ainsi sans doute que d’or- comme des inondations ou à évolution d’analyse de données. Finalement, l’ar- ganiser une formation continue adaptée. plus lente comme les sécheresses. L’article ticle de Dominique Cagnon « L’Internet Des questions urgentes se posent telles de David Makowski « Méta-analyse : pour- des Objets : un Big data puissance 2 arrive » que : Quelles devraient être les compé- quoi et comment synthétiser des données fait prendre conscience de l’émergence tences minimales d’un ingénieur sur le d’origine diverses ? » décrit la technique d’une nouvelle étape majeure dans l’ère « Big data » ? Que faut-il prévoir dans la de méta-analyse qui consiste à rassembler du « Big data », celle des objets connectés, formation de base ? Et que doit être une des sources de données multiples pour c’est-à-dire d’objets capables d’effectuer formation spécialisée ? À quel type de répondre à des questions qui peuvent en permanence un ensemble énorme de public peut-elle s’adresser ? Que peut-on aller de l’évaluation de l’effet de certains mesures sur notre environnement de vie, attendre d’une formation de trois mois, six médicaments ou de recommandations et de non seulement communiquer ces mois ou un an ? Combien de docteurs en médicales à l’estimation de la respon- données avec les utilisateurs mais aussi sciences des données va-t-il falloir former sabilité de certaines pratiques agricoles et surtout entre eux grâce à l’Internet pour irriguer les institutions publiques, les sur les émissions de gaz à effet de serre. des Objets. organismes de recherche et les entreprises L’article de Céline Lévy-Leduc et de privées sous peine d’être dépossédé de Stéphane Robin « Les nouveaux défis de la notre souveraineté sur la compréhen- biologie moléculaire » présente les révolu- sion et la maîtrise du monde ? Des initia- tions successives en cours en biologie par tives multiples, variées et désordonnées l’introduction de technologies d’analyse se mettent en place pour répondre à ce de l’activité des gènes : puces à ADN et défi de formation. AgroParisTech et les puces de nouvelle génération. Ici aussi, écoles du secteur des sciences du vivant la science qu’est la biologie ne pourrait ❙❙Antoine Cornuéjols et de l’environnement doivent offrir une connaître son développement incroyable (AgroParisTech) Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 7
Regards sur… Le Big data Méta-analyse : pourquoi et comment synthétiser des données d’origines diverses ? La méta-analyse est une méthode qui permet de synthétiser des données d’origines diverses traitant toutes d’un même sujet. Appliquée dans le domaine médical depuis longtemps, la méta-analyse est de plus en plus souvent utilisée dans les sciences agricoles et environnementales, notamment pour étudier des questions présentant un fort intérêt sociétal. Elle permet ainsi d’éclairer les débats actuels portant sur la productivité de l’agriculture biologique, l’impact environnemental des OGM, ou les risques de pollution liés aux activités agricoles. La méta-analyse est un outil puissant, mais sa mise en œuvre demande une grande rigueur. pour évaluer l’efficacité des traitements médicaux. Sa popularité vient du fait qu’elle permet d’analyser de manière objective le « poids des preuves » en faveur d’une hypothèse (par exemple qu’un traitement A soit plus efficace qu’un traitement B pour traiter une maladie don- née) et qu’elle augmente la puissance des tests statistiques (et donc les chances de découvrir l’existence d’un effet). Le principe de la méta-analyse est d’analyser l’ensemble des études indi- viduelles réalisées sur un sujet donné. Chaque étude individuelle produit une estimation d’une quantité d’intérêt (ex : le niveau d’efficacité d’un traitement) et un intervalle de confiance décrivant l’incertitude associée à cette estimation (Figure 1). La méta-analyse combine ces estimations individuelles et produit une Augmenter le poids méta-analyse est apparue au cours de la estimation moyenne ainsi qu’un intervalle des preuves en synthétisant Seconde guerre mondiale pour traiter de de confiance décrivant l’incertitude asso- des données questions liées à l’efficacité de certains ciée à cette estimation moyenne (Figure 1). L’objectif de la méta-analyse est d’analy- traitements médicaux mais aussi pour Cette estimation moyenne synthétise ser des données provenant de différentes optimiser certaines pratiques agricoles l’ensemble de données disponibles à tra- études, réalisées dans différentes condi- telles que la fertilisation des cultures et vers une valeur unique. Les estimations tions mais traitant d’un sujet commun. Les les rations alimentaires des animaux individuelles ont, elles aussi, un intérêt : données doivent présenter suffisamment d’élevage. elles décrivent la variabilité inter-études de similarités pour pouvoir être analy- Au cours des années 90, la méta-analyse de la quantité d’intérêt. Cette variabilité sées avec des méthodes statistiques. La est devenue une méthode de référence est due à l’hétérogénéité des conditions 8
Le Big data expérimentales dans lesquelles les études Etape Objectif Outils informatiques utilisés individuelles ont été réalisées, ainsi qu’aux Définition de l’objectif de la › Définir la quantité qui doit être erreurs de mesure. méta-analyse estimée › Définir la population Les principales étapes Revue systématique de la Récupérer les documents ›O utils de recherche de la méta-analyse littérature scientifique susceptibles d’inclure des bibliographique La réalisation d’une méta-analyse passe données pertinentes ›O utils de veille scientifique par plusieurs étapes résumées dans le Sélection des documents et Créer une base de données ›O utils d’extraction de données tableau 1. La première étape consiste à extraction des données incluant les résultats des études ›O utils de gestion de bases de définir l’objectif de la méta-analyse, c’est- pertinentes données à-dire la quantité que l’on cherche à esti- Analyse statistique Estimation de la quantité Logiciel d’analyse statistique mer et la population pour laquelle on veut d’intérêt et analyse d’incertitude réaliser cette estimation. Cette quantité Evaluation des limites de la › Déterminer s’il existe des biais Logiciel d’analyse statistique peut représenter un ratio de rendement méta-analyse importants dans l’estimation (par exemple, le rendement d’un système › Identifier des études influentes bio divisé par le rendement d’un système Tableau 1. Principales étapes d’une méta-analyse conventionnel), un paramètre quantifiant l’effet d’une variable sur une autre (par exemple, l’effet d’une dose d’engrais sur les émissions de gaz à effet de serre) ou Référence Objectif Nombre d’études Principaux résultats toute autre quantité présentant un inté- Seufert et al. (2012) Estimer la perte de 66 études Perte moyenne de rêt particulier. La population représente rendement moyenne rendement de 25 % (+-4 %) Ponisio et al. (2015) induite par le passage de 115 études Perte moyenne de l’ensemble des situations pour laquelle on l’agriculture conventionnelle souhaite estimer la quantité d’intérêt (par rendement de 19.2 % (+- 7 %) à l’agriculture biologique exemple, les parcelles de blé européennes). Récupérer les documents La deuxième étape consiste à réaliser une susceptibles d’inclure des revue systématique de la littérature dans données pertinentes le but de récupérer les études incluant des Marvier et al. (2007) Effet des cultures OGM 42 études Les invertébrés sont plus données permettant d’estimer la quantité (maïs et coton Bt) sur les abondants dans les cultures définie à l’étape 1. Cette étape doit être invertébrés non cibles OGM que dans les non OGM traités réalisée en utilisant des outils informa- tiques de revue bibliographique et/ou de Wilcox et Makowski Effet du changement 90 études Une augmentation de la (2014) climatique sur le rendement concentration en CO2 de veille scientifique. Les documents récupé- du blé l’atmosphère (>640 ppm) rés au cours de cette étape peuvent être compense en moyenne éventuellement complétés par des articles l’effet négatif d’une fournis directement par des experts du augmentation de 2 °C de domaine. la température et d’une diminution de 20 % des L’objectif de la troisième étape est de précipitations. trier les documents récupérés à l’étape 2 Philibert et al. (2012) Estimation des émissions 203 études La quantité de N2O émise puis d’extraire les données des documents de N2O (gaz à effet de serre) est inférieure à 1 % de sélectionnés. Il s’agit ici de ne garder que induites par la fertilisation la dose d’engrais azoté les documents répondant à certains cri- azotée appliquée si cette dose est tères (protocoles expérimentaux de bonne inférieure à 160 kg N ha-1, et supérieure à 1 % sinon. Tableau 2. Exemples de résultats obtenus dans des méta-analyses agronomiques qualité, disponibilité des données etc.), Une fois la base de données créée, l’étape d’extraire les données des tableaux et/ suivante consiste à réaliser une analyse ou figures présentés dans ces documents, statistique des données disponibles dans puis d’archiver ces données dans une le but de décrire la variabilité inter-études base de données adaptée. Certains outils des estimations individuelles, d’estimer la informatiques peuvent faciliter l’extrac- valeur moyenne de la quantité d’intérêt tion des données mais cette étape n’est et d’analyser les incertitudes associées. Figure 1. Synthèse de données issues généralement pas complètement auto- La dernière étape consiste à exercer d’études expérimentales individuelles. matisable. En pratique, la sélection et un regard critique sur le travail réalisé, Chaque étude produit une estimation d’une l’extraction des données prennent ainsi en détectant l’existence éventuelle d’un quantité d’intérêt. La méta-analyse permet de synthétiser les estimations individuelles généralement plusieurs semaines, voire biais (qui peut résulter du fait que seule pour obtenir une estimation globale. plusieurs mois. une partie des études réalisées ait été Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 9
Regards sur… Le Big data récupérée) et en analysant la sensibilité nombre d’études plus grand (tableau 2). L’application de méthodes statistiques des résultats aux études individuelles. Cette nouvelle méta-analyse (basée sur non adaptées peut également diminuer la 115 études) a conduit à une révision à la fiabilité des conclusions, par exemple en Un rôle croissant dans les baisse des pertes de rendements agricoles calculant des intervalles de confiance trop sciences agronomiques induites par le passage de systèmes agri- étroits et en donnant ainsi une vision trop et environnementales coles conventionnels à des systèmes bio- optimiste de la précision des estimations. Depuis une dizaine d’années, la méta-ana- logiques (19.2 % contre une estimation Il est important d’assurer un niveau de lyse est de plus en plus souvent utilisée initiale de 25 % de perte de rendement formation suffisant des personnes réa- dans les sciences agronomiques et environ- moyenne). Les autres méta-analyses briè- lisant des méta-analyses. Ces dernières nementales. Il existe en effet une demande vement décrites dans le tableau 2 illustrent doivent en effet être compétentes à la croissante pour des synthèses scientifiques la diversité des sujets abordés avec cette fois dans leur domaine d’application mais quantitatives, non seulement de la part de approche : impact environnemental des aussi en analyse de données. communautés scientifiques mais aussi de OGM, effet du changement climatique, Il est également souhaitable que les résul- la part de groupes associatifs, d’entreprises émission de gaz à effet de serre. tats des méta-analyses soient mis à dispo- et d’institutions internationales. Quelques sition d’un public aussi large que possible. exemples de méta-analyses réalisées Le dépôt des bases de données sur des récemment en agronomie sont présentés « Les résultats des méta sites accessibles à tous est une pratique dans le tableau 2 à titre d’illustrations. analyses devraient être qui doit être encouragée pour, d’une part, Un des atouts de la méta-analyse est partagés pour faciliter assurer un niveau élevé de transparence qu’elle permet de synthétiser un ensemble la réutilisation et la et, d’autre part, faciliter la réutilisation et important d’études réalisées sur certains réanalyse des données » la ré-analyse de données collectées par sujets controversés et qu’elle fournit une des communautés scientifiques larges sur vision plus large et plus objective de l’état Les défis des sujets présentant un intérêt sociétal des connaissances disponibles à une date La popularité croissante de la méta-analyse important. donnée. Parfois, plusieurs méta-analyses ne doit pas faire oublier que son utilisa- ❙❙David Makowski (PG 93) sont réalisées sur un même sujet à quelques tion reste délicate. Pour que les résultats années d’intervalles de manière à prendre soient fiables, il est nécessaire de récupérer Des informations détaillées sur la en compte les études produites au cours les études individuelles en adoptant une méta-analyse, des exemples récents des années les plus récentes. C’est le cas, démarche systématique et transparente. de méta-analyses et des exemples de par exemple, des méta-analyses réalisées Il existe en effet un risque important de bases de données agronomiques sont sur l’agriculture biologique. Sur ce sujet, biaiser les conclusions en récupérant un disponibles sur le site suivant : une méta-analyse a été réalisée en 2012 à groupe d’études qui ne soit pas représen- www6.versailles-grignon.inra.fr/ partir de 66 études puis, en 2015, une autre tatif de l’ensemble des études réalisées sur agronomie/Meta-analysis-in-agronomy méta-analyse a été réalisée à partir d’un un sujet donné. 10
Le Big data Données massives : analyse d’images de télédétection pour suivre les variations de l’environnement Les capteurs sont aujourd’hui omniprésents dans notre scientifiques permettent d’envisager des approches dites bottom-up ou inductives quotidien et fournissent en continu des données qui dans lesquelles les analyses sont menées modifient nos habitudes. La difficulté ne porte pas sur directement depuis les données massives et font apparaître de nouvelles informa- l’acquisition des données mais bien sur leur gestion, leur tions et connaissances jusqu’alors demeu- exploitation et leur pérennisation et c’est bien là tout le rées cachées. paradoxe. Observation de la Terre L’observation de la Terre permet en par- ticulier de modéliser et d’étudier les pro- cessus qui se nouent à la surface de la Terre en interaction avec l’atmosphère. Depuis plus de 40 ans maintenant, la Terre est continuellement contrôlée par des capteurs imageurs optiques et radars embarqués au sein de satellites en per- pétuelle gravitation. Les images obtenues sont ensuite traitées de manière à fournir de l’information prête à l’emploi pour de nombreuses problématiques dans les sciences de l’environnement. Les tech- niques développées pour la télédétec- tion sont maintenant matures et peuvent Figure 1. Compositions colorées faisant ressortir la saisonnalité de la végétation en rouge répondre à diverses demandes concernant par exemple la détection de feux de forêt, L es besoins, en matière d’accès, de œuvré pour la mise sur le marché de la prévention d’inondations ou bien la diffusion et d’utilisation de l’infor- tels systèmes sont des sociétés comme supervision de la tâche artificialisée dans mation, en particulier sur le web, Google, Apache, Amazon ou Twitter qui un contexte de développement durable. ont fait évoluer les manières d’envisager sont partie prenante dans l’évolution du Ces techniques mettent fréquemment la gestion des données. De nouvelles solu- web. Google propose le système NOSQL en œuvre de l’apprentissage automatique tions de gestion de données, nommées « Google BigTable » pour une gestion et de manière à étiqueter les données issues NOSQL, pour Not Only SQL, vont facili- une mise à disposition efficace de gros des images et à leur attribuer une classe ter la gestion de gros volumes de données volumes de données distribuées. Apache d’appartenance, souvent dans le but de distribuées destinés à satisfaire les besoins a défini de son côté le framework Hadoop produire une carte d’occupation du sol. en information de larges communautés pour traiter à la volée de gros volumes de Les classes eau, sol nu ou végétation sont d’usagers. Ces systèmes sont complémen- données partitionnés et ainsi répondre à des exemples de classes d’occupation du taires des systèmes de gestion de don- des problématiques dites de « big data », sol très générales. nées relationnels classiques et sont conçus en matière d’analyse et de valorisation de pour fournir des réponses adaptées dans données massives. Nous nous intéressons Etudier les périmètres irrigués des contextes de très forte sollicitation aux sciences de l’environnement et en des agrosystèmes oasiens de grandes masses de données, poten- particulier aux données issues de l’obser- Les capteurs optiques fournissent des tiellement incomplètes et hétérogènes. vation de la Terre. Les avancées techno- informations spectrales, spatiales et Les principaux acteurs ayant largement logiques pour la production de données temporelles particulièrement riches et Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 11
Vous pouvez aussi lire