LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Le Magazine d'AgroParisTech Alumni
REGARDS SUR…
LE BIG DATA
EN DIRECT DE L’ÉCOLE
Le Musée du Vivant,
un musée qui bouge !
LA VIE DE L’ASSOCIATION
Assemblée Générale
AgroParisTech Alumni
JUILLET 1 NUMÉRO 1
ÉCHOS DE NOS RÉSEAUX
Fond Français pour
www.aptalumni.org
l’Alimentation
et la Santé
RENCONTRES
Alain Loones
Georges Darret
Jean BohlEditorial
Chance ou malchance,
qui peut le dire ?
C
e conte chinois, que vous connaissez peut-être, met Néanmoins, l’encadrement de l’exploitation de ces données
en perspective des événements a priori négatifs est primordial, et le législateur a du pain sur la planche…
qui surviennent dans la vie du héros. Chance ou Qui mieux que les ingénieurs et scientifiques du vivant
malchance ? Bien sûr, la suite de l’histoire montre que fina- peuvent accompagner les politiques ? Chance ou mal-
lement c’est plutôt « chance », et qu’il ne faut pas s’inquiéter chance, l’objectivation des conséquences grâce à la science
à outrance d’un changement qui bouleverse nos vies… est en tout cas un bon rempart au populisme et à la déma-
Pour les personnes de ma génération, le changement est gogie, qui s’appuient sur les peurs inhérentes au manque
un état quasi permanent : Internet, téléphones portables, de connaissance… CQFD !
Google, objets connectés, font leur apparition dans notre
vie depuis que nous sommes nés et nous font comprendre
que le changement, c’est maintenant, et que chance ou
malchance il faudra bien s’y faire.
« C’est ce que nous pensons déjà
connaître qui nous empêche souvent
d’apprendre » — Claude Bernard
Ce dossier sur le big data, qui ravira nos lecteurs les plus
technophiles et scientifiques, nous est cher car il montre
combien notre monde change en profondeur avec la col-
lecte de données, dans tous les domaines, et notamment
le nôtre, celui des sciences du vivant. Etant une fervente
optimiste, je vois dans l’Apple Watch, Betterise et 23andMe
des opportunités de vivre mieux, plus en conscience de
mon propre organisme pour adapter mon environnement ❙❙Ghislaine Challamel (E 03)
et mes actes à mes aspirations. Rédactrice en Chef
Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 1Sommaire
N° 12 – juillet 2015
5e Année
03 Regards sur… 28 La vie de l’Association Editeur :
AgroParisTech Alumni
Le Big data 28 Les actus de l’association Association des Diplômés et
Anciens Élèves d’AgroParisTech
31 Vie des promos 5 quai Voltaire – 75007 Paris
19 En direct de l’École 32 Carnet Tél. : 01 42 60 25 00
Fax : 01 42 61 48 50
19 Étudiants redaction@aptalumni.org
36 Échos de nos réseaux www.aptalumni.org
36 Fonds Français pour l’Alimentation Directeur de la publication :
Pierre Sabatier
et la Santé
Rédactrice en chef :
38 Nénufar Ghislaine Challamel
Coordination du dossier :
Antoine Cornuéjols
Comité de rédaction :
Christian Abbas, Nadia Bastide,
L’équipe d’Agro contre le Paludisme 2015 Inès Boughammoura, Justine
Dyon, Ludivine Faes, Maude Le
Guennec, Camille Laborie, Manon
Salle, Elena Sauvage, Christelle
Thouvenin, Solange Van Robais
Edition et Régie Publicitaire :
Mazarine Partenaires
Deux jeunes agros pour révolutionner 2, Square Villaret de Joyeuse
75017 Paris
la méthanisation ! www.mazarine.com
Directeur :
40 Rencontres Yvan Guglielmetti
40 Alain Loones Responsable de la publicité :
Isabelle Cordier
AgroIsraël sur la plage de Césarée 42 Georges Darret Tél. : 01 58 05 49 20
magazine-symbiose@mazarine.com
22 École Conception maquette :
Laetitia Langlois
Prix de vente au numéro : 8 €
N° ISSN : 2115-3736
Georges Darret
44 Jean Bohl
Le Musée du Vivant, un musée qui bouge ! 46 Lu, vu, entendu Nos partenaires :
KINCANNON & REED • NACTIS
2Regards sur…
Le Big data
« Big data » :
les données comme
matière première ?
U
n phénomène massif d’une rapi- ››La numérisation de données de toutes sortes : bases de données classiques, mais
dité extrême est intervenu ces aussi textes, photos, vidéos, musiques… ce qui permet des traitements croisés sur tous
dernières années : alors que 2 % les types de données. En 30 ans en effet, le coût de stockage des données numérisées
des données étaient stockées sous format a été divisé par 100 000, et les capacités de calcul ont doublé approximativement tous
numérique en 1982, ce sont 98 % d’entre les 18 mois selon la fameuse loi de Moore qui date de 1965 ! De plus, les capteurs de
elles qui sont numérisées maintenant. tous ordres : téléphones mobiles, mais demain aussi tous nos appareils ménagers, nos
Parallèlement, la croissance des données maisons, nos voitures, nos montres, nos vêtements, produisent désormais des don-
produites est d’ordre exponentiel. Il est nées sous format numérique, tout en se miniaturisant à l’extrême, tandis que leur coût
ainsi estimé que les données numérisées diminue de façon prodigieuse.
produites par l’humanité en 2013 sont ››Le développement des réseaux, et d’Internet en particulier, là aussi à un degré tota-
égales à toutes les données produites lement imprévu, permet l’échange des données et leur traitement distribué pour un
avant 2010. coût extrêmement modéré. Les réseaux sociaux sont devenus une partie intégrante de
Naturellement, si le terme « données » nos vies privées et professionnelles. L’échange automatique de données entre « objets
recouvre des choses de qualités et de connectés » va encore accroître la numérisation du monde et la capacité de réactivité à
valeurs très différentes, il n’empêche que toute nouvelle information ou donnée.
l’existence de cet univers numérique en ››Le développement de nouveaux algorithmes d’analyse de données allié à des
expansion très rapide change et va chan- capacités de calcul extraordinairement amplifiées et largement accessibles, par exemple
ger très profondément la manière de faire grâce au « cloud ».
de la science, et l’ensemble des processus Incroyablement, alors que la production de données est devenue phénoménale et
de décision. qu’elle se fait bien souvent en réaction de plus en plus rapide à d’autres données, une
grande partie de cette « écume numérique du monde » est stockée, ce qui ouvre des
Les « données » du problème possibilités complètement nouvelles d’analyse, et provoque un débat entre droit à
D’un certain côté, la révolution du « Big l’oubli et droit à l’histoire.
data » s’est imposée à nous plus qu’elle Il faut bien comprendre que les technologies et approches classiques de gestion et de
n’a été décidée en réponse à un problème. traitement de données ne sont plus à même de nous permettre de faire face aux « Big
C’est pour cela que l’on s’interroge de data » et ses nouvelles caractéristiques. Il est ainsi devenu classique de mettre en avant
toute part sur sa signification et sur les au moins quatre problèmes avec les défis qui les accompagnent :
besoins qu’elle pourrait satisfaire. ››Le volume. Comme nous l’avons vu, ce volume explose. Le mégaoctet a longtemps été
Le « Big data » est la résultante de trois l’unité de mesure de la taille des mémoires des ordinateurs, puis le gigaoctet a témoigné
facteurs : de l’arrivée de la numérisation de l’image animée, le téraoctet (1012 octets) désigne la
Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 3Regards sur… Le Big data puissance de stockage désormais acces- de fidélité ainsi que le niveau de confiance Il est en tous les cas essentiel de bien réa- sible à chacun d’entre nous, permettant en qu’on peut leur accorder est très varié. Il liser que d’un questionnement orienté théorie de conserver l’équivalent de fonds faut donc savoir combiner les sources et et raisonné, on passe avec le « Big data » de grandes bibliothèques nationales. Le raisonner en tenant compte de ces indices à une exploration tous azimuts de cor- petaoctet (10^15 octets) correspond aux de précision, des biais éventuellement rélations ou de signaux faibles ou de masses de données entreposées dans connus ou identifiés et du niveau de tendances, pour ensuite les filtrer, les les « fermes de données », et l’exacotet confiance. recouper, et alimenter l’univers numé- (10^18 octets) est tutoyé dans certains Cette disponibilité quasi infinie de don- rique. Il n’y a plus en pratique de question domaines (physique des particules, astro- nées et les nouvelles possibilités de trai- de taille d’échantillon, et, de plus, les don- nomie). Le stade de fichiers Excel que cha- tements massifs désormais accessibles à nées ne servent plus seulement à répondre cun pouvait examiner sur son ordinateur bas prix, grâce en particulier au « cloud à une question pour laquelle elles ont été personnel est complètement dépassé. On computing », bouleversent l’approche récoltées, mais elles sont ré-utilisables à dit souvent que le « Big data » commence scientifique du monde. l’infini en fonction de nouveaux traite- quand on ne peut plus stocker les données Avant, la démarche était de réfléchir à ments que n’importe quel « data scien- concernées dans la mémoire centrale de une question, par exemple l’existence ou tist » qui en dispose peut imaginer. son ordinateur, et donc qu’il faut recourir à des traitements sophistiqués pour rendre les calculs réalisables, c’est-à-dire faisables « Cette disponibilité quasi infinie de données et en un temps raisonnable. les nouvelles possibilités de traitements massifs ››La vélocité. Les données modernes bouleversent l’approche scientifique du monde » sont maintenant produites en flux. Elles incluent les millions de tweets échan- non d’une corrélation entre deux variables Une nouvelle ère gés chaque heure, les centaines d’heures (voire entre quelques variables peu nom- scientifique s’ouvre de média déposées sur YouTube chaque breuses), d’établir avec soin un « plan À côté de ces caractérisations techniques, minute, les données communiquées d’expériences », de récolter l’échantillon un autre regard sur le « Big data » fait res- et produites par nos smartphones, les de données aussi limité et aussi propre sortir la nouvelle ère scientifique ouverte séquences de clics et de transactions que possible pour satisfaire les contraintes grâce à lui. Un découpage en quatre enregistrées sur les sites web, etc. Même de significativité statistique, et de mesu- grandes ères scientifiques et en quatre les images satellitaires de télé-détection rer la corrélation faisant l’objet de notre approches est ainsi formulé : vont maintenant être disponibles toutes attention, avant de conclure ou non à son ››Approche empirique. Elle correspon- les cinq heures pour chaque zone géogra- existence, par exemple en comparant à drait à une première étape de la démarche phique au lieu d’une fois tous les 2 mois une p-value. scientifique, qui consiste à répertorier et (cf. la mise en place du réseau de satellites Désormais, la démarche est de demander à classer les objets, êtres vivants et phé- Sentinelles par l’Europe, sans compter les aux machines de découvrir toutes les cor- nomènes naturels. micro-satellites que des start-up améri- rélations multi-variables existantes dans ››Approche théorique. Inaugurée magis- caines envoient désormais par dizaines un énorme volume de données souvent tralement par Galilée et Newton, elle est dans l’espace). Il faut donc être capable de bruitées, puis seulement ensuite, d’exa- associée à la modélisation du monde et traiter une grande partie de ces données miner ce qui peut présenter un intérêt à sa mise en équations. Cependant, elle « à la volée ». De plus la « fraicheur » des dans cette masse de liens potentiels. De trouve des limites dans son application données devient un critère qu’il importe manière alternative, on peut demander car toutes les équations, de loin s’en faut, de prendre en compte. aux machines de détecter ce qui émerge n’ont pas de solutions analytiques. ››La variété. Les données ne sont plus comme étant la norme et, à partir de ››A p p r o c h e p a r l a s i m u l a t i o n . issues de processus bien définis de là, d’identifier des « signaux faibles », Heureusement, l’informatique, apparue recueil dans un format établi, mais elles c’est-à-dire des phénomènes étranges, dans les années 1940, a offert le moyen sont désormais stockées au mieux dans hors norme, qu’il peut être intéressant de résoudre numériquement les équations des entrepôts de données, au pire dans d’examiner. et modèles mathématiques du monde, et des fichiers d’origines diverses, avec des De même, avant, on était centré sur l’ajus- d’en étendre ainsi le champ bien au-delà formats variés, impliquant possiblement tement des modèles statistiques aux don- des systèmes assez simples et simplifiés des données multi-média audio et vidéo, nées (prédire le passé), tandis que l’on de la physique du xixe siècle. Ainsi ces du texte brut ou dans des formats plus cherche à présent des capacités prédictives simulations numériques ont permis à ou moins propriétaires, des transactions par la généralisation et l’extrapolation des la physique quantique, la physique des financières, des méta-données, etc. La régularités découvertes. solides et la relativité générale de faire question de la mise en relation de tous De plus, les corrélations ainsi découvertes des prédictions vérifiables. Elles contri- ces types de données très hétérogènes peuvent à leur tour servir d’entrées pour buent aussi de manière essentielle au devient ainsi cruciale. d’autres mécanismes de « data mining », développement des sciences du vivant et ››La véracité. Les données étant issues participant ainsi à un processus d’enri- de l’environnement et, généralement, des de capteurs ou de sources humaines très chissement (ou de pollution) cumulatif sciences des systèmes complexes naturels diverses, leur degré de précision et surtout et potentiellement exponentiel. ou artificiels. 4
Le Big data
››Approche par exploration des don-
nées. Finalement, nous serions entrés
dans l’ère de nouvelles découvertes
rendues possibles par l’exploitation des
énormes masses de données acquises
sur le monde grâce à toutes les nouvelles
technologies du « Big data ».
Il est indéniable que des champs scien-
tifiques tels que la sociologie ou les
sciences de l’environnement sont en pro-
fonde mutation grâce au « Big data ». De
même que dans des domaines plus « tra-
ditionnels », tel que celui de la physique
des particules, les nouvelles découvertes
(e.g. boson de Higgs) seraient impossibles
sans cette nouvelle capacité à traiter des
données hyper-massives.
Une matière première et de
nouvelles opportunités
Personne sans doute n’est encore capable
de prédire avec précision quelles seront
les applications du « Big data » et les
(r)évolutions à en attendre. Très généra-
lement, les possibilités suivantes, qui sont
neuves, font miroiter tout un ensemble de
nouvelles opportunités : des configurations de protéines, ou bien optimiser son sommeil en fonction des
››Nouvelles possibilités pour com- déchiffrer pour une numérisation ulté- événements de la journée et de l’agenda
prendre le monde. La science s’appuie rieure des manuscrits écrits en vieux fran- du lendemain). Ces mêmes technologies
désormais autant sur l’analyse de don- çais par exemple. Finalement, le fait que permettent aussi la mise aux enchères
nées que sur la modélisation mathéma- chacun puisse a priori facilement poser en quelques micro-secondes d’espaces
tique ou la simulation. Certaines sciences des questions très variées via l’analyse publicitaires à introduire dans les pages
connaissent grâce au « Big data » des des données rendues publiques ou de qui s’affichent durant les recherches
développements considérables : la géno- ses propres données ouvre la perspective Internet d’un utilisateur. Généralement,
mique, la climatologie, la physique des de découvertes et de services inattendus. le marketing va devenir une science avec
particules, l’astronomie. D’autres sont car- ››De nouvelles possibilités d’optimi- en particulier une mesure de l’impact en
rément bouleversées, comme les sciences ser le fonctionnement de la société. temps réel des messages, et un suivi très
humaines et la sociologie qui deviennent On parle ainsi de « villes intelligentes ». fin des comportements, dans les magasins
des sciences quantitatives, grâce à l’ana- Les réseaux de transport pourront être ou sur les sites marchands.
lyse des réseaux sociaux et à l’usage reconfigurés en temps réel pour répondre ››L’open data, c’est-à-dire l’accès libre et
massif des Smartphones et autres objets aux mesures sur les flux de personnes, la gratuit aux données, en particulier gou-
connectés (voir aussi les villes intelligentes distribution de l’énergie et les heures de vernementales et des collectivités locales,
basées sur des mesures massives de com- consommation seront optimisées grâce avec l’espoir d’une démocratie participa-
portement : exemple le projet Living Lab aux compteurs « Linky » intelligents et à tive et directe.
à Trente en Italie). On parle désormais des mesures en temps réel de la météo. La Pour se focaliser davantage sur les sciences
de « physique sociale ». La médecine se sécurité des lieux publics et privés sera de du vivant et de l’environnement, on peut
renouvelle profondément grâce aux nou- même révolutionnée par la disponibilité attendre des impacts importants sur les
velles possibilités d’analyse du génome, de données multi-sources : caméras de secteurs suivants :
(voir par exemple : l’entreprise 23andMe surveillance, objets connectés portés par ››Les sciences de l’environnement qui
qui offre des services basés sur l’analyse les individus, traces d’ADN que l’on peut vont bénéficier de la possibilité d’intégrer
du génome de ses clients), et aux outils désormais détecter dans l’atmosphère et de combiner des données de capteurs
du « quantified self » en particulier par d’une pièce plusieurs jours après le départ très variés, très multi-échelles (des satel-
l’usage de montres connectées, etc. On de ses occupants… lites aux drones et aux capteurs dans les
peut aussi mentionner le « crowd compu- ››Le développement de panoplies de tracteurs et dans les champs) et avec suivi
ting » qui permet de faire appel au public, services très ciblés, individualisés par des évolutions. De fait, le changement
via des interfaces et des réseaux dédiés, exemple pour une médecine personnali- climatique ne serait peut-être pas encore
pour aider à résoudre des questions scien- sée, des conseils de consommation (livres, perçu, et en tous les cas ne serait pas
tifiques ou autres : par exemple, étudier films…) et la vie en général (ex : comment apprécié pleinement, sans une capacité
Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 5Regards sur…
Le Big data
manque de recul et de réflexion, mais avec
le sceau de l’objectivité de l’« algorithme ».
››Recul de la solidarité par segmentation
ultrafine des usagers. C’est certainement
l’une des tentations dans le domaine de
l’assurance, qui va tendre à privilégier des
offres hyper-segmentées en fonction du
profil mesuré des clients, au détriment de
la mutualisation des risques.
Pour aller plus loin, il peut être intéressant
de se reporter à une journée spéciale « Big
data : adieu à la vie privée ? » organisée
le 28 mars à la Cité des Sciences en par-
tenariat avec AgroParisTech alumni. Cette
journée visait à avertir les citoyens que
nous sommes du phénomène du « Big
data » avec ses promesses et ses risques,
en particulier liés à l’usage, plus ou moins
conscient et plus ou moins accepté, de
nos données personnelles par tout un
ensemble d’acteurs du Web. Lors de cette
d’analyse multi-source et à grande échelle tirer des régularités exploitables et des journée ont été notamment abordés les
des données. prédictions. C’est pourquoi, pour essayer promesses et les risques dans le domaine
››La logistique et les chaînes de distri- de comprendre l’avenir, tant d’analystes de la santé, ainsi que la réalité et les consé-
bution, en particulier les chaînes d’appro- se focalisent sur les GAFA (Google, quences possibles d’une surveillance
visionnement en produits frais, vont voir Amazon, Facebook et Apple) et leurs stra- généralisée. Les débats et interventions
leur fonctionnement très optimisé, avec tégies, c’est-à-dire sur ces entreprises (et des spécialistes seront bientôt disponibles
à la clé beaucoup moins de déchets, et d’autres) très jeunes qui ont détrôné les sur le site de la Cité des Sciences.
des dates de péremption beaucoup plus acteurs traditionnels grâce à leur récolte Les défis sont d’ordre technique, mais ils
précises et attachées à chaque produit unique et massive de données sur les sont surtout humains.
par l’analyse de son « histoire » grâce à utilisateurs, leurs machines, leurs com- Les défis technologiques sont liés aux
l’arrivée des multi-capteurs sur les pro- portements, et peuvent ainsi devenir les quatre « V » évoqués dans l’introduction :
duits eux-mêmes. vrais donneurs d’ordre reléguant les autres Volume, Vélocité, Variété, Véracité. De ces
››L’agriculture se prépare également à entreprises à de la sous-traitance. quatre V, les deux premiers sont les plus
une révolution. Pour donner un exemple, Bien sûr ce nouvel Eldorado annoncé exigeants en termes d’infrastructures. Il
John Deere et AGCO (marques de s’accompagne de risques. faut des capacités de stockage, d’inter-
machines agricoles d’occasion) ont ainsi rogation et de visualisation des données
entrepris de relier les machines agricoles Les risques et les défis performantes. De même qu’il faut être
entre elles, mais aussi les systèmes d’irri- Les risques concernent en premier lieu la capable de traiter de gros volumes de don-
gation, des mesures sur les sols et sur les vie politique. En vrac : nées, ce qui peut impliquer de manière
intrants, via éventuellement des drones, ››Risque de surveillance généralisée, routinière du swapping en mémoire cen-
tout cela en plus d’informations relatives détaillée, en temps réel et à une échelle trale, le recours à des clusters de calcul ou
à la météo locale à court et moyen terme planétaire. à du cloud computing. Certaines applica-
et de données sur les cours de bourse ››Tentation de prédiction de compor- tions sur des flux de données demandent
des produits récoltés et des matières pre- tements « déviants » avant le passage à un traitement « à la volée » qui impose ses
mières, le tout afin d’optimiser les perfor- l’acte. propres contraintes, en particulier sur les
mances d’une exploitation agricole dans ››Croisement illégal et illicite de données. systèmes de requêtes et sur les traitements
son ensemble. ››Cycles de décision raccourcis à l’extrême, possibles.
Ce tour d’horizon extrêmement rapide en raison en particulier de l’utilisation de Cependant, ce sont les défis en termes
et nullement exhaustif souligne l’impor- systèmes de décision automatiques, au de compétences qui sont prééminents et
tance et le large spectre des mutations détriment du temps de la réflexion et de vont conditionner l’avenir du « Big data ».
attendues. Ce qui est clair c’est que l’on la consultation. La connaissance des nouveaux outils de
est en train d’assister à un transfert massif ››Cacophonie sur la décision politique si stockage et de traitement des données est
de pouvoir des acteurs économiques qui des experts auto-proclamés de l’analyse nécessaire, mais c’est surtout la compré-
maîtrisent les techniques et les procédés de données affirment n’importe quoi et hension des problèmes liés à l’exploitation
de fabrication ou de services vers ceux s’appuient sur une pseudo objectivité pour de données multi-sources, très hétéro-
qui maîtrisent l’information, c’est-à-dire dicter des sentences et des ordonnances. gènes dans leurs formats et leur fiabilité,
qui détiennent les données et savent en ››Découverte de corrélations stupides par et la maîtrise des techniques d’intégration
6Le Big data
Sommaire du dossier
de données et de ré-expression qui vont réponse forte, raisonnée et exemplaire à p. 08
Méta-analyse : pourquoi et comment
être déterminantes. De même, explorer cette demande. synthétiser des données d’origines
massivement les corrélations potentielles Il est sans doute opportun de terminer diverses ?
et les signaux faibles demande des experts cette section en insistant sur l’importance Par David Makowski
qui savent utiliser les méthodes adéquates, du fait que, au delà des spécialistes des
mais aussi, de manière tout aussi cru- données et de leur analyse, chacun, en
ciale, qui sont conscients des risques de tant que citoyen, ait connaissance des
découverte de régularités fortuites sans risques liés à une numérisation sociali-
signification réelle et savent comment s’en sante du monde et de la vie, les com-
prémunir. La recherche de « causalités » prenne, et devienne ainsi un acteur éclairé
au milieu des corrélations est encore un et vigilant dans la définition des poli-
problème de recherche, mais devra égale- tiques publiques sur ces questions. La
ment faire bientôt partie des compétences formation des jeunes, et moins jeunes,
à maîtriser pour être un expert du « Big peut et doit contribuer à cette prise de
p. 11
Données massives : analyse d’images
data », ce que l’on appelle maintenant conscience.
de télédétection pour suivre les
souvent un « data scientist ». Pour finir, Pour résumer, il est clair que le « Big data »
variations de l’environnement
ces spécialistes devront aussi être informés n’est pas seulement un buzzword, un Par Isabelle Mougenot et Eric Delaître
de tous les aspects juridiques et éthiques, concept à la mode qui s’évanouira aussi
ainsi que des problèmes de sécurité, liés vite qu’il est apparu et qui ne concerne
à l’exploitation de données massives que quelques « geeks ». Il correspond
comprenant souvent des données indi- à une mutation profonde de notre rap-
viduelles, voire intimes. port au monde et de nos processus de
décision.
Ce numéro spécial dédié au « Big data »
« Il est urgent de former témoigne de l’importance de la révolu-
des ingénieurs aux métiers tion en cours pour notre secteur. L’article p. 14
Les nouveaux défis de la biologie
liés aux big data » d’Isabelle Mougenot et Éric Delaître sur moléculaire
les « données massives : analyse d’images Par Céline Lévy-Leduc
Les estimations sur les besoins en spé- de télédétection pour suivre les variations et Stéphane Robin
cialistes de ce type sont faramineuses, se de l’environnement » montre comment p. 16
L’Internet des objets : le big data
chiffrant par exemple à plus de 100 000 en les nouvelles techniques d’observation puissance 2 arrive déjà !
France dans les 6 prochaines années et à de la Terre et de croisement de données Par Dominique Cagnon
plus d’un million aux Etats-Unis. Même si multiples permettent des suivis en temps
ces chiffres sont peut-être surestimés, ils réel beaucoup plus fins des agrosystèmes
donnent une idée de l’urgence de former partout dans le monde, ainsi que l’ana-
des ingénieurs en nombre très significatif lyse de catastrophes naturelles rapides sans techniques puissantes de stockage et
sur ces métiers, ainsi sans doute que d’or- comme des inondations ou à évolution d’analyse de données. Finalement, l’ar-
ganiser une formation continue adaptée. plus lente comme les sécheresses. L’article ticle de Dominique Cagnon « L’Internet
Des questions urgentes se posent telles de David Makowski « Méta-analyse : pour- des Objets : un Big data puissance 2 arrive »
que : Quelles devraient être les compé- quoi et comment synthétiser des données fait prendre conscience de l’émergence
tences minimales d’un ingénieur sur le d’origine diverses ? » décrit la technique d’une nouvelle étape majeure dans l’ère
« Big data » ? Que faut-il prévoir dans la de méta-analyse qui consiste à rassembler du « Big data », celle des objets connectés,
formation de base ? Et que doit être une des sources de données multiples pour c’est-à-dire d’objets capables d’effectuer
formation spécialisée ? À quel type de répondre à des questions qui peuvent en permanence un ensemble énorme de
public peut-elle s’adresser ? Que peut-on aller de l’évaluation de l’effet de certains mesures sur notre environnement de vie,
attendre d’une formation de trois mois, six médicaments ou de recommandations et de non seulement communiquer ces
mois ou un an ? Combien de docteurs en médicales à l’estimation de la respon- données avec les utilisateurs mais aussi
sciences des données va-t-il falloir former sabilité de certaines pratiques agricoles et surtout entre eux grâce à l’Internet
pour irriguer les institutions publiques, les sur les émissions de gaz à effet de serre. des Objets.
organismes de recherche et les entreprises L’article de Céline Lévy-Leduc et de
privées sous peine d’être dépossédé de Stéphane Robin « Les nouveaux défis de la
notre souveraineté sur la compréhen- biologie moléculaire » présente les révolu-
sion et la maîtrise du monde ? Des initia- tions successives en cours en biologie par
tives multiples, variées et désordonnées l’introduction de technologies d’analyse
se mettent en place pour répondre à ce de l’activité des gènes : puces à ADN et
défi de formation. AgroParisTech et les puces de nouvelle génération. Ici aussi,
écoles du secteur des sciences du vivant la science qu’est la biologie ne pourrait ❙❙Antoine Cornuéjols
et de l’environnement doivent offrir une connaître son développement incroyable (AgroParisTech)
Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 7Regards sur…
Le Big data
Méta-analyse : pourquoi
et comment synthétiser
des données d’origines
diverses ?
La méta-analyse est une méthode qui permet de synthétiser des données d’origines
diverses traitant toutes d’un même sujet. Appliquée dans le domaine médical depuis
longtemps, la méta-analyse est de plus en plus souvent utilisée dans les sciences
agricoles et environnementales, notamment pour étudier des questions présentant
un fort intérêt sociétal. Elle permet ainsi d’éclairer les débats actuels portant sur la
productivité de l’agriculture biologique, l’impact environnemental des OGM, ou les risques
de pollution liés aux activités agricoles. La méta-analyse est un outil puissant, mais sa
mise en œuvre demande une grande rigueur.
pour évaluer l’efficacité des traitements
médicaux. Sa popularité vient du fait
qu’elle permet d’analyser de manière
objective le « poids des preuves » en
faveur d’une hypothèse (par exemple
qu’un traitement A soit plus efficace qu’un
traitement B pour traiter une maladie don-
née) et qu’elle augmente la puissance des
tests statistiques (et donc les chances de
découvrir l’existence d’un effet).
Le principe de la méta-analyse est
d’analyser l’ensemble des études indi-
viduelles réalisées sur un sujet donné.
Chaque étude individuelle produit une
estimation d’une quantité d’intérêt (ex :
le niveau d’efficacité d’un traitement)
et un intervalle de confiance décrivant
l’incertitude associée à cette estimation
(Figure 1). La méta-analyse combine ces
estimations individuelles et produit une
Augmenter le poids méta-analyse est apparue au cours de la estimation moyenne ainsi qu’un intervalle
des preuves en synthétisant Seconde guerre mondiale pour traiter de de confiance décrivant l’incertitude asso-
des données questions liées à l’efficacité de certains ciée à cette estimation moyenne (Figure 1).
L’objectif de la méta-analyse est d’analy- traitements médicaux mais aussi pour Cette estimation moyenne synthétise
ser des données provenant de différentes optimiser certaines pratiques agricoles l’ensemble de données disponibles à tra-
études, réalisées dans différentes condi- telles que la fertilisation des cultures et vers une valeur unique. Les estimations
tions mais traitant d’un sujet commun. Les les rations alimentaires des animaux individuelles ont, elles aussi, un intérêt :
données doivent présenter suffisamment d’élevage. elles décrivent la variabilité inter-études
de similarités pour pouvoir être analy- Au cours des années 90, la méta-analyse de la quantité d’intérêt. Cette variabilité
sées avec des méthodes statistiques. La est devenue une méthode de référence est due à l’hétérogénéité des conditions
8Le Big data
expérimentales dans lesquelles les études Etape Objectif Outils informatiques utilisés
individuelles ont été réalisées, ainsi qu’aux Définition de l’objectif de la › Définir la quantité qui doit être
erreurs de mesure. méta-analyse estimée
› Définir la population
Les principales étapes Revue systématique de la Récupérer les documents ›O
utils de recherche
de la méta-analyse littérature scientifique susceptibles d’inclure des bibliographique
La réalisation d’une méta-analyse passe données pertinentes ›O
utils de veille scientifique
par plusieurs étapes résumées dans le Sélection des documents et Créer une base de données ›O
utils d’extraction de données
tableau 1. La première étape consiste à extraction des données incluant les résultats des études ›O
utils de gestion de bases de
définir l’objectif de la méta-analyse, c’est- pertinentes données
à-dire la quantité que l’on cherche à esti- Analyse statistique Estimation de la quantité Logiciel d’analyse statistique
mer et la population pour laquelle on veut d’intérêt et analyse d’incertitude
réaliser cette estimation. Cette quantité Evaluation des limites de la › Déterminer s’il existe des biais Logiciel d’analyse statistique
peut représenter un ratio de rendement méta-analyse importants dans l’estimation
(par exemple, le rendement d’un système › Identifier des études influentes
bio divisé par le rendement d’un système Tableau 1. Principales étapes d’une méta-analyse
conventionnel), un paramètre quantifiant
l’effet d’une variable sur une autre (par
exemple, l’effet d’une dose d’engrais sur
les émissions de gaz à effet de serre) ou Référence Objectif Nombre d’études Principaux résultats
toute autre quantité présentant un inté- Seufert et al. (2012) Estimer la perte de 66 études Perte moyenne de
rêt particulier. La population représente rendement moyenne rendement de 25 % (+-4 %)
Ponisio et al. (2015) induite par le passage de 115 études Perte moyenne de
l’ensemble des situations pour laquelle on l’agriculture conventionnelle
souhaite estimer la quantité d’intérêt (par rendement de 19.2 % (+- 7 %)
à l’agriculture biologique
exemple, les parcelles de blé européennes). Récupérer les documents
La deuxième étape consiste à réaliser une susceptibles d’inclure des
revue systématique de la littérature dans données pertinentes
le but de récupérer les études incluant des Marvier et al. (2007) Effet des cultures OGM 42 études Les invertébrés sont plus
données permettant d’estimer la quantité (maïs et coton Bt) sur les abondants dans les cultures
définie à l’étape 1. Cette étape doit être invertébrés non cibles OGM que dans les non OGM
traités
réalisée en utilisant des outils informa-
tiques de revue bibliographique et/ou de Wilcox et Makowski Effet du changement 90 études Une augmentation de la
(2014) climatique sur le rendement concentration en CO2 de
veille scientifique. Les documents récupé- du blé l’atmosphère (>640 ppm)
rés au cours de cette étape peuvent être compense en moyenne
éventuellement complétés par des articles l’effet négatif d’une
fournis directement par des experts du augmentation de 2 °C de
domaine. la température et d’une
diminution de 20 % des
L’objectif de la troisième étape est de précipitations.
trier les documents récupérés à l’étape 2
Philibert et al. (2012) Estimation des émissions 203 études
La quantité de N2O émise
puis d’extraire les données des documents de N2O (gaz à effet de serre) est inférieure à 1 % de
sélectionnés. Il s’agit ici de ne garder que induites par la fertilisation la dose d’engrais azoté
les documents répondant à certains cri- azotée appliquée si cette dose est
tères (protocoles expérimentaux de bonne inférieure à 160 kg N ha-1, et
supérieure à 1 % sinon.
Tableau 2. Exemples de résultats obtenus dans des méta-analyses agronomiques
qualité, disponibilité des données etc.), Une fois la base de données créée, l’étape
d’extraire les données des tableaux et/ suivante consiste à réaliser une analyse
ou figures présentés dans ces documents, statistique des données disponibles dans
puis d’archiver ces données dans une le but de décrire la variabilité inter-études
base de données adaptée. Certains outils des estimations individuelles, d’estimer la
informatiques peuvent faciliter l’extrac- valeur moyenne de la quantité d’intérêt
tion des données mais cette étape n’est et d’analyser les incertitudes associées.
Figure 1. Synthèse de données issues généralement pas complètement auto- La dernière étape consiste à exercer
d’études expérimentales individuelles. matisable. En pratique, la sélection et un regard critique sur le travail réalisé,
Chaque étude produit une estimation d’une l’extraction des données prennent ainsi en détectant l’existence éventuelle d’un
quantité d’intérêt. La méta-analyse permet
de synthétiser les estimations individuelles généralement plusieurs semaines, voire biais (qui peut résulter du fait que seule
pour obtenir une estimation globale. plusieurs mois. une partie des études réalisées ait été
Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 9Regards sur…
Le Big data
récupérée) et en analysant la sensibilité nombre d’études plus grand (tableau 2). L’application de méthodes statistiques
des résultats aux études individuelles. Cette nouvelle méta-analyse (basée sur non adaptées peut également diminuer la
115 études) a conduit à une révision à la fiabilité des conclusions, par exemple en
Un rôle croissant dans les baisse des pertes de rendements agricoles calculant des intervalles de confiance trop
sciences agronomiques induites par le passage de systèmes agri- étroits et en donnant ainsi une vision trop
et environnementales coles conventionnels à des systèmes bio- optimiste de la précision des estimations.
Depuis une dizaine d’années, la méta-ana- logiques (19.2 % contre une estimation Il est important d’assurer un niveau de
lyse est de plus en plus souvent utilisée initiale de 25 % de perte de rendement formation suffisant des personnes réa-
dans les sciences agronomiques et environ- moyenne). Les autres méta-analyses briè- lisant des méta-analyses. Ces dernières
nementales. Il existe en effet une demande vement décrites dans le tableau 2 illustrent doivent en effet être compétentes à la
croissante pour des synthèses scientifiques la diversité des sujets abordés avec cette fois dans leur domaine d’application mais
quantitatives, non seulement de la part de approche : impact environnemental des aussi en analyse de données.
communautés scientifiques mais aussi de OGM, effet du changement climatique, Il est également souhaitable que les résul-
la part de groupes associatifs, d’entreprises émission de gaz à effet de serre. tats des méta-analyses soient mis à dispo-
et d’institutions internationales. Quelques sition d’un public aussi large que possible.
exemples de méta-analyses réalisées Le dépôt des bases de données sur des
récemment en agronomie sont présentés « Les résultats des méta sites accessibles à tous est une pratique
dans le tableau 2 à titre d’illustrations. analyses devraient être qui doit être encouragée pour, d’une part,
Un des atouts de la méta-analyse est partagés pour faciliter assurer un niveau élevé de transparence
qu’elle permet de synthétiser un ensemble la réutilisation et la et, d’autre part, faciliter la réutilisation et
important d’études réalisées sur certains réanalyse des données » la ré-analyse de données collectées par
sujets controversés et qu’elle fournit une des communautés scientifiques larges sur
vision plus large et plus objective de l’état Les défis des sujets présentant un intérêt sociétal
des connaissances disponibles à une date La popularité croissante de la méta-analyse important.
donnée. Parfois, plusieurs méta-analyses ne doit pas faire oublier que son utilisa- ❙❙David Makowski (PG 93)
sont réalisées sur un même sujet à quelques tion reste délicate. Pour que les résultats
années d’intervalles de manière à prendre soient fiables, il est nécessaire de récupérer Des informations détaillées sur la
en compte les études produites au cours les études individuelles en adoptant une méta-analyse, des exemples récents
des années les plus récentes. C’est le cas, démarche systématique et transparente. de méta-analyses et des exemples de
par exemple, des méta-analyses réalisées Il existe en effet un risque important de bases de données agronomiques sont
sur l’agriculture biologique. Sur ce sujet, biaiser les conclusions en récupérant un disponibles sur le site suivant :
une méta-analyse a été réalisée en 2012 à groupe d’études qui ne soit pas représen- www6.versailles-grignon.inra.fr/
partir de 66 études puis, en 2015, une autre tatif de l’ensemble des études réalisées sur agronomie/Meta-analysis-in-agronomy
méta-analyse a été réalisée à partir d’un un sujet donné.
10Le Big data
Données massives : analyse
d’images de télédétection
pour suivre les variations
de l’environnement
Les capteurs sont aujourd’hui omniprésents dans notre scientifiques permettent d’envisager des
approches dites bottom-up ou inductives
quotidien et fournissent en continu des données qui dans lesquelles les analyses sont menées
modifient nos habitudes. La difficulté ne porte pas sur directement depuis les données massives
et font apparaître de nouvelles informa-
l’acquisition des données mais bien sur leur gestion, leur tions et connaissances jusqu’alors demeu-
exploitation et leur pérennisation et c’est bien là tout le rées cachées.
paradoxe. Observation de la Terre
L’observation de la Terre permet en par-
ticulier de modéliser et d’étudier les pro-
cessus qui se nouent à la surface de la
Terre en interaction avec l’atmosphère.
Depuis plus de 40 ans maintenant, la
Terre est continuellement contrôlée par
des capteurs imageurs optiques et radars
embarqués au sein de satellites en per-
pétuelle gravitation. Les images obtenues
sont ensuite traitées de manière à fournir
de l’information prête à l’emploi pour
de nombreuses problématiques dans les
sciences de l’environnement. Les tech-
niques développées pour la télédétec-
tion sont maintenant matures et peuvent
Figure 1. Compositions colorées faisant ressortir la saisonnalité de la végétation en rouge répondre à diverses demandes concernant
par exemple la détection de feux de forêt,
L
es besoins, en matière d’accès, de œuvré pour la mise sur le marché de la prévention d’inondations ou bien la
diffusion et d’utilisation de l’infor- tels systèmes sont des sociétés comme supervision de la tâche artificialisée dans
mation, en particulier sur le web, Google, Apache, Amazon ou Twitter qui un contexte de développement durable.
ont fait évoluer les manières d’envisager sont partie prenante dans l’évolution du Ces techniques mettent fréquemment
la gestion des données. De nouvelles solu- web. Google propose le système NOSQL en œuvre de l’apprentissage automatique
tions de gestion de données, nommées « Google BigTable » pour une gestion et de manière à étiqueter les données issues
NOSQL, pour Not Only SQL, vont facili- une mise à disposition efficace de gros des images et à leur attribuer une classe
ter la gestion de gros volumes de données volumes de données distribuées. Apache d’appartenance, souvent dans le but de
distribuées destinés à satisfaire les besoins a défini de son côté le framework Hadoop produire une carte d’occupation du sol.
en information de larges communautés pour traiter à la volée de gros volumes de Les classes eau, sol nu ou végétation sont
d’usagers. Ces systèmes sont complémen- données partitionnés et ainsi répondre à des exemples de classes d’occupation du
taires des systèmes de gestion de don- des problématiques dites de « big data », sol très générales.
nées relationnels classiques et sont conçus en matière d’analyse et de valorisation de
pour fournir des réponses adaptées dans données massives. Nous nous intéressons Etudier les périmètres irrigués
des contextes de très forte sollicitation aux sciences de l’environnement et en des agrosystèmes oasiens
de grandes masses de données, poten- particulier aux données issues de l’obser- Les capteurs optiques fournissent des
tiellement incomplètes et hétérogènes. vation de la Terre. Les avancées techno- informations spectrales, spatiales et
Les principaux acteurs ayant largement logiques pour la production de données temporelles particulièrement riches et
Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015 11Vous pouvez aussi lire