LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni

 
CONTINUER À LIRE
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Le Magazine d'AgroParisTech Alumni

                                      REGARDS SUR…
                                      LE BIG DATA

                                              EN DIRECT DE L’ÉCOLE
                                              Le Musée du Vivant,
                                              un musée qui bouge !
                                              LA VIE DE L’ASSOCIATION
                                              Assemblée Générale
                                              AgroParisTech Alumni
JUILLET 1 NUMÉRO 1

                                              ÉCHOS DE NOS RÉSEAUX
                                              Fond Français pour
www.aptalumni.org

                                              l’Alimentation
                                              et la Santé
                                              RENCONTRES
                                              Alain Loones
                                              Georges Darret
                                              Jean Bohl
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Editorial

Chance ou malchance,
qui peut le dire ?

C
        e conte chinois, que vous connaissez peut-être, met                 Néanmoins, l’encadrement de l’exploitation de ces données
        en perspective des événements a priori négatifs                     est primordial, et le législateur a du pain sur la planche…
        qui surviennent dans la vie du héros. Chance ou                     Qui mieux que les ingénieurs et scientifiques du vivant
malchance ? Bien sûr, la suite de l’histoire montre que fina-               peuvent accompagner les politiques ? Chance ou mal-
lement c’est plutôt « chance », et qu’il ne faut pas s’inquiéter            chance, l’objectivation des conséquences grâce à la science
à outrance d’un changement qui bouleverse nos vies…                         est en tout cas un bon rempart au populisme et à la déma-
Pour les personnes de ma génération, le changement est                      gogie, qui s’appuient sur les peurs inhérentes au manque
un état quasi permanent : Internet, téléphones portables,                   de connaissance… CQFD !
Google, objets connectés, font leur apparition dans notre
vie depuis que nous sommes nés et nous font comprendre
que le changement, c’est maintenant, et que chance ou
malchance il faudra bien s’y faire.

« C’est ce que nous pensons déjà
connaître qui nous empêche souvent
d’apprendre » — Claude Bernard

Ce dossier sur le big data, qui ravira nos lecteurs les plus
technophiles et scientifiques, nous est cher car il montre
combien notre monde change en profondeur avec la col-
lecte de données, dans tous les domaines, et notamment
le nôtre, celui des sciences du vivant. Etant une fervente
optimiste, je vois dans l’Apple Watch, Betterise et 23andMe
des opportunités de vivre mieux, plus en conscience de
mon propre organisme pour adapter mon environnement                                                          ❙❙Ghislaine Challamel (E 03)
et mes actes à mes aspirations.                                                                                        Rédactrice en Chef

                                      Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015                             1
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Sommaire
                                                                                    N° 12 – juillet 2015
                                                                                    5e Année
03     Regards sur…                        28    La vie de l’Association            Editeur :
                                                                                    AgroParisTech Alumni
	Le Big data                              28    Les actus de l’association         Association des Diplômés et
                                                                                    Anciens Élèves d’AgroParisTech
                                           31    Vie des promos                     5 quai Voltaire – 75007 Paris
19     En direct de l’École                32    Carnet                             Tél. : 01 42 60 25 00
                                                                                    Fax : 01 42 61 48 50
19    Étudiants                                                                     redaction@aptalumni.org
                                           36    Échos de nos réseaux               www.aptalumni.org

                                           36	Fonds Français pour l’Alimentation   Directeur de la publication :
                                                                                    Pierre Sabatier
                                               et la Santé
                                                                                    Rédactrice en chef :
                                           38 Nénufar                               Ghislaine Challamel
                                                                                    Coordination du dossier :
                                                                                    Antoine Cornuéjols
                                                                                    Comité de rédaction :
                                                                                    Christian Abbas, Nadia Bastide,
L’équipe d’Agro contre le Paludisme 2015                                            Inès Boughammoura, Justine
                                                                                    Dyon, Ludivine Faes, Maude Le
                                                                                    Guennec, Camille Laborie, Manon
                                                                                    Salle, Elena Sauvage, Christelle
                                                                                    Thouvenin, Solange Van Robais
                                                                                    Edition et Régie Publicitaire :
                                                                                    Mazarine Partenaires
                                           Deux jeunes agros pour révolutionner     2, Square Villaret de Joyeuse
                                                                                    75017 Paris
                                           la méthanisation !                       www.mazarine.com
                                                                                    Directeur :
                                           40 Rencontres                            Yvan Guglielmetti

                                           40    Alain Loones                       Responsable de la publicité :
                                                                                    Isabelle Cordier
AgroIsraël sur la plage de Césarée         42    Georges Darret                     Tél. : 01 58 05 49 20
                                                                                    magazine-symbiose@mazarine.com

22    École                                                                         Conception maquette :
                                                                                    Laetitia Langlois

                                                                                    Prix de vente au numéro : 8 €

                                                                                    N° ISSN : 2115-3736

                                           Georges Darret
                                           44    Jean Bohl

Le Musée du Vivant, un musée qui bouge !   46 Lu, vu, entendu                                Nos partenaires :

                                                                                      KINCANNON & REED • NACTIS

2
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Regards sur…
                                             Le Big data

« Big data » :
les données comme
matière première ?

U
          n phénomène massif d’une rapi-     ››La numérisation de données de toutes sortes : bases de données classiques, mais
          dité extrême est intervenu ces     aussi textes, photos, vidéos, musiques… ce qui permet des traitements croisés sur tous
          dernières années : alors que 2 %   les types de données. En 30 ans en effet, le coût de stockage des données numérisées
des données étaient stockées sous format     a été divisé par 100 000, et les capacités de calcul ont doublé approximativement tous
numérique en 1982, ce sont 98 % d’entre      les 18 mois selon la fameuse loi de Moore qui date de 1965 ! De plus, les capteurs de
elles qui sont numérisées maintenant.        tous ordres : téléphones mobiles, mais demain aussi tous nos appareils ménagers, nos
Parallèlement, la croissance des données     maisons, nos voitures, nos montres, nos vêtements, produisent désormais des don-
produites est d’ordre exponentiel. Il est    nées sous format numérique, tout en se miniaturisant à l’extrême, tandis que leur coût
ainsi estimé que les données numérisées      diminue de façon prodigieuse.
produites par l’humanité en 2013 sont        ››Le développement des réseaux, et d’Internet en particulier, là aussi à un degré tota-
égales à toutes les données produites        lement imprévu, permet l’échange des données et leur traitement distribué pour un
avant 2010.                                  coût extrêmement modéré. Les réseaux sociaux sont devenus une partie intégrante de
Naturellement, si le terme « données »       nos vies privées et professionnelles. L’échange automatique de données entre « objets
recouvre des choses de qualités et de        connectés » va encore accroître la numérisation du monde et la capacité de réactivité à
valeurs très différentes, il n’empêche que   toute nouvelle information ou donnée.
l’existence de cet univers numérique en      ››Le développement de nouveaux algorithmes d’analyse de données allié à des
expansion très rapide change et va chan-     capacités de calcul extraordinairement amplifiées et largement accessibles, par exemple
ger très profondément la manière de faire    grâce au « cloud ».
de la science, et l’ensemble des processus   Incroyablement, alors que la production de données est devenue phénoménale et
de décision.                                 qu’elle se fait bien souvent en réaction de plus en plus rapide à d’autres données, une
                                             grande partie de cette « écume numérique du monde » est stockée, ce qui ouvre des
Les « données » du problème                  possibilités complètement nouvelles d’analyse, et provoque un débat entre droit à
D’un certain côté, la révolution du « Big    l’oubli et droit à l’histoire.
data » s’est imposée à nous plus qu’elle     Il faut bien comprendre que les technologies et approches classiques de gestion et de
n’a été décidée en réponse à un problème.    traitement de données ne sont plus à même de nous permettre de faire face aux « Big
C’est pour cela que l’on s’interroge de      data » et ses nouvelles caractéristiques. Il est ainsi devenu classique de mettre en avant
toute part sur sa signification et sur les   au moins quatre problèmes avec les défis qui les accompagnent :
besoins qu’elle pourrait satisfaire.         ››Le volume. Comme nous l’avons vu, ce volume explose. Le mégaoctet a longtemps été
Le « Big data » est la résultante de trois   l’unité de mesure de la taille des mémoires des ordinateurs, puis le gigaoctet a témoigné
facteurs :                                   de l’arrivée de la numérisation de l’image animée, le téraoctet (1012 octets) désigne la

                                             Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015                    3
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Regards sur…
Le Big data

puissance de stockage désormais acces-            de fidélité ainsi que le niveau de confiance   Il est en tous les cas essentiel de bien réa-
sible à chacun d’entre nous, permettant en        qu’on peut leur accorder est très varié. Il    liser que d’un questionnement orienté
théorie de conserver l’équivalent de fonds        faut donc savoir combiner les sources et       et raisonné, on passe avec le « Big data »
de grandes bibliothèques nationales. Le           raisonner en tenant compte de ces indices      à une exploration tous azimuts de cor-
petaoctet (10^15 octets) correspond aux           de précision, des biais éventuellement         rélations ou de signaux faibles ou de
masses de données entreposées dans                connus ou identifiés et du niveau de           tendances, pour ensuite les filtrer, les
les « fermes de données », et l’exacotet          confiance.                                     recouper, et alimenter l’univers numé-
(10^18 octets) est tutoyé dans certains           Cette disponibilité quasi infinie de don-      rique. Il n’y a plus en pratique de question
domaines (physique des particules, astro-         nées et les nouvelles possibilités de trai-    de taille d’échantillon, et, de plus, les don-
nomie). Le stade de fichiers Excel que cha-       tements massifs désormais accessibles à        nées ne servent plus seulement à répondre
cun pouvait examiner sur son ordinateur           bas prix, grâce en particulier au « cloud      à une question pour laquelle elles ont été
personnel est complètement dépassé. On            computing », bouleversent l’approche           récoltées, mais elles sont ré-utilisables à
dit souvent que le « Big data » commence          scientifique du monde.                         l’infini en fonction de nouveaux traite-
quand on ne peut plus stocker les données         Avant, la démarche était de réfléchir à        ments que n’importe quel « data scien-
concernées dans la mémoire centrale de            une question, par exemple l’existence ou       tist » qui en dispose peut imaginer.
son ordinateur, et donc qu’il faut recourir
à des traitements sophistiqués pour rendre
les calculs réalisables, c’est-à-dire faisables   « Cette disponibilité quasi infinie de données et
en un temps raisonnable.                          les nouvelles possibilités de traitements massifs
››La vélocité. Les données modernes               bouleversent l’approche scientifique du monde »
sont maintenant produites en flux. Elles
incluent les millions de tweets échan-            non d’une corrélation entre deux variables     Une nouvelle ère
gés chaque heure, les centaines d’heures          (voire entre quelques variables peu nom-       scientifique s’ouvre
de média déposées sur YouTube chaque              breuses), d’établir avec soin un « plan        À côté de ces caractérisations techniques,
minute, les données communiquées                  d’expériences », de récolter l’échantillon     un autre regard sur le « Big data » fait res-
et produites par nos smartphones, les             de données aussi limité et aussi propre        sortir la nouvelle ère scientifique ouverte
séquences de clics et de transactions             que possible pour satisfaire les contraintes   grâce à lui. Un découpage en quatre
enregistrées sur les sites web, etc. Même         de significativité statistique, et de mesu-    grandes ères scientifiques et en quatre
les images satellitaires de télé-détection        rer la corrélation faisant l’objet de notre    approches est ainsi formulé :
vont maintenant être disponibles toutes           attention, avant de conclure ou non à son      ››Approche empirique. Elle correspon-
les cinq heures pour chaque zone géogra-          existence, par exemple en comparant à          drait à une première étape de la démarche
phique au lieu d’une fois tous les 2 mois         une p-value.                                   scientifique, qui consiste à répertorier et
(cf. la mise en place du réseau de satellites     Désormais, la démarche est de demander         à classer les objets, êtres vivants et phé-
Sentinelles par l’Europe, sans compter les        aux machines de découvrir toutes les cor-      nomènes naturels.
micro-satellites que des start-up améri-          rélations multi-variables existantes dans      ››Approche théorique. Inaugurée magis-
caines envoient désormais par dizaines            un énorme volume de données souvent            tralement par Galilée et Newton, elle est
dans l’espace). Il faut donc être capable de      bruitées, puis seulement ensuite, d’exa-       associée à la modélisation du monde et
traiter une grande partie de ces données          miner ce qui peut présenter un intérêt         à sa mise en équations. Cependant, elle
« à la volée ». De plus la « fraicheur » des      dans cette masse de liens potentiels. De       trouve des limites dans son application
données devient un critère qu’il importe          manière alternative, on peut demander          car toutes les équations, de loin s’en faut,
de prendre en compte.                             aux machines de détecter ce qui émerge         n’ont pas de solutions analytiques.
››La variété. Les données ne sont plus            comme étant la norme et, à partir de           ››A p p r o c h e p a r l a s i m u l a t i o n .
issues de processus bien définis de               là, d’identifier des « signaux faibles »,      Heureusement, l’informatique, apparue
recueil dans un format établi, mais elles         c’est-à-dire des phénomènes étranges,          dans les années 1940, a offert le moyen
sont désormais stockées au mieux dans             hors norme, qu’il peut être intéressant        de résoudre numériquement les équations
des entrepôts de données, au pire dans            d’examiner.                                    et modèles mathématiques du monde, et
des fichiers d’origines diverses, avec des        De même, avant, on était centré sur l’ajus-    d’en étendre ainsi le champ bien au-delà
formats variés, impliquant possiblement           tement des modèles statistiques aux don-       des systèmes assez simples et simplifiés
des données multi-média audio et vidéo,           nées (prédire le passé), tandis que l’on       de la physique du xixe siècle. Ainsi ces
du texte brut ou dans des formats plus            cherche à présent des capacités prédictives    simulations numériques ont permis à
ou moins propriétaires, des transactions          par la généralisation et l’extrapolation des   la physique quantique, la physique des
financières, des méta-données, etc. La            régularités découvertes.                       solides et la relativité générale de faire
question de la mise en relation de tous           De plus, les corrélations ainsi découvertes    des prédictions vérifiables. Elles contri-
ces types de données très hétérogènes             peuvent à leur tour servir d’entrées pour      buent aussi de manière essentielle au
devient ainsi cruciale.                           d’autres mécanismes de « data mining »,        développement des sciences du vivant et
››La véracité. Les données étant issues           participant ainsi à un processus d’enri-       de l’environnement et, généralement, des
de capteurs ou de sources humaines très           chissement (ou de pollution) cumulatif         sciences des systèmes complexes naturels
diverses, leur degré de précision et surtout      et potentiellement exponentiel.                ou artificiels.

4
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Le Big data

››Approche par exploration des don-
nées. Finalement, nous serions entrés
dans l’ère de nouvelles découvertes
rendues possibles par l’exploitation des
énormes masses de données acquises
sur le monde grâce à toutes les nouvelles
technologies du « Big data ».
Il est indéniable que des champs scien-
tifiques tels que la sociologie ou les
sciences de l’environnement sont en pro-
fonde mutation grâce au « Big data ». De
même que dans des domaines plus « tra-
ditionnels », tel que celui de la physique
des particules, les nouvelles découvertes
(e.g. boson de Higgs) seraient impossibles
sans cette nouvelle capacité à traiter des
données hyper-massives.

Une matière première et de
nouvelles opportunités
Personne sans doute n’est encore capable
de prédire avec précision quelles seront
les applications du « Big data » et les
(r)évolutions à en attendre. Très généra-
lement, les possibilités suivantes, qui sont
neuves, font miroiter tout un ensemble de
nouvelles opportunités :                         des configurations de protéines, ou bien                     optimiser son sommeil en fonction des
››Nouvelles possibilités pour com-               déchiffrer pour une numérisation ulté-                       événements de la journée et de l’agenda
prendre le monde. La science s’appuie            rieure des manuscrits écrits en vieux fran-                  du lendemain). Ces mêmes technologies
désormais autant sur l’analyse de don-           çais par exemple. Finalement, le fait que                    permettent aussi la mise aux enchères
nées que sur la modélisation mathéma-            chacun puisse a priori facilement poser                      en quelques micro-secondes d’espaces
tique ou la simulation. Certaines sciences       des questions très variées via l’analyse                     publicitaires à introduire dans les pages
connaissent grâce au « Big data » des            des données rendues publiques ou de                          qui s’affichent durant les recherches
développements considérables : la géno-          ses propres données ouvre la perspective                     Internet d’un utilisateur. Généralement,
mique, la climatologie, la physique des          de découvertes et de services inattendus.                    le marketing va devenir une science avec
particules, l’astronomie. D’autres sont car-     ››De nouvelles possibilités d’optimi-                        en particulier une mesure de l’impact en
rément bouleversées, comme les sciences          ser le fonctionnement de la société.                         temps réel des messages, et un suivi très
humaines et la sociologie qui deviennent         On parle ainsi de « villes intelligentes ».                  fin des comportements, dans les magasins
des sciences quantitatives, grâce à l’ana-       Les réseaux de transport pourront être                       ou sur les sites marchands.
lyse des réseaux sociaux et à l’usage            reconfigurés en temps réel pour répondre                     ››L’open data, c’est-à-dire l’accès libre et
massif des Smartphones et autres objets          aux mesures sur les flux de personnes, la                    gratuit aux données, en particulier gou-
connectés (voir aussi les villes intelligentes   distribution de l’énergie et les heures de                   vernementales et des collectivités locales,
basées sur des mesures massives de com-          consommation seront optimisées grâce                         avec l’espoir d’une démocratie participa-
portement : exemple le projet Living Lab         aux compteurs « Linky » intelligents et à                    tive et directe.
à Trente en Italie). On parle désormais          des mesures en temps réel de la météo. La                    Pour se focaliser davantage sur les sciences
de « physique sociale ». La médecine se          sécurité des lieux publics et privés sera de                 du vivant et de l’environnement, on peut
renouvelle profondément grâce aux nou-           même révolutionnée par la disponibilité                      attendre des impacts importants sur les
velles possibilités d’analyse du génome,         de données multi-sources : caméras de                        secteurs suivants :
(voir par exemple : l’entreprise 23andMe         surveillance, objets connectés portés par                    ››Les sciences de l’environnement qui
qui offre des services basés sur l’analyse       les individus, traces d’ADN que l’on peut                    vont bénéficier de la possibilité d’intégrer
du génome de ses clients), et aux outils         désormais détecter dans l’atmosphère                         et de combiner des données de capteurs
du « quantified self » en particulier par        d’une pièce plusieurs jours après le départ                  très variés, très multi-échelles (des satel-
l’usage de montres connectées, etc. On           de ses occupants…                                            lites aux drones et aux capteurs dans les
peut aussi mentionner le « crowd compu-          ››Le développement de panoplies de                           tracteurs et dans les champs) et avec suivi
ting » qui permet de faire appel au public,      services très ciblés, individualisés par                     des évolutions. De fait, le changement
via des interfaces et des réseaux dédiés,        exemple pour une médecine personnali-                        climatique ne serait peut-être pas encore
pour aider à résoudre des questions scien-       sée, des conseils de consommation (livres,                   perçu, et en tous les cas ne serait pas
tifiques ou autres : par exemple, étudier        films…) et la vie en général (ex : comment                   apprécié pleinement, sans une capacité

                                                 Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015                                   5
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Regards sur…
Le Big data

                                                                                               manque de recul et de réflexion, mais avec
                                                                                               le sceau de l’objectivité de l’« algorithme ».
                                                                                               ››Recul de la solidarité par segmentation
                                                                                               ultrafine des usagers. C’est certainement
                                                                                               l’une des tentations dans le domaine de
                                                                                               l’assurance, qui va tendre à privilégier des
                                                                                               offres hyper-segmentées en fonction du
                                                                                               profil mesuré des clients, au détriment de
                                                                                               la mutualisation des risques.
                                                                                               Pour aller plus loin, il peut être intéressant
                                                                                               de se reporter à une journée spéciale « Big
                                                                                               data : adieu à la vie privée ? » organisée
                                                                                               le 28 mars à la Cité des Sciences en par-
                                                                                               tenariat avec AgroParisTech alumni. Cette
                                                                                               journée visait à avertir les citoyens que
                                                                                               nous sommes du phénomène du « Big
                                                                                               data » avec ses promesses et ses risques,
                                                                                               en particulier liés à l’usage, plus ou moins
                                                                                               conscient et plus ou moins accepté, de
                                                                                               nos données personnelles par tout un
                                                                                               ensemble d’acteurs du Web. Lors de cette
d’analyse multi-source et à grande échelle      tirer des régularités exploitables et des      journée ont été notamment abordés les
des données.                                    prédictions. C’est pourquoi, pour essayer      promesses et les risques dans le domaine
››La logistique et les chaînes de distri-       de comprendre l’avenir, tant d’analystes       de la santé, ainsi que la réalité et les consé-
bution, en particulier les chaînes d’appro-     se focalisent sur les GAFA (Google,            quences possibles d’une surveillance
visionnement en produits frais, vont voir       Amazon, Facebook et Apple) et leurs stra-      généralisée. Les débats et interventions
leur fonctionnement très optimisé, avec         tégies, c’est-à-dire sur ces entreprises (et   des spécialistes seront bientôt disponibles
à la clé beaucoup moins de déchets, et          d’autres) très jeunes qui ont détrôné les      sur le site de la Cité des Sciences.
des dates de péremption beaucoup plus           acteurs traditionnels grâce à leur récolte     Les défis sont d’ordre technique, mais ils
précises et attachées à chaque produit          unique et massive de données sur les           sont surtout humains.
par l’analyse de son « histoire » grâce à       utilisateurs, leurs machines, leurs com-       Les défis technologiques sont liés aux
l’arrivée des multi-capteurs sur les pro-       portements, et peuvent ainsi devenir les       quatre « V » évoqués dans l’introduction :
duits eux-mêmes.                                vrais donneurs d’ordre reléguant les autres    Volume, Vélocité, Variété, Véracité. De ces
››L’agriculture se prépare également à          entreprises à de la sous-traitance.            quatre V, les deux premiers sont les plus
une révolution. Pour donner un exemple,         Bien sûr ce nouvel Eldorado annoncé            exigeants en termes d’infrastructures. Il
John Deere et AGCO (marques de                  s’accompagne de risques.                       faut des capacités de stockage, d’inter-
machines agricoles d’occasion) ont ainsi                                                       rogation et de visualisation des données
entrepris de relier les machines agricoles      Les risques et les défis                       performantes. De même qu’il faut être
entre elles, mais aussi les systèmes d’irri-    Les risques concernent en premier lieu la      capable de traiter de gros volumes de don-
gation, des mesures sur les sols et sur les     vie politique. En vrac :                       nées, ce qui peut impliquer de manière
intrants, via éventuellement des drones,        ››Risque de surveillance généralisée,          routinière du swapping en mémoire cen-
tout cela en plus d’informations relatives      détaillée, en temps réel et à une échelle      trale, le recours à des clusters de calcul ou
à la météo locale à court et moyen terme        planétaire.                                    à du cloud computing. Certaines applica-
et de données sur les cours de bourse           ››Tentation de prédiction de compor-           tions sur des flux de données demandent
des produits récoltés et des matières pre-      tements « déviants » avant le passage à        un traitement « à la volée » qui impose ses
mières, le tout afin d’optimiser les perfor-    l’acte.                                        propres contraintes, en particulier sur les
mances d’une exploitation agricole dans         ››Croisement illégal et illicite de données.   systèmes de requêtes et sur les traitements
son ensemble.                                   ››Cycles de décision raccourcis à l’extrême,   possibles.
Ce tour d’horizon extrêmement rapide            en raison en particulier de l’utilisation de   Cependant, ce sont les défis en termes
et nullement exhaustif souligne l’impor-        systèmes de décision automatiques, au          de compétences qui sont prééminents et
tance et le large spectre des mutations         détriment du temps de la réflexion et de       vont conditionner l’avenir du « Big data ».
attendues. Ce qui est clair c’est que l’on      la consultation.                               La connaissance des nouveaux outils de
est en train d’assister à un transfert massif   ››Cacophonie sur la décision politique si      stockage et de traitement des données est
de pouvoir des acteurs économiques qui          des experts auto-proclamés de l’analyse        nécessaire, mais c’est surtout la compré-
maîtrisent les techniques et les procédés       de données affirment n’importe quoi et         hension des problèmes liés à l’exploitation
de fabrication ou de services vers ceux         s’appuient sur une pseudo objectivité pour     de données multi-sources, très hétéro-
qui maîtrisent l’information, c’est-à-dire      dicter des sentences et des ordonnances.       gènes dans leurs formats et leur fiabilité,
qui détiennent les données et savent en         ››Découverte de corrélations stupides par      et la maîtrise des techniques d’intégration

6
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Le Big data

                                                                                                                Sommaire du dossier
de données et de ré-expression qui vont         réponse forte, raisonnée et exemplaire à                        p. 08	
                                                                                                                      Méta-analyse : pourquoi et comment
être déterminantes. De même, explorer           cette demande.                                                        synthétiser des données d’origines
massivement les corrélations potentielles       Il est sans doute opportun de terminer                                diverses ?
et les signaux faibles demande des experts      cette section en insistant sur l’importance                           Par David Makowski
qui savent utiliser les méthodes adéquates,     du fait que, au delà des spécialistes des
mais aussi, de manière tout aussi cru-          données et de leur analyse, chacun, en
ciale, qui sont conscients des risques de       tant que citoyen, ait connaissance des
découverte de régularités fortuites sans        risques liés à une numérisation sociali-
signification réelle et savent comment s’en     sante du monde et de la vie, les com-
prémunir. La recherche de « causalités »        prenne, et devienne ainsi un acteur éclairé
au milieu des corrélations est encore un        et vigilant dans la définition des poli-
problème de recherche, mais devra égale-        tiques publiques sur ces questions. La
ment faire bientôt partie des compétences       formation des jeunes, et moins jeunes,
à maîtriser pour être un expert du « Big        peut et doit contribuer à cette prise de
                                                                                                                p. 11	
                                                                                                                      Données massives : analyse d’images
data », ce que l’on appelle maintenant          conscience.
                                                                                                                      de télédétection pour suivre les
souvent un « data scientist ». Pour finir,      Pour résumer, il est clair que le « Big data »
                                                                                                                      variations de l’environnement
ces spécialistes devront aussi être informés    n’est pas seulement un buzzword, un                                   Par Isabelle Mougenot et Eric Delaître
de tous les aspects juridiques et éthiques,     concept à la mode qui s’évanouira aussi
ainsi que des problèmes de sécurité, liés       vite qu’il est apparu et qui ne concerne
à l’exploitation de données massives            que quelques « geeks ». Il correspond
comprenant souvent des données indi-            à une mutation profonde de notre rap-
viduelles, voire intimes.                       port au monde et de nos processus de
                                                décision.
                                                Ce numéro spécial dédié au « Big data »
« Il est urgent de former                       témoigne de l’importance de la révolu-
des ingénieurs aux métiers                      tion en cours pour notre secteur. L’article                     p. 14	
                                                                                                                      Les nouveaux défis de la biologie
liés aux big data »                             d’Isabelle Mougenot et Éric Delaître sur                              moléculaire
                                                les « données massives : analyse d’images                             Par Céline Lévy-Leduc
Les estimations sur les besoins en spé-         de télédétection pour suivre les variations                           et Stéphane Robin
cialistes de ce type sont faramineuses, se      de l’environnement » montre comment                             p. 16	
                                                                                                                      L’Internet des objets : le big data
chiffrant par exemple à plus de 100 000 en      les nouvelles techniques d’observation                                puissance 2 arrive déjà !
France dans les 6 prochaines années et à        de la Terre et de croisement de données                               Par Dominique Cagnon
plus d’un million aux Etats-Unis. Même si       multiples permettent des suivis en temps
ces chiffres sont peut-être surestimés, ils     réel beaucoup plus fins des agrosystèmes
donnent une idée de l’urgence de former         partout dans le monde, ainsi que l’ana-
des ingénieurs en nombre très significatif      lyse de catastrophes naturelles rapides                      sans techniques puissantes de stockage et
sur ces métiers, ainsi sans doute que d’or-     comme des inondations ou à évolution                         d’analyse de données. Finalement, l’ar-
ganiser une formation continue adaptée.         plus lente comme les sécheresses. L’article                  ticle de Dominique Cagnon « L’Internet
Des questions urgentes se posent telles         de David Makowski « Méta-analyse : pour-                     des Objets : un Big data puissance 2 arrive »
que : Quelles devraient être les compé-         quoi et comment synthétiser des données                      fait prendre conscience de l’émergence
tences minimales d’un ingénieur sur le          d’origine diverses ? » décrit la technique                   d’une nouvelle étape majeure dans l’ère
« Big data » ? Que faut-il prévoir dans la      de méta-analyse qui consiste à rassembler                    du « Big data », celle des objets connectés,
formation de base ? Et que doit être une        des sources de données multiples pour                        c’est-à-dire d’objets capables d’effectuer
formation spécialisée ? À quel type de          répondre à des questions qui peuvent                         en permanence un ensemble énorme de
public peut-elle s’adresser ? Que peut-on       aller de l’évaluation de l’effet de certains                 mesures sur notre environnement de vie,
attendre d’une formation de trois mois, six     médicaments ou de recommandations                            et de non seulement communiquer ces
mois ou un an ? Combien de docteurs en          médicales à l’estimation de la respon-                       données avec les utilisateurs mais aussi
sciences des données va-t-il falloir former     sabilité de certaines pratiques agricoles                    et surtout entre eux grâce à l’Internet
pour irriguer les institutions publiques, les   sur les émissions de gaz à effet de serre.                   des Objets.
organismes de recherche et les entreprises      L’article de Céline Lévy-Leduc et de
privées sous peine d’être dépossédé de          Stéphane Robin « Les nouveaux défis de la
notre souveraineté sur la compréhen-            biologie moléculaire » présente les révolu-
sion et la maîtrise du monde ? Des initia-      tions successives en cours en biologie par
tives multiples, variées et désordonnées        l’introduction de technologies d’analyse
se mettent en place pour répondre à ce          de l’activité des gènes : puces à ADN et
défi de formation. AgroParisTech et les         puces de nouvelle génération. Ici aussi,
écoles du secteur des sciences du vivant        la science qu’est la biologie ne pourrait                    ❙❙Antoine Cornuéjols
et de l’environnement doivent offrir une        connaître son développement incroyable                           (AgroParisTech)

                                                Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015                                    7
LE BIG DATA REGARDS SUR - Le Magazine d'AgroParisTech Alumni
Regards sur…
Le Big data

Méta-analyse : pourquoi
et comment synthétiser
des données d’origines
diverses ?
La méta-analyse est une méthode qui permet de synthétiser des données d’origines
diverses traitant toutes d’un même sujet. Appliquée dans le domaine médical depuis
longtemps, la méta-analyse est de plus en plus souvent utilisée dans les sciences
agricoles et environnementales, notamment pour étudier des questions présentant
un fort intérêt sociétal. Elle permet ainsi d’éclairer les débats actuels portant sur la
productivité de l’agriculture biologique, l’impact environnemental des OGM, ou les risques
de pollution liés aux activités agricoles. La méta-analyse est un outil puissant, mais sa
mise en œuvre demande une grande rigueur.

                                                                                           pour évaluer l’efficacité des traitements
                                                                                           médicaux. Sa popularité vient du fait
                                                                                           qu’elle permet d’analyser de manière
                                                                                           objective le « poids des preuves » en
                                                                                           faveur d’une hypothèse (par exemple
                                                                                           qu’un traitement A soit plus efficace qu’un
                                                                                           traitement B pour traiter une maladie don-
                                                                                           née) et qu’elle augmente la puissance des
                                                                                           tests statistiques (et donc les chances de
                                                                                           découvrir l’existence d’un effet).
                                                                                           Le principe de la méta-analyse est
                                                                                           d’analyser l’ensemble des études indi-
                                                                                           viduelles réalisées sur un sujet donné.
                                                                                           Chaque étude individuelle produit une
                                                                                           estimation d’une quantité d’intérêt (ex :
                                                                                           le niveau d’efficacité d’un traitement)
                                                                                           et un intervalle de confiance décrivant
                                                                                           l’incertitude associée à cette estimation
                                                                                           (Figure 1). La méta-analyse combine ces
                                                                                           estimations individuelles et produit une
Augmenter le poids                           méta-analyse est apparue au cours de la       estimation moyenne ainsi qu’un intervalle
des preuves en synthétisant                  Seconde guerre mondiale pour traiter de       de confiance décrivant l’incertitude asso-
des données                                  questions liées à l’efficacité de certains    ciée à cette estimation moyenne (Figure 1).
L’objectif de la méta-analyse est d’analy-   traitements médicaux mais aussi pour          Cette estimation moyenne synthétise
ser des données provenant de différentes     optimiser certaines pratiques agricoles       l’ensemble de données disponibles à tra-
études, réalisées dans différentes condi-    telles que la fertilisation des cultures et   vers une valeur unique. Les estimations
tions mais traitant d’un sujet commun. Les   les rations alimentaires des animaux          individuelles ont, elles aussi, un intérêt :
données doivent présenter suffisamment       d’élevage.                                    elles décrivent la variabilité inter-études
de similarités pour pouvoir être analy-      Au cours des années 90, la méta-analyse       de la quantité d’intérêt. Cette variabilité
sées avec des méthodes statistiques. La      est devenue une méthode de référence          est due à l’hétérogénéité des conditions

8
Le Big data

expérimentales dans lesquelles les études        Etape                                       Objectif                               Outils informatiques utilisés
individuelles ont été réalisées, ainsi qu’aux    Définition de l’objectif de la              › Définir la quantité qui doit être
erreurs de mesure.                               méta-analyse                                   estimée
                                                                                             › Définir la population
Les principales étapes                           Revue systématique de la                    Récupérer les documents                ›O
                                                                                                                                      utils de recherche
de la méta-analyse                               littérature scientifique                    susceptibles d’inclure des              bibliographique
La réalisation d’une méta-analyse passe                                                      données pertinentes                    ›O
                                                                                                                                      utils de veille scientifique
par plusieurs étapes résumées dans le            Sélection des documents et                  Créer une base de données              ›O
                                                                                                                                      utils d’extraction de données
tableau 1. La première étape consiste à          extraction des données                      incluant les résultats des études      ›O
                                                                                                                                      utils de gestion de bases de
définir l’objectif de la méta-analyse, c’est-                                                pertinentes                             données
à-dire la quantité que l’on cherche à esti-      Analyse statistique                         Estimation de la quantité              Logiciel d’analyse statistique
mer et la population pour laquelle on veut                                                   d’intérêt et analyse d’incertitude
réaliser cette estimation. Cette quantité        Evaluation des limites de la                › Déterminer s’il existe des biais    Logiciel d’analyse statistique
peut représenter un ratio de rendement           méta-analyse                                   importants dans l’estimation
(par exemple, le rendement d’un système                                             › Identifier des études influentes
bio divisé par le rendement d’un système        Tableau 1. Principales étapes d’une méta-analyse
conventionnel), un paramètre quantifiant
l’effet d’une variable sur une autre (par
exemple, l’effet d’une dose d’engrais sur
les émissions de gaz à effet de serre) ou        Référence                   Objectif                                  Nombre d’études   Principaux résultats
toute autre quantité présentant un inté-         Seufert et al. (2012)       Estimer la perte de                       66 études         Perte moyenne de
rêt particulier. La population représente                                    rendement moyenne                                           rendement de 25 % (+-4 %)
                                                 Ponisio et al. (2015)       induite par le passage de                 115 études        Perte moyenne de
l’ensemble des situations pour laquelle on                                   l’agriculture conventionnelle
souhaite estimer la quantité d’intérêt (par                                                                                              rendement de 19.2 % (+- 7 %)
                                                                             à l’agriculture biologique
exemple, les parcelles de blé européennes).                                  Récupérer les documents
La deuxième étape consiste à réaliser une                                    susceptibles d’inclure des
revue systématique de la littérature dans                                    données pertinentes
le but de récupérer les études incluant des      Marvier et al. (2007)       Effet des cultures OGM                    42 études         Les invertébrés sont plus
données permettant d’estimer la quantité                                     (maïs et coton Bt) sur les                                  abondants dans les cultures
définie à l’étape 1. Cette étape doit être                                   invertébrés non cibles                                      OGM que dans les non OGM
                                                                                                                                         traités
réalisée en utilisant des outils informa-
tiques de revue bibliographique et/ou de         Wilcox et Makowski          Effet du changement                       90 études         Une augmentation de la
                                                 (2014)                      climatique sur le rendement                                 concentration en CO2 de
veille scientifique. Les documents récupé-                                   du blé                                                      l’atmosphère (>640 ppm)
rés au cours de cette étape peuvent être                                                                                                 compense en moyenne
éventuellement complétés par des articles                                                                                                l’effet négatif d’une
fournis directement par des experts du                                                                                                   augmentation de 2 °C de
domaine.                                                                                                                                 la température et d’une
                                                                                                                                         diminution de 20 % des
L’objectif de la troisième étape est de                                                                                                  précipitations.
trier les documents récupérés à l’étape 2
                                                 Philibert et al. (2012)     Estimation des émissions                  203 études
                                                                                                                       La quantité de N2O émise
puis d’extraire les données des documents                                    de N2O (gaz à effet de serre)             est inférieure à 1 % de
sélectionnés. Il s’agit ici de ne garder que                                 induites par la fertilisation             la dose d’engrais azoté
les documents répondant à certains cri-                                      azotée                                    appliquée si cette dose est
tères (protocoles expérimentaux de bonne                                                                               inférieure à 160 kg N ha-1, et
                                                                                                                       supérieure à 1 % sinon.
                                                Tableau 2. Exemples de résultats obtenus dans des méta-analyses agronomiques

                                                qualité, disponibilité des données etc.),                    Une fois la base de données créée, l’étape
                                                d’extraire les données des tableaux et/                      suivante consiste à réaliser une analyse
                                                ou figures présentés dans ces documents,                     statistique des données disponibles dans
                                                puis d’archiver ces données dans une                         le but de décrire la variabilité inter-études
                                                base de données adaptée. Certains outils                     des estimations individuelles, d’estimer la
                                                informatiques peuvent faciliter l’extrac-                    valeur moyenne de la quantité d’intérêt
                                                tion des données mais cette étape n’est                      et d’analyser les incertitudes associées.
Figure 1. Synthèse de données issues            généralement pas complètement auto-                          La dernière étape consiste à exercer
d’études expérimentales individuelles.          matisable. En pratique, la sélection et                      un regard critique sur le travail réalisé,
Chaque étude produit une estimation d’une       l’extraction des données prennent ainsi                      en détectant l’existence éventuelle d’un
quantité d’intérêt. La méta-analyse permet
de synthétiser les estimations individuelles    généralement plusieurs semaines, voire                       biais (qui peut résulter du fait que seule
pour obtenir une estimation globale.            plusieurs mois.                                              une partie des études réalisées ait été

                                                Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015                                     9
Regards sur…
Le Big data

récupérée) et en analysant la sensibilité       nombre d’études plus grand (tableau 2).          L’application de méthodes statistiques
des résultats aux études individuelles.         Cette nouvelle méta-analyse (basée sur           non adaptées peut également diminuer la
                                                115 études) a conduit à une révision à la        fiabilité des conclusions, par exemple en
Un rôle croissant dans les                      baisse des pertes de rendements agricoles        calculant des intervalles de confiance trop
sciences agronomiques                           induites par le passage de systèmes agri-        étroits et en donnant ainsi une vision trop
et environnementales                            coles conventionnels à des systèmes bio-         optimiste de la précision des estimations.
Depuis une dizaine d’années, la méta-ana-       logiques (19.2 % contre une estimation           Il est important d’assurer un niveau de
lyse est de plus en plus souvent utilisée       initiale de 25 % de perte de rendement           formation suffisant des personnes réa-
dans les sciences agronomiques et environ-      moyenne). Les autres méta-analyses briè-         lisant des méta-analyses. Ces dernières
nementales. Il existe en effet une demande      vement décrites dans le tableau 2 illustrent     doivent en effet être compétentes à la
croissante pour des synthèses scientifiques     la diversité des sujets abordés avec cette       fois dans leur domaine d’application mais
quantitatives, non seulement de la part de      approche : impact environnemental des            aussi en analyse de données.
communautés scientifiques mais aussi de         OGM, effet du changement climatique,             Il est également souhaitable que les résul-
la part de groupes associatifs, d’entreprises   émission de gaz à effet de serre.                tats des méta-analyses soient mis à dispo-
et d’institutions internationales. Quelques                                                      sition d’un public aussi large que possible.
exemples de méta-analyses réalisées                                                              Le dépôt des bases de données sur des
récemment en agronomie sont présentés           « Les résultats des méta                         sites accessibles à tous est une pratique
dans le tableau 2 à titre d’illustrations.      analyses devraient être                          qui doit être encouragée pour, d’une part,
Un des atouts de la méta-analyse est            partagés pour faciliter                          assurer un niveau élevé de transparence
qu’elle permet de synthétiser un ensemble       la réutilisation et la                           et, d’autre part, faciliter la réutilisation et
important d’études réalisées sur certains       réanalyse des données »                          la ré-analyse de données collectées par
sujets controversés et qu’elle fournit une                                                       des communautés scientifiques larges sur
vision plus large et plus objective de l’état   Les défis                                        des sujets présentant un intérêt sociétal
des connaissances disponibles à une date        La popularité croissante de la méta-analyse      important.
donnée. Parfois, plusieurs méta-analyses        ne doit pas faire oublier que son utilisa-                        ❙❙David Makowski (PG 93)
sont réalisées sur un même sujet à quelques     tion reste délicate. Pour que les résultats
années d’intervalles de manière à prendre       soient fiables, il est nécessaire de récupérer       Des informations détaillées sur la
en compte les études produites au cours         les études individuelles en adoptant une           méta-analyse, des exemples récents
des années les plus récentes. C’est le cas,     démarche systématique et transparente.            de méta-analyses et des exemples de
par exemple, des méta-analyses réalisées        Il existe en effet un risque important de        bases de données agronomiques sont
sur l’agriculture biologique. Sur ce sujet,     biaiser les conclusions en récupérant un               disponibles sur le site suivant :
une méta-analyse a été réalisée en 2012 à       groupe d’études qui ne soit pas représen-              www6.versailles-grignon.inra.fr/
partir de 66 études puis, en 2015, une autre    tatif de l’ensemble des études réalisées sur     agronomie/Meta-analysis-in-agronomy
méta-analyse a été réalisée à partir d’un       un sujet donné.

10
Le Big data

Données massives : analyse
d’images de télédétection
pour suivre les variations
de l’environnement
Les capteurs sont aujourd’hui omniprésents dans notre                                                          scientifiques permettent d’envisager des
                                                                                                               approches dites bottom-up ou inductives
quotidien et fournissent en continu des données qui                                                            dans lesquelles les analyses sont menées
modifient nos habitudes. La difficulté ne porte pas sur                                                        directement depuis les données massives
                                                                                                               et font apparaître de nouvelles informa-
l’acquisition des données mais bien sur leur gestion, leur                                                     tions et connaissances jusqu’alors demeu-
exploitation et leur pérennisation et c’est bien là tout le                                                    rées cachées.
paradoxe.                                                                                                      Observation de la Terre
                                                                                                               L’observation de la Terre permet en par-
                                                                                                               ticulier de modéliser et d’étudier les pro-
                                                                                                               cessus qui se nouent à la surface de la
                                                                                                               Terre en interaction avec l’atmosphère.
                                                                                                               Depuis plus de 40 ans maintenant, la
                                                                                                               Terre est continuellement contrôlée par
                                                                                                               des capteurs imageurs optiques et radars
                                                                                                               embarqués au sein de satellites en per-
                                                                                                               pétuelle gravitation. Les images obtenues
                                                                                                               sont ensuite traitées de manière à fournir
                                                                                                               de l’information prête à l’emploi pour
                                                                                                               de nombreuses problématiques dans les
                                                                                                               sciences de l’environnement. Les tech-
                                                                                                               niques développées pour la télédétec-
                                                                                                               tion sont maintenant matures et peuvent
Figure 1. Compositions colorées faisant ressortir la saisonnalité de la végétation en rouge                    répondre à diverses demandes concernant
                                                                                                               par exemple la détection de feux de forêt,

L
         es besoins, en matière d’accès, de       œuvré pour la mise sur le marché de                          la prévention d’inondations ou bien la
         diffusion et d’utilisation de l’infor-   tels systèmes sont des sociétés comme                        supervision de la tâche artificialisée dans
         mation, en particulier sur le web,       Google, Apache, Amazon ou Twitter qui                        un contexte de développement durable.
ont fait évoluer les manières d’envisager         sont partie prenante dans l’évolution du                     Ces techniques mettent fréquemment
la gestion des données. De nouvelles solu-        web. Google propose le système NOSQL                         en œuvre de l’apprentissage automatique
tions de gestion de données, nommées              « Google BigTable » pour une gestion et                      de manière à étiqueter les données issues
NOSQL, pour Not Only SQL, vont facili-            une mise à disposition efficace de gros                      des images et à leur attribuer une classe
ter la gestion de gros volumes de données         volumes de données distribuées. Apache                       d’appartenance, souvent dans le but de
distribuées destinés à satisfaire les besoins     a défini de son côté le framework Hadoop                     produire une carte d’occupation du sol.
en information de larges communautés              pour traiter à la volée de gros volumes de                   Les classes eau, sol nu ou végétation sont
d’usagers. Ces systèmes sont complémen-           données partitionnés et ainsi répondre à                     des exemples de classes d’occupation du
taires des systèmes de gestion de don-            des problématiques dites de « big data »,                    sol très générales.
nées relationnels classiques et sont conçus       en matière d’analyse et de valorisation de
pour fournir des réponses adaptées dans           données massives. Nous nous intéressons                      Etudier les périmètres irrigués
des contextes de très forte sollicitation         aux sciences de l’environnement et en                        des agrosystèmes oasiens
de grandes masses de données, poten-              particulier aux données issues de l’obser-                   Les capteurs optiques fournissent des
tiellement incomplètes et hétérogènes.            vation de la Terre. Les avancées techno-                     informations spectrales, spatiales et
Les principaux acteurs ayant largement            logiques pour la production de données                       temporelles particulièrement riches et

                                                  Symbiose – le magazine d’AgroParisTech Alumni – NO 12 – Juillet 2015                                 11
Vous pouvez aussi lire