Sommaire - Big Data Paris

La page est créée Éric Langlois
 
CONTINUER À LIRE
Sommaire - Big Data Paris
Sommaire
   LUNDI 6 MARS 2017                                                               1

  SESSION ANIMEE PAR ENGUERAND RENAULT,                      REDACTEUR EN CHEF
MEDIAS ET TECHNOLOGIES, LE FIGARO.                                                 1

   DISCOURS D’OUVERTURE                                                            1

   Présentation : Big Data, Cloud and IoT: panorama and key figures for the
European Market at the horizon of 2020                                             3

   Table ronde : Big Data et cyber sécurité : anticiper et maîtriser les risques   4
Table ronde : Assistants personnels, le nouveau hype : quelle vérité derrière
cette techno ?                                                                         5

    Keynote : La donnée intelligente, au cœur de la transformation digitale de
l’entreprise et du changement de modèle économique                                     7

   Keynote : Netflix : how “Stranger Things” can happen with Visual Analytics          7

    Retour d’expérience : Optimiser un système de recommandation en ligne avec
du transfer learning et deep learning : l’exemple de Voyage Privé                      8

   XDStore Covéa : faire de la donnée externe un levier pour l’amélioration de la
connaissance des clients et des risques                                                9

   Viacom : l’optimisation des campagnes marketing par les données – Toucher le
bon public au bon moment                                                               10

   Trainline : comment optimiser       ses   investissements   marketing   avec   la
consolidation des données                                                              10

   Smart fitness & health apps using crowd-sourced data                                11

   Auchan Direct                                                                       13

   SeLoger.com et l’expérience du « cookie vocal »                                     13

   La data au service d’une relation attentionnée au client                            14

   La mise en place d’un Datalake temps réel : retour sur l’expérience d’Orange
Business Services                                                                      15
MARDI 7 MARS                                                                     17

   SESSION ANIMEE PAR ENGUERAND RENAULT, JOURNALISTE ECONOMIQUE                     17

   Deep Learning and Big Data applied to your business : the key factors to
success                                                                             17

    Utilisation des données par les entreprises et confiance des consommateurs :
retour sur une étude BCG menée aux Etats-Unis et en Europe                          18

   Présentation et débat : GDPR : relever les défis de la nouvelle réglementation
européenne sur la protection des données personnelles. Soyez prêts pour mai
2018 !                                                                              18

    Table ronde : Le Chief Data Officer : nouvel avantage concurrentiel de votre
stratégie ?                                                                         21

    Futur de la data : comment le Big Data peut aider les modèles économiques
traditionnels à rester dans la course                                               22

   Remise des Trophées de l’Innovation Big Data 2017                                23

   Renault : les Augmented Analytics au service du pilotage financier               23

   Instant Payments : déploiement des technologies Big Data chez STET               24

   Banco Santander : comment le Big Data révolutionne la gestion du risque          25

   Une approche pragmatique du Big Data et de la Data Science pour un impact
business sur l’ensemble de la chaîne de valeur assurancielle                        25
Vestas Wind Systems : comment l’IoT, le Big Data, l’analytique, la data science
ont fait l’un des leaders de l’énergie éolienne mondiale                                26

    Maîtriser des milliards de données et anticiper les mutations numériques :
l’exemple de la Sacem                                                                   27

   PMU et Big Data : d’une approche mono-projet marketing à une démarche
entreprise                                                                              28

    Le Big Data chez Airbus : le modèle GAIA de synchronisation des vues, de
rationalisation de l’analyse et de fabrication des vues de manière collaborative        29

   Accélérer la transformation de l’entreprise par la date : l’expérience de Bouygues
Télécom                                                                                 29
Big Data Paris 2017       1

DISCOURS D’OUVERTURE
     Guillaume POUPARD, directeur général de l’ANSSI (Agence nationale de la sécurité
des systèmes d'information), souligne que les menaces qui pèsent sur la sécurité
numérique s’avèrent déstabilisantes dans la mesure où elles peuvent venir de quasiment
n’importe où (groupes criminels, mafias). Certaines attaques – toujours discrètes – visent à
dérober de l’information, dans une logique d’espionnage économique, et font apparaître
leurs effets parfois deux ou trois ans après l’attaque initiale. L’ANSSI est appelée à traiter
plusieurs dizaines de cas par an, avec des conséquences potentielles pour la sécurité
nationale. D’autres attaques prennent plutôt la forme d’actes de sabotage et visent à
perturber le fonctionnement des systèmes d'information dans des domaines d’importance
vitale (transports, finance, énergie, etc.).
    Si les menaces sont fortes, la manière de les contrer demeure relativement simple. De
nombreuses solutions sont d'ailleurs assez peu coûteuses, ce qui souligne le fait qu’il s’agit
davantage d’un problème de volonté et de compréhension des enjeux. C’est une doctrine
de sécurisation qui est imposée par exemple aux acteurs d’importance vitale, autour de
quatre volets dont certains ne sont pas techniques. Trop souvent en effet, au sein des
entreprises victimes, le COMEX, volontairement ou non tenu à l’écart, découvre ces enjeux
lorsqu’il est trop tard. Il est essentiel que le plus haut niveau des entreprises se préoccupe
de ces risques, qui n’incombent pas seulement au RSSI.
    Une autre dimension de cette doctrine a trait à l’humain : il est crucial de sensibiliser
les effectifs au niveau pertinent en expliquant quels sont les gestes élémentaires (parfois
qualifiés « d’hygiène informatique ») afin de ne pas exposer les systèmes à des risques
aisément évitables.
    D’autres aspects sont de nature technique. Les systèmes d'information doivent être
conçus, dans leur architecture même, pour résister à d’éventuelles attaques. Les nouveaux
systèmes doivent être pensés en incluant une dimension d’analyse de risque de façon à
bâtir des systèmes aussi robustes que possible. Il n’existe pas de sécurité à 100 %,
souligne Guillaume POUPARD, mais il faut être en mesure de détecter au plus vite les
attaques. Celles-ci, même très violentes, ne sont jamais instantanées et sont toujours
précédées de phases d’intrusion, ce qui permet de détecter, moyennant quelques efforts,
une grande majorité d’entre elles.
    Pour mettre en œuvre une telle doctrine, plusieurs guides ont été élaborés par l’ANSSI
en fonction des besoins des utilisateurs, des gestes élémentaires jusqu'aux éléments les
plus techniques. Une démarche de qualification consiste aussi, sur la base d’un référentiel
public, à identifier les prestataires volontaires capables d’apporter un service de sécurité
de haut niveau.
    Enfin, Guillaume POUPARD met l’accent sur les enjeux de la formation. La
sensibilisation aux questions de sécurité numérique devient primordiale afin que les
systèmes soient bien conçus dès le départ.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017      2

    En tout état de cause, la transformation numérique ne se fera pas sans prise en
compte de la sécurité numérique. Trop longtemps opposés, ces deux aspects doivent
aujourd'hui être envisagés de concert.
    Interrogé par un participant quant à la maturité du marché au regard des enjeux de
sécurité numérique, Guillaume POUPARD rappelle qu’outre la plus grande visibilité des
menaces, il existe une pression réglementaire croissante en vue de la sécurité des
systèmes d'information et de la protection des données, ce qui tire l’ensemble du marché.
Un travail a été initié avec les grands équipementiers pour entrer dans une logique de
conception sécurisée et de qualification (l’étape suivante résidant dans l’intégration
sécurisée des briques élémentaires des systèmes). De plus en plus, la protection des
données et la sécurité numérique soulèvent un enjeu de confiance qui constitue une
condition clé pour l’ensemble des acteurs de la transformation numérique.
   Un participant souligne aussi les enjeux attachés à la sécurité des données et
demande quelle articulation existe par exemple entre l’ANSSI et la CNIL.
     Guillaume POUPARD précise qu’il existe des acteurs et des réglementations
s’intéressant à la sécurité des données, tandis que d’autres acteurs et réglementations ont
pour objet la sécurité des systèmes d'information. La CNIL est une autorité indépendante,
ce que n’a pas vocation à être l’ANSSI. Les représentants de ces organismes font en sorte
que les dispositifs ne divergent pas.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       3

Présentation: Big Data, Cloud and IoT:
panorama and key figures for the
European Market at the horizon of 2020
     Gabriella CATTANEO, associate vice president au sein d’IDC European Government
Consulting, observe qu’il n’a jamais été possible d’anticiper les tendances appelées à se
faire jour, sur le plan économique comme sur le plan politique. Des tendances n’en restent
pas moins décelables dans cette incertitude, à commencer par l’augmentation des
dépenses liées à l’internet des objets (Intelligence Of Things), la robotique et les systèmes,
qui devraient croître de près de 20 % au cours des prochaines années, tandis que les
dépenses dans les systèmes d'information traditionnels devraient diminuer.
    1,29 trilliard de dollars : telle est la somme qui devrait être investie au plan mondial
dans l’Internet des objets d’ici 2020, l’Asie-Pacifique représentant la plus forte part de ces
investissements. Selon un sondage réalisé auprès d’utilisateurs de produits IoT, les choses
ont radicalement changé de 2007 à 2017, à tel point que l’internet des objets a désormais
un impact sur les modèles économiques des entreprises.
   Le Cloud est appelé à devenir d’ici deux ans le mode de fourniture préféré pour les
Analytics, car les sociétés utilisent de plus en plus les données publiques et privées,
ouvrant la voie à des milliers de nouvelles applications.
     D’ici 2020, selon les prévisions d’IDc European Government Consulting, 45 % des
infrastructures IT des entreprises européennes seront centrées sur le Cloud, ce qui montre
bien le rôle central que celui-ci est appelé à jouer.
     La conjugaison de ces tendances de fond devrait stimuler la croissance européenne :
selon les estimations de la Commission européenne, la contribution du digital, en incluant
les impacts directs et indirects, se montait déjà à 300 milliards d'euros en 2016. Plusieurs
scénarios peuvent être envisagés à ce stade. Si un scénario moyen permet d’espérer une
croissance de 2,5 % à l’échelle de l’Union européenne en 2020, un scénario de croissance
forte (4 % du PIB) paraît également envisageable, notamment si les PME adoptent
l’innovation digitale plus rapidement et si le partage des données s’accélère dans
l’économie du continent.
    Nous devons nous projeter vers l’avenir, souligne en guise de conclusion
Gabriella CATTANEO. Le cadre général de régulation s’adaptera, comme toujours, mais il
incombe à toutes les entreprises de savoir saisir l’innovation pour dégager des avantages
compétitifs. « Si ce n’est pas vous qui le faites, cet avantage reviendra à d’autres »,
prévient-elle.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       4

Table ronde : Big Data et cyber sécurité :
anticiper et maîtriser les risques
   Participent à la table ronde :
   •   Elias BALTASSIS, Director Europe, Data & Analytics, Boston Consulting Group ;
   •   Yves BIGOT, Directeur général, TV5 Monde ;
   •   Pierre DELORT, DSI, Auteur "Le Big Data" & Enseignant, Institut Mines Télécom.
   La table ronde est animée par Enguérand RENAULT.

    Elias BALTASSIS constate qu’à l’exception de quelques sociétés qui ont été
attaquées, le Big Data et la cybersécurité ne constituent pas encore, en règle générale,
des sujets de direction générale. Les équipes de gouvernance des entreprises doivent
s’atteler à une identification des principaux risques les concernant et de leurs impacts
potentiels, puis définir un plan de prévention et de lutte éventuelle contre ces menaces.
    Une fois la prise de conscience opérée, un audit peut être commandé auprès d’acteurs
tels que le BCG, qui a pour tâche d’aider les directions générales à agir en la matière.
Elias BALTASSIS croit peu, au passage, à la labellisation, car celle-ci s’attacherait à la
protection du risque précédent, alors que les hackers et assaillants ont toujours un temps
d’avance. Il signale aussi l’émergence du concept de cyber-résilience sans doute promis à
un bel avenir : il ne s’agit pas de chercher à empêcher toutes les attaques mais plutôt
d’essayer de répondre à la question suivante : une fois qu’on est attaqué, comment
survivre ?
    Pierre DELORT considère que plutôt que la cybersécurité, les acteurs économiques
doivent gérer un « cyber-risque ». Il existera toujours un maillon faible en termes de
sécurité, par exemple un sous-traitant ayant accès à certains systèmes de l’Entreprise.
Pour être résiliente, une entreprise doit savoir détecter au plus tôt une tentative
d’agression, une agression ou une pénétration dans ses systèmes. Elle doit aussi être en
mesure de déclencher une alarme en cas de détection d’une intrusion. C’est l’objet du
SOC (Security Operations Center) dont doit se doter toute entreprise.
     Yves BIGOT revient quant à lui sur l’attaque subie par TV5 Monde le 8 avril 2015, à
l’issue du Conseil d’administration du Groupe. Une conférence de presse avait eu lieu ce
jour-là pour lancer la chaîne TV5 Monde Style HD, consacrée à l’art de vivre à la française,
en présence du ministre des affaires étrangères Laurent Fabius, qui était à l’origine du
projet. Au cours des heures qui ont suivi, Yves BIGOT a appris en quelques secondes que
les douze chaînes du Groupe étaient passées à un écran noir et que sur certains sites
internet du Groupe apparaissent des messages, lourds de menaces pour diverses
institutions françaises, signés par un mystérieux « cyber califat ». Le Groupe est parvenu
au cours de la nuit suivante à rétablir un signal commun aux douze chaînes. Il a fallu
quelques heures de plus pour que le signal propre à chacune des chaînes soit rétabli et
que celles-ci émettent de nouveau leurs programmes. Il est apparu que cette attaque,
déclenchée vers 20 heures 40 le 8 avril, avait été préparée de longue date. Le directeur
des systèmes d'information, présent sur place au moment de l’attaque en raison du
lancement d’une nouvelle chaîne ce jour-là, est parvenu à identifier la machine d’où
provenait l’attaque. Il a ainsi pu la déconnecter du réseau, faute de quoi la totalité des
systèmes de TV5 Monde aurait été détruite. Une incertitude a ensuite pesé durant des
mois quant à la capacité qu’aurait le Groupe à retrouver un fonctionnement satisfaisant.
TV5 Monde est finalement revenu à flot mais cette attaque aura présenté un coût de
10 millions d'euros au cours des exercices 2015 et 2016, puis 3 à 4 millions d'euros en
2017 et 20018.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       5

    L’enquête, conduite notamment avec le concours de l’ANSSI, a montré que l’attaque
visait bien à détruire TV5 Monde et non à voler des données. Il est également apparu que
les attaquants n’étaient pas liés à l’Etat islamique, comme ils ont voulu le faire croire : il
s’agit en réalité d’un groupe de hackers russes qui a également fait parler de lui à
l’occasion de l’élection présidentielle américaine. Deux questions restent, à ce stade, en
suspens : pourquoi TV5 Monde a-t-elle été visée, d’une part et qui était le donneur d’ordres
d’autre part ?
    Elias BALTASSIS souligne que les démarches d’évaluation des risques ont conduit à
identifier, dans certaines très grandes entreprises, un risque de mort possible en cas
d’attaque majeure. Aussi faut-il faut parfois rebâtir entièrement un système qui n’a pas été
convenablement conçu en termes de sécurité. C’est ce qui peut expliquer le choix de
certaines entreprises de développer, parallèlement à leur système ancien, un « shadow
IT » au sein duquel certaines activités critiques, telles qu’un projet de recherche, par
exemple, peuvent plus aisément être protégées des cyber-risques.

Table ronde : Assistants personnels, le
nouveau hype : quelle vérité derrière cette
techno ?
   Participent à la table ronde :
   Alexandre LEBRUN, Engineering manager, Facebook AI Research ;
   Emmanuel MOGENET, Directeur, Google Research Europe ;
   Emmanuel VIGNON, Cognitive Practice Leader, IBM France.
   La table ronde est animée par Enguérand RENAULT.

     Emmanuel MOGENET explique que le travail de Google sur les assistants personnels
vise à introduire la notion de conversation avec l’assistant : celui-ci se souvient qui nous
sommes et ce que nous lui avons déjà demandé. C’est dans la compréhension sémantique
de questions allant au-delà de requêtes portant sur des données factuelles que
l’intelligence artificielle doit apporter une valeur ajoutée supplémentaire.
    « Nous sommes à l’année 1997 de l’internet », estime Alexandre LEBRUN : l’internet
du dialogue (voix ou texte) en est à ses balbutiements. Au cours du dialogue avec son
assistant, il doit être possible d’effectuer des tâches impliquant la construction d’un
contexte telles que la réservation des vacances, sans que cela n’empêche de commander
une pizza au milieu de la conversation.
     Pour IBM, explique Emmanuel VIGNON, l’enjeu est de démocratiser l’expertise en la
rendant accessible à tous les utilisateurs de la planète. C’est la raison d’être de Watson,
l’assistant personnel d’IBM, développé à partir du constat selon lequel une grande partie
de la valeur est cachée dans les processus d’expertise existant au sein des métiers
(finance, télécoms énergie). Un conseiller bancaire doit par exemple maîtriser une
cinquantaine de produits (dans lesquels interviennent fréquemment des changements de
réglementation) tandis qu’il a une centaine de clients en portefeuille. Cette double
dimension crée une complexité que l’assistant personnel peut aider à appréhender pour
offrir in fine un service plus précis aux utilisateurs finaux.
    Si l’expérience utilisateur est manifestement transformée par l’introduction des
assistants personnels, Emmanuel VIGNON observe que, dans certains cas, un filtre simple

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017        6

peut s’avérer plus efficace qu’un assistant personnel auquel il faudrait transmettre une
demande orale qui serait plus longue à énoncer que d’écrire.
    Le projet « Facebook M », lui, s’inscrit dans un horizon de long terme (cinq ou dix ans)
et consiste à faire apprendre à l’assistant à reproduire des exécutions de tâches d’un bout
à l’autre, grâce à un long apprentissage effectué avec des trainers humains, sans
intervention de programmes ni de scripts.
   Emmanuel VIGNON rappelle aussi qu’IBM a été à l’initiative de la création du
consortium éthique sur l’intelligence artificielle auquel se sont joints Google, Facebook,
Microsoft et Apple. La démarche repose sur le constat de la nécessité de créer un climat
de confiance autour de l’intelligence artificielle, ce qui a plaidé pour l’adoption d’un certain
nombre de principes simples et partagés – par exemple le fait que chaque assistant
personnel soit créé dans un but précis.
    Emmanuel MOGENET se dit convaincu que l’intelligence artificielle et le machine
learning auront un effet transformatif sur les sociétés. Il importe que tous les acteurs
impliqués aient un dialogue à ce sujet, y compris les acteurs sociaux, représentants des
sciences humaines et responsables politiques.
     Emmanuel VIGNON signale d'ailleurs qu’IBM a été sollicité par la nouvelle
administration américaine en vue de l’adoption de principes autour de l’intelligence
artificielle – démarche dont l’horizon n’a pas été annoncé. Une initiative similaire a été
lancée en France par Axelle Lemaire avant qu’elle ne quitte son poste de Secrétaire d’Etat
chargée du numérique et de l’innovation pour se lancer dans la campagne présidentielle
au sein de l’équipe d’un candidat.
      Emmanuel VIGNON et Emmanuel MOGENET font part de points de vue convergents
pour considérer que la vie privée et le contrôle des données doivent rester à la main de
l’utilisateur. Les données appartiennent aux utilisateurs, assure Emmanuel MOGENET,
quelle que soit la façon dont elles ont été collectées. Les utilisateurs peuvent d'ailleurs
effacer, grâce à un seul bouton, toutes les données que détient Google à leur sujet.
     Interrogé par un participant qui souhaite savoir si les technologies d’intelligence
artificielle permettront à terme de reproduire l’intelligence humaine ou si elles peuvent
déboucher sur un autre type d’intelligence, Emmanuel VIGNON souligne que les humains
et les machines ont chacun des capacités phénoménales mais radicalement distinctes. Il
ne pense pas être appelé à voir de ses yeux une intelligence artificielle aussi puissante
que Jarvis dans Iron Man. La société aura donc le temps d’accompagner ces évolutions.
     Emmanuel MOGENET fait part d’un point de vue un peu différent. A ses yeux,
l’intelligence artificielle s’apparente à un exosquelette du cerveau, susceptible de décupler
les capacités humaines. La distinction entre l’humain et la machine est appelée à s’effacer
progressivement, à tel point que la question n’aura sans doute plus d’objet à terme.
    Alexandre LEBRUN partage cet avis. Il considère aussi que l’intelligence artificielle est
fortement surestimée à l’heure actuelle.
    Toujours est-il que la manière d’appréhender le rapport aux machines est en train de
changer du tout au tout. Il s’agissait auparavant de programmer un ordinateur, c'est-à-dire
lui donner une liste d’instructions détaillées pour lui apprendre à faire des choses.
Désormais, il devient possible d’apprendre à l’ordinateur à faire des choses par l’exemple.
C’est là une rupture majeure, étant entendu que les machines se montrent, pour l’instant,
très lentes dans leur apprentissage.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       7

Keynote : La donnée intelligente, au cœur
de la transformation digitale de l’entreprise
et du changement de modèle économique
    Marc GENEVOIS, directeur général de SAP France, indique que la quasi-totalité du
portefeuille de solutions de SAP est accessible aujourd'hui en Cloud ou selon des modèles
hybrides, de la gestion de clientèle jusqu'à la planification en passant par les ressources
humaines, les achats et les relations avec les fournisseurs.
    SAP, historiquement très présent dans l’industrie, a également investi massivement
dès 2011 afin de participer à l’avènement de l’industrie 4.0. L’Entreprise a développé un
portefeuille de solutions permettant d’apporter le flux de données des clients jusqu'à la
production au sein des usines. SAP a par exemple signé il y a quelques mois un accord
mondial avec Bosch, qui souhaite connecter tous les produits qu’il fabrique pour ensuite
collecter les données, et a dans le même temps digitalisé ses processus industriels grâce
aux plateformes SAP.
    Les réseaux sociaux ne sont pas en reste : SAP collecte et analyse les données
accessibles sur ces plateformes afin de permettre à ses clients d’en tirer de la valeur. La
principale question porte sur la valeur de ces données et sur la façon dont elles peuvent
être utilisées dans les processus de l’Entreprise. C’est de ce point de vue que SAP dispose
de connaissances et d’un savoir-faire précieux, grâce à la connaissance fine de la chaîne
de valeur de ses clients capitalisée au fil des années.

Keynote : Netflix : how “Stranger Things”
can happen with Visual Analytics
   Rappelant que Netflix compte plus de 93 millions d’abonnés dans 190 pays,
Jason FLITTNER, Senior Analytics Engineer, souligne que Netlix investira plus de
6 milliards de dollars en 2017 dans les contenus dédiés à ses abonnés. L’entreprise
compte environ 1 400 usagers internes du logiciel Tableau de visualisation de données.
    Prenant l’exemple de la technologie Hive (qui permet de rédiger une demande pouvant
ensuite être traduite en MapReduce) pour exploiter les données détenues par Netflix,
Jason FLITTNER conseille l’option ODBC pour connecter Hive à Tableau, moyennant le
recours à un serveur Thrift pour relier ces deux éléments. Hive et Tableau interagissent
alors par l’intermédiaire du serveur Thrift.
      Comme Hive, Spark permet de saisir une requête en vue d’interagir avec une base de
données, à ceci près que Spark n’a pas besoin d’utiliser MapReduce, ce qui en rend
l’utilisation plus rapide.
    Presto, solution open source proposée par Facebook, est une option additionnelle pour
interagir avec la base de données S3 de Netflix. Il s’agit d’un moteur de recherche puissant
et rapide, idéal pour tester l’utilisation de plus petits volumes de données. La connexion
avec Tableau peut être opérée via ODBC ou un connecteur web.
    Tirant les enseignements de ces différentes expériences en vue d’un fonctionnement
optimal de Tableau, Jason FLITTNER souligne l’intérêt de la fonctionnalité « Tableau
Extract API », qui permet de dissocier l’accès aux données et la création de tableaux
réalisés à partir de leur extraction.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       8

    Amazon Redshift, utilisé avec le connecteur Tableau natif, constitue aussi une
excellente solution en évitant les problèmes de stabilité parfois rencontrés avec d’autres
applications. Il arrive aussi que l’extraction des données s’avère trop complexe, auquel cas
l’accès aux données peut se faire en direct, notamment grâce à Redshift.
    Interrogé par un participant quant à la façon dont Netflix mesure la joie de ses abonnés
(puisque tel est l’un des objectifs cités par Jason FLITTNER dans un horizon de moyen
terme), précise que la société s’efforce de faire en sorte que ses contenus soient
pertinents au regard des attentes de ses abonnés.

Retour    d’expérience :  Optimiser  un
système de recommandation en ligne avec
du transfer learning et deep learning :
l’exemple de Voyage Privé
   Christophe DUONG, data scientist de Voyage Privé, explique en quoi les données
peuvent alimenter un moteur de recommandation, dont la fonction est de reproduire un
conseil personnalisé tel que celui que pourrait donner un commercial dans un magasin.
    Dans le cas de Voyage Privé, deux spécificités entrent en ligne de compte :
•    la récurrence de ventes flashs, qui se renouvellent toutes les semaines, avec une
     importante dimension de saisonnalité ;
•    des offres de séjours proposées à un prix relativement élevé, rendant leur achat très
     ponctuel, voire rare, ce qui réduit le volume de données disponibles sur les clients.

     Un workflow a été inventé par la communauté du datamining, permettant de
comprendre le contexte des recherches des utilisateurs et de la donnée à traiter. Celle-ci
est analysée en vue d’établir un modèle de prévision des ventes et du trafic des
utilisateurs. Le modèle va ensuite être testé sur deux groupes d’utilisateurs, l’un auquel on
présente les recommandations établies par la machine et l’autre auquel aucune
recommandation n’est fournie.
    Deux approches peuvent être distinguées pour mettre au point un tel moteur de
recommandation. La première donne priorité à la logique collaborative tandis que la
seconde se focalise sur un seul utilisateur à la fois en analysant son historique de visite et
les ventes afférentes. Plusieurs modèles ont été élaborés selon cette méthode. L’enjeu
consiste, sur cette base, à bâtir un « méta-modèle » établissant pour chaque produit un
score final correspondant à la probabilité d’achat du produit par le client. Les produits
peuvent ensuite être réagencés ou priorisés en fonction de la probabilité d’achat.
     Pour ce faire, toutes les données sont analysées et recombinées en fonction des
résultats obtenus. Les recommandations, rafraîchies chaque nuit, ont permis une
augmentation du chiffre d'affaires de 7 % dans le groupe au sein duquel elles ont été
utilisées, par comparaison avec le groupe témoin.
   L’étape suivante a consisté à intégrer les images dans le moteur de recommandations.
Un frein au développement de cette approche réside dans la capacité de calcul des
machines, car il faut une base considérable d’images pour que la machine reconnaisse les
éléments qui la composent. Cette difficulté a été contournée en s’appuyant sur des bases
de données labellisées accessibles en open source sur internet, notamment la base de
données « places » labellisée à travers plus de 200 catégories. Une autre évolution a
ensuite consisté à personnaliser l’image d’accroche qui sera proposée à l’utilisateur sur la

    Paris, les 6 et 7 mars 2017
Big Data Paris 2017       9

première page du site (en montrant par exemple une image de piscine ou une image de
paysage en fonction des préférences qui auront été constatées pour cet utilisateur).
   D’une façon générale, Christophe DUONG préconise d’élaborer une solution simple
dont on est capable de mesurer les résultats pour ensuite affiner le modèle, et ainsi
poursuivre les itérations permettant l’amélioration progressive du modèle.
     Interrogé par un participant quant à la mesure de la performance des
recommandations, Christophe DUONG précise qu’il existe plusieurs métriques de
performance, basées notamment sur l’analyse du modèle de visite de tous les clients ayant
visité le site, qu’ils aient acheté ou non. Voyage Privé a réalisé des tests sans les images
et commence à évaluer la performance de la recommandation assortie d’images. Il est
donc un peu tôt pour se prononcer sur l’apport de cette approche, même si les tests
s’avèrent très prometteurs.

XDStore Covéa : faire de la donnée
externe un levier pour l’amélioration de la
connaissance des clients et des risques
     Soumaya BEN HASSINE, data scientist et responsable du projet XDStore au sein de
Covéa, souligne que la donnée externe est peu accessible, en raison notamment de
l’existence de silos organisationnels et historiques qui existent dans un groupe « ancien »
tel que Covéa. Pour simplifier et démocratiser l’usage de la donnée au sein du Groupe,
l’idée est née d’une sorte de « magasin de la donnée », le XDStore. Celui-ci constitue un
catalogue unique contenant de données traitées, qualifiées, mises à jour et prêtes à
l’emploi. L’utilisateur peut, parmi d’autres fonctionnalités, naviguer dans le XDStore,
télécharger des jeux de données et consulter le détail d’un jeu de données.
    Une autre utilisation du XDStore, tournée plutôt vers les statisticiens et data scientists,
peut consister à obtenir la liste de tous les jeux de données externes qu’il peut utiliser pour
enrichir son jeu de données, via le « XD Miner ». Celui-ci peut même fournir la liste des
variables externes qui peuvent être ajoutées à un modèle afin d’augmenter les
performances de celui-ci.
     Abordant les aspects technologiques de cette approche, Mathieu DESPRIEE, CTO et
co-fondateur de BLUE DME, précise que la solution se fonde sur une analyse
systématique et automatique de toutes les données intégrant la plateforme (calcul de
distribution, de cardinalité, etc.). Puis est opérée une analyse sémantique en repérant des
données géographiques (codes postaux, codes de communes…), des données
d’entreprise (codes Sirene) ou des données commerciales. Le graphe des relations entre
les jeux de données externes et les jeux de données internes pourra ensuite être élaboré,
ce qui va permettre d’identifier les correspondances possibles, auxquelles une heuristique
d’élimination est ensuite appliquée.
    Au quotidien, un data scientist s’efforce de construire des fonctions à partir de données
clients (âge, département, etc.) afin d’entraîner la machine à déterminer si un client sera
acheteur de telle ou telle offre, à partir d’une ou plusieurs variables. La technologie de
matching permet de rapatrier de nouvelles informations depuis des jeux de données
externes afin de comparer un grand nombre de modèles et déterminer en quoi ces
données exogènes peuvent rendre le modèle de prédiction plus performant. La solution est
basée sur une brique technologique issue de la R&D de BlueDME, assortie à Spark et à
des fonctions d’indexation avancées fournies notamment par Elastic Search.

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       10

   Le projet est en phase de production et Covéa espère atteindre le nombre de plusieurs
centaines d’utilisateurs internes d’ici la fin de l’année.

Viacom : l’optimisation des campagnes
marketing par les données – Toucher le
bon public au bon moment
    Soulignant l’enjeu crucial que représentent désormais les données dans l’industrie du
divertissement, qui doit croiser de multiples dimensions pour satisfaire ses publics dans un
monde changeant et hautement concurrentiel, Fabio LUZZI, VP Data Science de Viacom
(Paramount Pictures, MTV, Nickelodeon), explique qu’il existe un besoin de décisions
mieux informées et simultanément un besoin de plus grande anticipation dans les
décisions prises au regard des évolutions du marché.
    Forte de ce constat, Viacom a souhaité créer une plateforme accessible en libre-
service par ses équipes, basée sur le Cloud et sur des données analytiques avancées, afin
de toucher le bon public au bon moment. Une représentation visuelle tirée de cette
plateforme permet par exemple de visualiser de manière simple, minute par minute,
l’évolution de l’audience présente devant la télé, et de montrer comment le public se
déplace, par grappes, d’une chaîne à une autre.
     Caroline EPSTEIN, senior data scientist chez Viacom, décrit un autre exemple de
représentation visuelle obtenu à partir d’un script Python qui analyse des millions de
données, pour finalement relier les programmes télé par affinité, ce qui met au jour des
points communs entre les audiences de différents programmes en vue, par exemple, de
segmentations marketing dans la communication de Viacom. Des codes couleur peuvent
distinguer, parmi toute l’information produite, certaines caractéristiques intéressant
particulièrement l’Entreprise, celle-ci pouvant aussi faire le choix d’exploiter des
informations « de niche » qui n’auraient pu être mises en évidence sans un outil aussi
puissant, passant en revue des milliards de données.

Trainline :   comment     optimiser  ses
investissements    marketing    avec   la
consolidation des données
    Cédric RAUD, Lead Developer Marketing de Trainline (ex-Capitaine Train), revient sur
l’expérience de mise en place d’une structure « data » au sein de Trainline, distributeur
indépendant qui se donne pour objectif de proposer une solution alternative pour la vente
de billets de train dans 24 pays d’Europe avec une seule interface. Un tel dispositif
suppose d’exploiter les données de multiples opérateurs, dont le nombre est par exemple
de neuf en France (SNCF, Ouigo, TGV Lyria, etc.).
    Lancée en 2015, la première initiative « data » de Capitaine Train consistait à analyser
toutes les données dont disposait l’Entreprise, en s’appuyant sur un data scientist et deux
développeurs. La plupart des projets consistait à extraire les données intéressantes pour
les analyser et si possible en tirer des prédictions de grandes tendances afin d’anticiper les
flux de voyageurs. En réalité, avec une si petite structure, l’extraction de temps s’est
avérée extrêmement chronophage. De plus, si les analyses étaient fiables, chaque analyse

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017        11

dépendait de la source utilisée, ce qui rendait les analyses peu réutilisables et a augmenté
le temps requis par les analyses, au détriment de la prédiction.
    Le département marketing souhaitant principalement mettre en valeur l’offre de
l’Entreprise en vue de l’acquisition de nouveaux clients, il utilisait différents outils tels que
les bannières de Google, les réseaux sociaux, les réseaux d’affiliation et la communication.
La cellule Data s'est donné pour objectif de soutenir les initiatives lancées sur chacun de
ces canaux, ce qui supposait de collecter des données de sources différentes pour chacun
d’eux. Cette approche prenait beaucoup de temps, ce qui a fait émerger la volonté
d’automatisation de l’exploitation des données.
    Différentes solutions (création de pipelines pouvant générer des reporting automatisés,
outils de data science, etc.) ont été passées au crible des besoins de Capitaine Train. Les
solutions de reporting se sont avérées coûteuses. Elles présentaient aussi l’inconvénient
d’être génériques, avec le risque de limiter les analyses possibles. Le développement ad
hoc de pipelines de données entrait en contradiction avec l’objectif visant à rendre
autonome le data scientist de l’Entreprise. C'est la raison pour laquelle celle-ci s’est
penchée sur les solutions de data sciences, en particulier Dataiku, solution française qui
présentait le grand intérêt de pouvoir s’intégrer dans l’infrastructure de Capitaine Train
(devenu peu après Trainline), avec d’importants gains de temps à la clé.
     Le premier usage de cette solution a eu pour objectif d’accélérer le processus
d’analyse de l’efficacité des campagnes marketing. Il a fallu consolider les données pour
rendre leur extraction facile et rapide, tant pour les données d’activité (nombre de billets de
train, utilisateurs, etc.) que pour les données « métier ». La base offre aujourd'hui une vue
unique du parcours du client et a été complétée par un outil de visualisation permettant à
quiconque dans l’Entreprise de tirer parti de la richesse de la base.

Smart fitness & health apps using crowd-
sourced data
   Chul LEE, Head of Data Engineering & Science de la division « Connected Fitness »
chez Under Armour, souhaite partager certains des enseignements tirés par la marque
américaine dans le développement d’applications Big Data.
    Outre des vêtements et chaussures connectés ainsi que des applications (en
particulier MyFitnessPal) dont la marque a fait l’acquisition ces dernières années, Under
Armour a lancé des appareils de tracking et de suivi de l’activité physique (smart gears).
     La marque compte 195 millions d’usagers dans le monde, lui assurant un volume
considérable de données de fitness (par exemple 120 millions de données sur
l’alimentation et 700 millions de données sur la culture physique). L’objectif consiste à
créer de la valeur à partir de ces données, pour l’Entreprise et pour ses clients.
     L’application MyFitnessPal permet à l’utilisateur de tenir un « journal de bord » en
saisissant notamment tous les aliments qu’il consomme. Si cette fonction est déjà assez
avancée, elle a été récemment enrichie en l’étendant aux restaurants, ce qui a supposé de
saisir des millions de données correspondant à la traduction nutritionnelle de centaines de
milliers de menus et de plats couramment servis. Les données recueillies permettent aussi,
à partir des données transmises par les coureurs, de visualiser tous les parcours
empruntés par les joggers dans Central Park.
    Une autre application, Fitness Insights, indique par exemple à l’usager quand dormir,
quand se restaurer et quels sont les moments les plus propices pour faire de l’exercice.
L’application envoie ainsi des rappels et notifications qui permettent aux usagers

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017      12

d’optimiser leur durée de sommeil, même s’il ne fait pas de doute, convient Chul LEE, que
les outils de traçabilité du sommeil vont certainement d’affiner ce type d’application.

  Paris, les 6 et 7 mars 2017
Big Data Paris 2017       13

Auchan Direct
    Marc ROUSSEAU, responsable de la Data chez Auchan Direct, explique que cette
dernière est la filiale du groupe Auchan travaillant dans la livraison à domicile des courses
du quotidien, à raison d’une livraison en Ile-de-France en moyenne toutes les vingt
secondes. L’Entreprise connaît une transformation importante, dont témoigne la création
en 2016 d’un entrepôt permettant la préparation automatisée des commandes des clients,
ce qui constitue une première dans le secteur du e-commerce alimentaire.
    Se donnant pour mission d’éclairer les collaborateurs pour améliorer l’expérience
client, Auchan Direct a souhaité miser sur l’exploitation des Data, en s’attachant d'abord à
démystifier la Data à l’intention de son public, composé d’experts internes appelés à
prendre des décisions sur la base d’informations.
    Une recherche conduite à l’université de Duke aux Etats-Unis a interrogé les directeurs
financiers d’un grand nombre d’entreprises américaines en leur demandant des prédictions
quant à l’évolution de l’indice boursier américain S&P. Les chercheurs ont recueilli 11 600
prévisions d’experts et ont étudié leur corrélation avec la réalité, qui s’est avérée
quasiment nulle. Les chercheurs ont nettement démontré notre excès de confiance dans
nos prévisions, à tel point que l’hypothèse selon laquelle nos décisions seraient prises de
manière très rationnelle paraît fragilisée. Les analyses du prix Nobel Daniel Kahneman, qui
a distingué deux types de modes de fonctionnement du cerveau, une pensée intuitive
(correspondant au système des raccourcis cognitifs) et une pensée rationnelle (impliquant
de prendre du recul sur les faits à prendre en considération en vue d’une décision), vont
dans le même sens.
    Auchan Direct a débuté son travail sur les Big Data début 2016 avec une base de
données reposant sur six tables orientées client et un requêteur SQL. Le dispositif était
conçu pour l’Homo economicus parfaitement rationnel mais a donné peu de résultats.
L’Entreprise a ensuite enrichi son dispositif d’un outil de Dataviz Qlik Sense, en replaçant
le Dataware au centre de l’architecture du dispositif. Si le monde du Dataware peut être
envisagé comme une bibliothèque aux rayonnages infinis, le Big Data s’apparente
davantage à un immense grenier où les données ne sont pas rangées, et où les
technologies idoines sont indispensables pour s’y retrouver.
    Daniel Kahneman a également montré que le cerveau humain avait un certain nombre
de biais cognitifs dont nous sommes victimes tous les jours. Notre cerveau excelle en
particulier à construire une histoire cohérente dans laquelle ni la quantité ni la qualité des
données n’importe. Pour passer d’une démarche de diagnostic à une démarche
d’amélioration sans tomber dans ce type d’écueil, Auchan Direct avait besoin d’une
méthodologie très précise. Si le Big Data est nécessaire dans une démarche
d’amélioration, il ne peut suffire, souligne Marc ROUSSEAU. Trois piliers sont
indispensables pour mettre les collaborateurs en situation de réussir : le Lean, le Dataviz et
le Big Data.

SeLoger.com et l’expérience du « cookie
vocal »
    Romain SAMBARINO, président et fondateur d’Allo-Media, start up fondée en 2011,
raconte que travaillant d'abord sur les annuaires téléphoniques, la société qu’il a fondée
s'est vite rendu compte que personne ne s’était encore attaché à analyser le contenu des
conversations téléphoniques pour en tirer des données exploitables. L’Entreprise a recruté

   Paris, les 6 et 7 mars 2017
Big Data Paris 2017       14

des docteurs en reconnaissance automatique de la parole qui ont développé des outils
d’analyse de langage afin de rendre les conversations signifiantes. C'est dans cette
logique qu’a été créé le « cookie vocal » en septembre 2016.
     Marc RUSSO, Corporate Développement de Seloger.com, explique que le site
immobilier a lancé en février 2016 un nouveau service, Se Loger Invest, portant sur
l’investissement immobilier. Se Loger avait besoin d’une solution simple, efficace et rapide
à mettre en œuvre permettant de qualifier les « leads », c'est-à-dire les formulaires remplis
par les clients sur le site lorsqu’ils souhaitent être recontactés en vue d’un conseil
immobilier.
     En quelques jours, une sémantique liée à l’investissement a été définie avec Allo-
Media. Il est apparu en cours de production, en janvier dernier, que certains appels ne
recevaient pas de réponse, créant le besoin de création d’un « répondeur intelligent ». En
trois semaines environ, la solution du cookie vocal proposée par Allo-Media, a vu le jour,
permettant au site de ne plus perdre d’appel. La technologie du cookie vocal fonctionne et
convient bien à Se Loger, qui dispose ainsi d’une remontée d’informations efficace. La
conversation des conseillers est écoutée mais ceux-ci y voient une aide pour la remontée
d’informations clés. L’outil leur évite, en outre, une saisie des données à remonter puisque
cette saisie s’effectue automatiquement.
    Interrogé par un participant sur la capacité éventuelle du dispositif à remonter les
émotions de clients qui apparaîtraient dans les conversations au téléphone (par exemple si
un client est irrité), Romain SAMBARINO confirme que ce type de saisie a débuté.
L’accent a d'abord été mis sur la sémantique et la signification des mots mais d’ores et
déjà, la tonalité du signal est superposée à l’analyse pour les expressions ambiguës.
L’étape suivante portera sur la prise en compte des émotions.
    A la question de la salle visant à savoir si l’on peut imaginer l’utilisation de ces
technologies par un assureur ou un banquier en vue du recueil de données exploitables,
Romain SAMBARINO précise que la solution d’Allo-Media, qui se situe en amont du signal
téléphonique, peut effectivement être mise à profit dans une boutique, par exemple,
d’autant plus qu’un conseiller perd souvent la richesse d’une conversation faute d’avoir le
temps de prendre des notes, ce que fait l’outil, d’une certaine manière, de manière
automatique.

La data au service                                         d’une             relation
attentionnée au client
    Gauthier LE MASNE de CHERMONT, Chief Customer Data Officer, souligne que la
stratégie Data, au sein d’Air France, se veut au service du client. Si la personnalisation
client et l’utilisation du Big Data sont devenues la norme, le secteur aérien ne fait pas
exception et les plus grandes compagnies ont déjà pris ce virage, d’autant plus que les
clients attendent comme un acquis une expérience personnalisée tirant profit de la Data.
    Pour Air France, la promesse client est celle d’une expérience de rêve et les clients
s’attendent à être pris en charge de bout en bout. La Data est dans l’ADN de la
compagnie. En témoigne son expérience déjà relativement ancienne d’une démarche de
Revenue Management lancée en 2011, qui a permis une grande finesse dans la définition
de la distribution tarifaire au sein des avions. Air France met aujourd'hui cette expérience
au service de la relation client avec une ambition claire : être le leader de la relation
attentionnée, ce qui suppose de savoir répondre de façon personnalisée aux attentes des
clients, en tenant compte par exemple des habitudes de voyage de chacun.
    Une première étape implique de reconnaître les clients de la Compagnie, même s’il ne
s’agit pas de clients fidélisés. Une plateforme Big Data a été construite de façon à fournir

   Paris, les 6 et 7 mars 2017
Vous pouvez aussi lire