Sommaire - Big Data Paris
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Sommaire LUNDI 6 MARS 2017 1 SESSION ANIMEE PAR ENGUERAND RENAULT, REDACTEUR EN CHEF MEDIAS ET TECHNOLOGIES, LE FIGARO. 1 DISCOURS D’OUVERTURE 1 Présentation : Big Data, Cloud and IoT: panorama and key figures for the European Market at the horizon of 2020 3 Table ronde : Big Data et cyber sécurité : anticiper et maîtriser les risques 4
Table ronde : Assistants personnels, le nouveau hype : quelle vérité derrière cette techno ? 5 Keynote : La donnée intelligente, au cœur de la transformation digitale de l’entreprise et du changement de modèle économique 7 Keynote : Netflix : how “Stranger Things” can happen with Visual Analytics 7 Retour d’expérience : Optimiser un système de recommandation en ligne avec du transfer learning et deep learning : l’exemple de Voyage Privé 8 XDStore Covéa : faire de la donnée externe un levier pour l’amélioration de la connaissance des clients et des risques 9 Viacom : l’optimisation des campagnes marketing par les données – Toucher le bon public au bon moment 10 Trainline : comment optimiser ses investissements marketing avec la consolidation des données 10 Smart fitness & health apps using crowd-sourced data 11 Auchan Direct 13 SeLoger.com et l’expérience du « cookie vocal » 13 La data au service d’une relation attentionnée au client 14 La mise en place d’un Datalake temps réel : retour sur l’expérience d’Orange Business Services 15
MARDI 7 MARS 17 SESSION ANIMEE PAR ENGUERAND RENAULT, JOURNALISTE ECONOMIQUE 17 Deep Learning and Big Data applied to your business : the key factors to success 17 Utilisation des données par les entreprises et confiance des consommateurs : retour sur une étude BCG menée aux Etats-Unis et en Europe 18 Présentation et débat : GDPR : relever les défis de la nouvelle réglementation européenne sur la protection des données personnelles. Soyez prêts pour mai 2018 ! 18 Table ronde : Le Chief Data Officer : nouvel avantage concurrentiel de votre stratégie ? 21 Futur de la data : comment le Big Data peut aider les modèles économiques traditionnels à rester dans la course 22 Remise des Trophées de l’Innovation Big Data 2017 23 Renault : les Augmented Analytics au service du pilotage financier 23 Instant Payments : déploiement des technologies Big Data chez STET 24 Banco Santander : comment le Big Data révolutionne la gestion du risque 25 Une approche pragmatique du Big Data et de la Data Science pour un impact business sur l’ensemble de la chaîne de valeur assurancielle 25
Vestas Wind Systems : comment l’IoT, le Big Data, l’analytique, la data science ont fait l’un des leaders de l’énergie éolienne mondiale 26 Maîtriser des milliards de données et anticiper les mutations numériques : l’exemple de la Sacem 27 PMU et Big Data : d’une approche mono-projet marketing à une démarche entreprise 28 Le Big Data chez Airbus : le modèle GAIA de synchronisation des vues, de rationalisation de l’analyse et de fabrication des vues de manière collaborative 29 Accélérer la transformation de l’entreprise par la date : l’expérience de Bouygues Télécom 29
Big Data Paris 2017 1 DISCOURS D’OUVERTURE Guillaume POUPARD, directeur général de l’ANSSI (Agence nationale de la sécurité des systèmes d'information), souligne que les menaces qui pèsent sur la sécurité numérique s’avèrent déstabilisantes dans la mesure où elles peuvent venir de quasiment n’importe où (groupes criminels, mafias). Certaines attaques – toujours discrètes – visent à dérober de l’information, dans une logique d’espionnage économique, et font apparaître leurs effets parfois deux ou trois ans après l’attaque initiale. L’ANSSI est appelée à traiter plusieurs dizaines de cas par an, avec des conséquences potentielles pour la sécurité nationale. D’autres attaques prennent plutôt la forme d’actes de sabotage et visent à perturber le fonctionnement des systèmes d'information dans des domaines d’importance vitale (transports, finance, énergie, etc.). Si les menaces sont fortes, la manière de les contrer demeure relativement simple. De nombreuses solutions sont d'ailleurs assez peu coûteuses, ce qui souligne le fait qu’il s’agit davantage d’un problème de volonté et de compréhension des enjeux. C’est une doctrine de sécurisation qui est imposée par exemple aux acteurs d’importance vitale, autour de quatre volets dont certains ne sont pas techniques. Trop souvent en effet, au sein des entreprises victimes, le COMEX, volontairement ou non tenu à l’écart, découvre ces enjeux lorsqu’il est trop tard. Il est essentiel que le plus haut niveau des entreprises se préoccupe de ces risques, qui n’incombent pas seulement au RSSI. Une autre dimension de cette doctrine a trait à l’humain : il est crucial de sensibiliser les effectifs au niveau pertinent en expliquant quels sont les gestes élémentaires (parfois qualifiés « d’hygiène informatique ») afin de ne pas exposer les systèmes à des risques aisément évitables. D’autres aspects sont de nature technique. Les systèmes d'information doivent être conçus, dans leur architecture même, pour résister à d’éventuelles attaques. Les nouveaux systèmes doivent être pensés en incluant une dimension d’analyse de risque de façon à bâtir des systèmes aussi robustes que possible. Il n’existe pas de sécurité à 100 %, souligne Guillaume POUPARD, mais il faut être en mesure de détecter au plus vite les attaques. Celles-ci, même très violentes, ne sont jamais instantanées et sont toujours précédées de phases d’intrusion, ce qui permet de détecter, moyennant quelques efforts, une grande majorité d’entre elles. Pour mettre en œuvre une telle doctrine, plusieurs guides ont été élaborés par l’ANSSI en fonction des besoins des utilisateurs, des gestes élémentaires jusqu'aux éléments les plus techniques. Une démarche de qualification consiste aussi, sur la base d’un référentiel public, à identifier les prestataires volontaires capables d’apporter un service de sécurité de haut niveau. Enfin, Guillaume POUPARD met l’accent sur les enjeux de la formation. La sensibilisation aux questions de sécurité numérique devient primordiale afin que les systèmes soient bien conçus dès le départ. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 2 En tout état de cause, la transformation numérique ne se fera pas sans prise en compte de la sécurité numérique. Trop longtemps opposés, ces deux aspects doivent aujourd'hui être envisagés de concert. Interrogé par un participant quant à la maturité du marché au regard des enjeux de sécurité numérique, Guillaume POUPARD rappelle qu’outre la plus grande visibilité des menaces, il existe une pression réglementaire croissante en vue de la sécurité des systèmes d'information et de la protection des données, ce qui tire l’ensemble du marché. Un travail a été initié avec les grands équipementiers pour entrer dans une logique de conception sécurisée et de qualification (l’étape suivante résidant dans l’intégration sécurisée des briques élémentaires des systèmes). De plus en plus, la protection des données et la sécurité numérique soulèvent un enjeu de confiance qui constitue une condition clé pour l’ensemble des acteurs de la transformation numérique. Un participant souligne aussi les enjeux attachés à la sécurité des données et demande quelle articulation existe par exemple entre l’ANSSI et la CNIL. Guillaume POUPARD précise qu’il existe des acteurs et des réglementations s’intéressant à la sécurité des données, tandis que d’autres acteurs et réglementations ont pour objet la sécurité des systèmes d'information. La CNIL est une autorité indépendante, ce que n’a pas vocation à être l’ANSSI. Les représentants de ces organismes font en sorte que les dispositifs ne divergent pas. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 3 Présentation: Big Data, Cloud and IoT: panorama and key figures for the European Market at the horizon of 2020 Gabriella CATTANEO, associate vice president au sein d’IDC European Government Consulting, observe qu’il n’a jamais été possible d’anticiper les tendances appelées à se faire jour, sur le plan économique comme sur le plan politique. Des tendances n’en restent pas moins décelables dans cette incertitude, à commencer par l’augmentation des dépenses liées à l’internet des objets (Intelligence Of Things), la robotique et les systèmes, qui devraient croître de près de 20 % au cours des prochaines années, tandis que les dépenses dans les systèmes d'information traditionnels devraient diminuer. 1,29 trilliard de dollars : telle est la somme qui devrait être investie au plan mondial dans l’Internet des objets d’ici 2020, l’Asie-Pacifique représentant la plus forte part de ces investissements. Selon un sondage réalisé auprès d’utilisateurs de produits IoT, les choses ont radicalement changé de 2007 à 2017, à tel point que l’internet des objets a désormais un impact sur les modèles économiques des entreprises. Le Cloud est appelé à devenir d’ici deux ans le mode de fourniture préféré pour les Analytics, car les sociétés utilisent de plus en plus les données publiques et privées, ouvrant la voie à des milliers de nouvelles applications. D’ici 2020, selon les prévisions d’IDc European Government Consulting, 45 % des infrastructures IT des entreprises européennes seront centrées sur le Cloud, ce qui montre bien le rôle central que celui-ci est appelé à jouer. La conjugaison de ces tendances de fond devrait stimuler la croissance européenne : selon les estimations de la Commission européenne, la contribution du digital, en incluant les impacts directs et indirects, se montait déjà à 300 milliards d'euros en 2016. Plusieurs scénarios peuvent être envisagés à ce stade. Si un scénario moyen permet d’espérer une croissance de 2,5 % à l’échelle de l’Union européenne en 2020, un scénario de croissance forte (4 % du PIB) paraît également envisageable, notamment si les PME adoptent l’innovation digitale plus rapidement et si le partage des données s’accélère dans l’économie du continent. Nous devons nous projeter vers l’avenir, souligne en guise de conclusion Gabriella CATTANEO. Le cadre général de régulation s’adaptera, comme toujours, mais il incombe à toutes les entreprises de savoir saisir l’innovation pour dégager des avantages compétitifs. « Si ce n’est pas vous qui le faites, cet avantage reviendra à d’autres », prévient-elle. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 4 Table ronde : Big Data et cyber sécurité : anticiper et maîtriser les risques Participent à la table ronde : • Elias BALTASSIS, Director Europe, Data & Analytics, Boston Consulting Group ; • Yves BIGOT, Directeur général, TV5 Monde ; • Pierre DELORT, DSI, Auteur "Le Big Data" & Enseignant, Institut Mines Télécom. La table ronde est animée par Enguérand RENAULT. Elias BALTASSIS constate qu’à l’exception de quelques sociétés qui ont été attaquées, le Big Data et la cybersécurité ne constituent pas encore, en règle générale, des sujets de direction générale. Les équipes de gouvernance des entreprises doivent s’atteler à une identification des principaux risques les concernant et de leurs impacts potentiels, puis définir un plan de prévention et de lutte éventuelle contre ces menaces. Une fois la prise de conscience opérée, un audit peut être commandé auprès d’acteurs tels que le BCG, qui a pour tâche d’aider les directions générales à agir en la matière. Elias BALTASSIS croit peu, au passage, à la labellisation, car celle-ci s’attacherait à la protection du risque précédent, alors que les hackers et assaillants ont toujours un temps d’avance. Il signale aussi l’émergence du concept de cyber-résilience sans doute promis à un bel avenir : il ne s’agit pas de chercher à empêcher toutes les attaques mais plutôt d’essayer de répondre à la question suivante : une fois qu’on est attaqué, comment survivre ? Pierre DELORT considère que plutôt que la cybersécurité, les acteurs économiques doivent gérer un « cyber-risque ». Il existera toujours un maillon faible en termes de sécurité, par exemple un sous-traitant ayant accès à certains systèmes de l’Entreprise. Pour être résiliente, une entreprise doit savoir détecter au plus tôt une tentative d’agression, une agression ou une pénétration dans ses systèmes. Elle doit aussi être en mesure de déclencher une alarme en cas de détection d’une intrusion. C’est l’objet du SOC (Security Operations Center) dont doit se doter toute entreprise. Yves BIGOT revient quant à lui sur l’attaque subie par TV5 Monde le 8 avril 2015, à l’issue du Conseil d’administration du Groupe. Une conférence de presse avait eu lieu ce jour-là pour lancer la chaîne TV5 Monde Style HD, consacrée à l’art de vivre à la française, en présence du ministre des affaires étrangères Laurent Fabius, qui était à l’origine du projet. Au cours des heures qui ont suivi, Yves BIGOT a appris en quelques secondes que les douze chaînes du Groupe étaient passées à un écran noir et que sur certains sites internet du Groupe apparaissent des messages, lourds de menaces pour diverses institutions françaises, signés par un mystérieux « cyber califat ». Le Groupe est parvenu au cours de la nuit suivante à rétablir un signal commun aux douze chaînes. Il a fallu quelques heures de plus pour que le signal propre à chacune des chaînes soit rétabli et que celles-ci émettent de nouveau leurs programmes. Il est apparu que cette attaque, déclenchée vers 20 heures 40 le 8 avril, avait été préparée de longue date. Le directeur des systèmes d'information, présent sur place au moment de l’attaque en raison du lancement d’une nouvelle chaîne ce jour-là, est parvenu à identifier la machine d’où provenait l’attaque. Il a ainsi pu la déconnecter du réseau, faute de quoi la totalité des systèmes de TV5 Monde aurait été détruite. Une incertitude a ensuite pesé durant des mois quant à la capacité qu’aurait le Groupe à retrouver un fonctionnement satisfaisant. TV5 Monde est finalement revenu à flot mais cette attaque aura présenté un coût de 10 millions d'euros au cours des exercices 2015 et 2016, puis 3 à 4 millions d'euros en 2017 et 20018. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 5 L’enquête, conduite notamment avec le concours de l’ANSSI, a montré que l’attaque visait bien à détruire TV5 Monde et non à voler des données. Il est également apparu que les attaquants n’étaient pas liés à l’Etat islamique, comme ils ont voulu le faire croire : il s’agit en réalité d’un groupe de hackers russes qui a également fait parler de lui à l’occasion de l’élection présidentielle américaine. Deux questions restent, à ce stade, en suspens : pourquoi TV5 Monde a-t-elle été visée, d’une part et qui était le donneur d’ordres d’autre part ? Elias BALTASSIS souligne que les démarches d’évaluation des risques ont conduit à identifier, dans certaines très grandes entreprises, un risque de mort possible en cas d’attaque majeure. Aussi faut-il faut parfois rebâtir entièrement un système qui n’a pas été convenablement conçu en termes de sécurité. C’est ce qui peut expliquer le choix de certaines entreprises de développer, parallèlement à leur système ancien, un « shadow IT » au sein duquel certaines activités critiques, telles qu’un projet de recherche, par exemple, peuvent plus aisément être protégées des cyber-risques. Table ronde : Assistants personnels, le nouveau hype : quelle vérité derrière cette techno ? Participent à la table ronde : Alexandre LEBRUN, Engineering manager, Facebook AI Research ; Emmanuel MOGENET, Directeur, Google Research Europe ; Emmanuel VIGNON, Cognitive Practice Leader, IBM France. La table ronde est animée par Enguérand RENAULT. Emmanuel MOGENET explique que le travail de Google sur les assistants personnels vise à introduire la notion de conversation avec l’assistant : celui-ci se souvient qui nous sommes et ce que nous lui avons déjà demandé. C’est dans la compréhension sémantique de questions allant au-delà de requêtes portant sur des données factuelles que l’intelligence artificielle doit apporter une valeur ajoutée supplémentaire. « Nous sommes à l’année 1997 de l’internet », estime Alexandre LEBRUN : l’internet du dialogue (voix ou texte) en est à ses balbutiements. Au cours du dialogue avec son assistant, il doit être possible d’effectuer des tâches impliquant la construction d’un contexte telles que la réservation des vacances, sans que cela n’empêche de commander une pizza au milieu de la conversation. Pour IBM, explique Emmanuel VIGNON, l’enjeu est de démocratiser l’expertise en la rendant accessible à tous les utilisateurs de la planète. C’est la raison d’être de Watson, l’assistant personnel d’IBM, développé à partir du constat selon lequel une grande partie de la valeur est cachée dans les processus d’expertise existant au sein des métiers (finance, télécoms énergie). Un conseiller bancaire doit par exemple maîtriser une cinquantaine de produits (dans lesquels interviennent fréquemment des changements de réglementation) tandis qu’il a une centaine de clients en portefeuille. Cette double dimension crée une complexité que l’assistant personnel peut aider à appréhender pour offrir in fine un service plus précis aux utilisateurs finaux. Si l’expérience utilisateur est manifestement transformée par l’introduction des assistants personnels, Emmanuel VIGNON observe que, dans certains cas, un filtre simple Paris, les 6 et 7 mars 2017
Big Data Paris 2017 6 peut s’avérer plus efficace qu’un assistant personnel auquel il faudrait transmettre une demande orale qui serait plus longue à énoncer que d’écrire. Le projet « Facebook M », lui, s’inscrit dans un horizon de long terme (cinq ou dix ans) et consiste à faire apprendre à l’assistant à reproduire des exécutions de tâches d’un bout à l’autre, grâce à un long apprentissage effectué avec des trainers humains, sans intervention de programmes ni de scripts. Emmanuel VIGNON rappelle aussi qu’IBM a été à l’initiative de la création du consortium éthique sur l’intelligence artificielle auquel se sont joints Google, Facebook, Microsoft et Apple. La démarche repose sur le constat de la nécessité de créer un climat de confiance autour de l’intelligence artificielle, ce qui a plaidé pour l’adoption d’un certain nombre de principes simples et partagés – par exemple le fait que chaque assistant personnel soit créé dans un but précis. Emmanuel MOGENET se dit convaincu que l’intelligence artificielle et le machine learning auront un effet transformatif sur les sociétés. Il importe que tous les acteurs impliqués aient un dialogue à ce sujet, y compris les acteurs sociaux, représentants des sciences humaines et responsables politiques. Emmanuel VIGNON signale d'ailleurs qu’IBM a été sollicité par la nouvelle administration américaine en vue de l’adoption de principes autour de l’intelligence artificielle – démarche dont l’horizon n’a pas été annoncé. Une initiative similaire a été lancée en France par Axelle Lemaire avant qu’elle ne quitte son poste de Secrétaire d’Etat chargée du numérique et de l’innovation pour se lancer dans la campagne présidentielle au sein de l’équipe d’un candidat. Emmanuel VIGNON et Emmanuel MOGENET font part de points de vue convergents pour considérer que la vie privée et le contrôle des données doivent rester à la main de l’utilisateur. Les données appartiennent aux utilisateurs, assure Emmanuel MOGENET, quelle que soit la façon dont elles ont été collectées. Les utilisateurs peuvent d'ailleurs effacer, grâce à un seul bouton, toutes les données que détient Google à leur sujet. Interrogé par un participant qui souhaite savoir si les technologies d’intelligence artificielle permettront à terme de reproduire l’intelligence humaine ou si elles peuvent déboucher sur un autre type d’intelligence, Emmanuel VIGNON souligne que les humains et les machines ont chacun des capacités phénoménales mais radicalement distinctes. Il ne pense pas être appelé à voir de ses yeux une intelligence artificielle aussi puissante que Jarvis dans Iron Man. La société aura donc le temps d’accompagner ces évolutions. Emmanuel MOGENET fait part d’un point de vue un peu différent. A ses yeux, l’intelligence artificielle s’apparente à un exosquelette du cerveau, susceptible de décupler les capacités humaines. La distinction entre l’humain et la machine est appelée à s’effacer progressivement, à tel point que la question n’aura sans doute plus d’objet à terme. Alexandre LEBRUN partage cet avis. Il considère aussi que l’intelligence artificielle est fortement surestimée à l’heure actuelle. Toujours est-il que la manière d’appréhender le rapport aux machines est en train de changer du tout au tout. Il s’agissait auparavant de programmer un ordinateur, c'est-à-dire lui donner une liste d’instructions détaillées pour lui apprendre à faire des choses. Désormais, il devient possible d’apprendre à l’ordinateur à faire des choses par l’exemple. C’est là une rupture majeure, étant entendu que les machines se montrent, pour l’instant, très lentes dans leur apprentissage. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 7 Keynote : La donnée intelligente, au cœur de la transformation digitale de l’entreprise et du changement de modèle économique Marc GENEVOIS, directeur général de SAP France, indique que la quasi-totalité du portefeuille de solutions de SAP est accessible aujourd'hui en Cloud ou selon des modèles hybrides, de la gestion de clientèle jusqu'à la planification en passant par les ressources humaines, les achats et les relations avec les fournisseurs. SAP, historiquement très présent dans l’industrie, a également investi massivement dès 2011 afin de participer à l’avènement de l’industrie 4.0. L’Entreprise a développé un portefeuille de solutions permettant d’apporter le flux de données des clients jusqu'à la production au sein des usines. SAP a par exemple signé il y a quelques mois un accord mondial avec Bosch, qui souhaite connecter tous les produits qu’il fabrique pour ensuite collecter les données, et a dans le même temps digitalisé ses processus industriels grâce aux plateformes SAP. Les réseaux sociaux ne sont pas en reste : SAP collecte et analyse les données accessibles sur ces plateformes afin de permettre à ses clients d’en tirer de la valeur. La principale question porte sur la valeur de ces données et sur la façon dont elles peuvent être utilisées dans les processus de l’Entreprise. C’est de ce point de vue que SAP dispose de connaissances et d’un savoir-faire précieux, grâce à la connaissance fine de la chaîne de valeur de ses clients capitalisée au fil des années. Keynote : Netflix : how “Stranger Things” can happen with Visual Analytics Rappelant que Netflix compte plus de 93 millions d’abonnés dans 190 pays, Jason FLITTNER, Senior Analytics Engineer, souligne que Netlix investira plus de 6 milliards de dollars en 2017 dans les contenus dédiés à ses abonnés. L’entreprise compte environ 1 400 usagers internes du logiciel Tableau de visualisation de données. Prenant l’exemple de la technologie Hive (qui permet de rédiger une demande pouvant ensuite être traduite en MapReduce) pour exploiter les données détenues par Netflix, Jason FLITTNER conseille l’option ODBC pour connecter Hive à Tableau, moyennant le recours à un serveur Thrift pour relier ces deux éléments. Hive et Tableau interagissent alors par l’intermédiaire du serveur Thrift. Comme Hive, Spark permet de saisir une requête en vue d’interagir avec une base de données, à ceci près que Spark n’a pas besoin d’utiliser MapReduce, ce qui en rend l’utilisation plus rapide. Presto, solution open source proposée par Facebook, est une option additionnelle pour interagir avec la base de données S3 de Netflix. Il s’agit d’un moteur de recherche puissant et rapide, idéal pour tester l’utilisation de plus petits volumes de données. La connexion avec Tableau peut être opérée via ODBC ou un connecteur web. Tirant les enseignements de ces différentes expériences en vue d’un fonctionnement optimal de Tableau, Jason FLITTNER souligne l’intérêt de la fonctionnalité « Tableau Extract API », qui permet de dissocier l’accès aux données et la création de tableaux réalisés à partir de leur extraction. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 8 Amazon Redshift, utilisé avec le connecteur Tableau natif, constitue aussi une excellente solution en évitant les problèmes de stabilité parfois rencontrés avec d’autres applications. Il arrive aussi que l’extraction des données s’avère trop complexe, auquel cas l’accès aux données peut se faire en direct, notamment grâce à Redshift. Interrogé par un participant quant à la façon dont Netflix mesure la joie de ses abonnés (puisque tel est l’un des objectifs cités par Jason FLITTNER dans un horizon de moyen terme), précise que la société s’efforce de faire en sorte que ses contenus soient pertinents au regard des attentes de ses abonnés. Retour d’expérience : Optimiser un système de recommandation en ligne avec du transfer learning et deep learning : l’exemple de Voyage Privé Christophe DUONG, data scientist de Voyage Privé, explique en quoi les données peuvent alimenter un moteur de recommandation, dont la fonction est de reproduire un conseil personnalisé tel que celui que pourrait donner un commercial dans un magasin. Dans le cas de Voyage Privé, deux spécificités entrent en ligne de compte : • la récurrence de ventes flashs, qui se renouvellent toutes les semaines, avec une importante dimension de saisonnalité ; • des offres de séjours proposées à un prix relativement élevé, rendant leur achat très ponctuel, voire rare, ce qui réduit le volume de données disponibles sur les clients. Un workflow a été inventé par la communauté du datamining, permettant de comprendre le contexte des recherches des utilisateurs et de la donnée à traiter. Celle-ci est analysée en vue d’établir un modèle de prévision des ventes et du trafic des utilisateurs. Le modèle va ensuite être testé sur deux groupes d’utilisateurs, l’un auquel on présente les recommandations établies par la machine et l’autre auquel aucune recommandation n’est fournie. Deux approches peuvent être distinguées pour mettre au point un tel moteur de recommandation. La première donne priorité à la logique collaborative tandis que la seconde se focalise sur un seul utilisateur à la fois en analysant son historique de visite et les ventes afférentes. Plusieurs modèles ont été élaborés selon cette méthode. L’enjeu consiste, sur cette base, à bâtir un « méta-modèle » établissant pour chaque produit un score final correspondant à la probabilité d’achat du produit par le client. Les produits peuvent ensuite être réagencés ou priorisés en fonction de la probabilité d’achat. Pour ce faire, toutes les données sont analysées et recombinées en fonction des résultats obtenus. Les recommandations, rafraîchies chaque nuit, ont permis une augmentation du chiffre d'affaires de 7 % dans le groupe au sein duquel elles ont été utilisées, par comparaison avec le groupe témoin. L’étape suivante a consisté à intégrer les images dans le moteur de recommandations. Un frein au développement de cette approche réside dans la capacité de calcul des machines, car il faut une base considérable d’images pour que la machine reconnaisse les éléments qui la composent. Cette difficulté a été contournée en s’appuyant sur des bases de données labellisées accessibles en open source sur internet, notamment la base de données « places » labellisée à travers plus de 200 catégories. Une autre évolution a ensuite consisté à personnaliser l’image d’accroche qui sera proposée à l’utilisateur sur la Paris, les 6 et 7 mars 2017
Big Data Paris 2017 9 première page du site (en montrant par exemple une image de piscine ou une image de paysage en fonction des préférences qui auront été constatées pour cet utilisateur). D’une façon générale, Christophe DUONG préconise d’élaborer une solution simple dont on est capable de mesurer les résultats pour ensuite affiner le modèle, et ainsi poursuivre les itérations permettant l’amélioration progressive du modèle. Interrogé par un participant quant à la mesure de la performance des recommandations, Christophe DUONG précise qu’il existe plusieurs métriques de performance, basées notamment sur l’analyse du modèle de visite de tous les clients ayant visité le site, qu’ils aient acheté ou non. Voyage Privé a réalisé des tests sans les images et commence à évaluer la performance de la recommandation assortie d’images. Il est donc un peu tôt pour se prononcer sur l’apport de cette approche, même si les tests s’avèrent très prometteurs. XDStore Covéa : faire de la donnée externe un levier pour l’amélioration de la connaissance des clients et des risques Soumaya BEN HASSINE, data scientist et responsable du projet XDStore au sein de Covéa, souligne que la donnée externe est peu accessible, en raison notamment de l’existence de silos organisationnels et historiques qui existent dans un groupe « ancien » tel que Covéa. Pour simplifier et démocratiser l’usage de la donnée au sein du Groupe, l’idée est née d’une sorte de « magasin de la donnée », le XDStore. Celui-ci constitue un catalogue unique contenant de données traitées, qualifiées, mises à jour et prêtes à l’emploi. L’utilisateur peut, parmi d’autres fonctionnalités, naviguer dans le XDStore, télécharger des jeux de données et consulter le détail d’un jeu de données. Une autre utilisation du XDStore, tournée plutôt vers les statisticiens et data scientists, peut consister à obtenir la liste de tous les jeux de données externes qu’il peut utiliser pour enrichir son jeu de données, via le « XD Miner ». Celui-ci peut même fournir la liste des variables externes qui peuvent être ajoutées à un modèle afin d’augmenter les performances de celui-ci. Abordant les aspects technologiques de cette approche, Mathieu DESPRIEE, CTO et co-fondateur de BLUE DME, précise que la solution se fonde sur une analyse systématique et automatique de toutes les données intégrant la plateforme (calcul de distribution, de cardinalité, etc.). Puis est opérée une analyse sémantique en repérant des données géographiques (codes postaux, codes de communes…), des données d’entreprise (codes Sirene) ou des données commerciales. Le graphe des relations entre les jeux de données externes et les jeux de données internes pourra ensuite être élaboré, ce qui va permettre d’identifier les correspondances possibles, auxquelles une heuristique d’élimination est ensuite appliquée. Au quotidien, un data scientist s’efforce de construire des fonctions à partir de données clients (âge, département, etc.) afin d’entraîner la machine à déterminer si un client sera acheteur de telle ou telle offre, à partir d’une ou plusieurs variables. La technologie de matching permet de rapatrier de nouvelles informations depuis des jeux de données externes afin de comparer un grand nombre de modèles et déterminer en quoi ces données exogènes peuvent rendre le modèle de prédiction plus performant. La solution est basée sur une brique technologique issue de la R&D de BlueDME, assortie à Spark et à des fonctions d’indexation avancées fournies notamment par Elastic Search. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 10 Le projet est en phase de production et Covéa espère atteindre le nombre de plusieurs centaines d’utilisateurs internes d’ici la fin de l’année. Viacom : l’optimisation des campagnes marketing par les données – Toucher le bon public au bon moment Soulignant l’enjeu crucial que représentent désormais les données dans l’industrie du divertissement, qui doit croiser de multiples dimensions pour satisfaire ses publics dans un monde changeant et hautement concurrentiel, Fabio LUZZI, VP Data Science de Viacom (Paramount Pictures, MTV, Nickelodeon), explique qu’il existe un besoin de décisions mieux informées et simultanément un besoin de plus grande anticipation dans les décisions prises au regard des évolutions du marché. Forte de ce constat, Viacom a souhaité créer une plateforme accessible en libre- service par ses équipes, basée sur le Cloud et sur des données analytiques avancées, afin de toucher le bon public au bon moment. Une représentation visuelle tirée de cette plateforme permet par exemple de visualiser de manière simple, minute par minute, l’évolution de l’audience présente devant la télé, et de montrer comment le public se déplace, par grappes, d’une chaîne à une autre. Caroline EPSTEIN, senior data scientist chez Viacom, décrit un autre exemple de représentation visuelle obtenu à partir d’un script Python qui analyse des millions de données, pour finalement relier les programmes télé par affinité, ce qui met au jour des points communs entre les audiences de différents programmes en vue, par exemple, de segmentations marketing dans la communication de Viacom. Des codes couleur peuvent distinguer, parmi toute l’information produite, certaines caractéristiques intéressant particulièrement l’Entreprise, celle-ci pouvant aussi faire le choix d’exploiter des informations « de niche » qui n’auraient pu être mises en évidence sans un outil aussi puissant, passant en revue des milliards de données. Trainline : comment optimiser ses investissements marketing avec la consolidation des données Cédric RAUD, Lead Developer Marketing de Trainline (ex-Capitaine Train), revient sur l’expérience de mise en place d’une structure « data » au sein de Trainline, distributeur indépendant qui se donne pour objectif de proposer une solution alternative pour la vente de billets de train dans 24 pays d’Europe avec une seule interface. Un tel dispositif suppose d’exploiter les données de multiples opérateurs, dont le nombre est par exemple de neuf en France (SNCF, Ouigo, TGV Lyria, etc.). Lancée en 2015, la première initiative « data » de Capitaine Train consistait à analyser toutes les données dont disposait l’Entreprise, en s’appuyant sur un data scientist et deux développeurs. La plupart des projets consistait à extraire les données intéressantes pour les analyser et si possible en tirer des prédictions de grandes tendances afin d’anticiper les flux de voyageurs. En réalité, avec une si petite structure, l’extraction de temps s’est avérée extrêmement chronophage. De plus, si les analyses étaient fiables, chaque analyse Paris, les 6 et 7 mars 2017
Big Data Paris 2017 11 dépendait de la source utilisée, ce qui rendait les analyses peu réutilisables et a augmenté le temps requis par les analyses, au détriment de la prédiction. Le département marketing souhaitant principalement mettre en valeur l’offre de l’Entreprise en vue de l’acquisition de nouveaux clients, il utilisait différents outils tels que les bannières de Google, les réseaux sociaux, les réseaux d’affiliation et la communication. La cellule Data s'est donné pour objectif de soutenir les initiatives lancées sur chacun de ces canaux, ce qui supposait de collecter des données de sources différentes pour chacun d’eux. Cette approche prenait beaucoup de temps, ce qui a fait émerger la volonté d’automatisation de l’exploitation des données. Différentes solutions (création de pipelines pouvant générer des reporting automatisés, outils de data science, etc.) ont été passées au crible des besoins de Capitaine Train. Les solutions de reporting se sont avérées coûteuses. Elles présentaient aussi l’inconvénient d’être génériques, avec le risque de limiter les analyses possibles. Le développement ad hoc de pipelines de données entrait en contradiction avec l’objectif visant à rendre autonome le data scientist de l’Entreprise. C'est la raison pour laquelle celle-ci s’est penchée sur les solutions de data sciences, en particulier Dataiku, solution française qui présentait le grand intérêt de pouvoir s’intégrer dans l’infrastructure de Capitaine Train (devenu peu après Trainline), avec d’importants gains de temps à la clé. Le premier usage de cette solution a eu pour objectif d’accélérer le processus d’analyse de l’efficacité des campagnes marketing. Il a fallu consolider les données pour rendre leur extraction facile et rapide, tant pour les données d’activité (nombre de billets de train, utilisateurs, etc.) que pour les données « métier ». La base offre aujourd'hui une vue unique du parcours du client et a été complétée par un outil de visualisation permettant à quiconque dans l’Entreprise de tirer parti de la richesse de la base. Smart fitness & health apps using crowd- sourced data Chul LEE, Head of Data Engineering & Science de la division « Connected Fitness » chez Under Armour, souhaite partager certains des enseignements tirés par la marque américaine dans le développement d’applications Big Data. Outre des vêtements et chaussures connectés ainsi que des applications (en particulier MyFitnessPal) dont la marque a fait l’acquisition ces dernières années, Under Armour a lancé des appareils de tracking et de suivi de l’activité physique (smart gears). La marque compte 195 millions d’usagers dans le monde, lui assurant un volume considérable de données de fitness (par exemple 120 millions de données sur l’alimentation et 700 millions de données sur la culture physique). L’objectif consiste à créer de la valeur à partir de ces données, pour l’Entreprise et pour ses clients. L’application MyFitnessPal permet à l’utilisateur de tenir un « journal de bord » en saisissant notamment tous les aliments qu’il consomme. Si cette fonction est déjà assez avancée, elle a été récemment enrichie en l’étendant aux restaurants, ce qui a supposé de saisir des millions de données correspondant à la traduction nutritionnelle de centaines de milliers de menus et de plats couramment servis. Les données recueillies permettent aussi, à partir des données transmises par les coureurs, de visualiser tous les parcours empruntés par les joggers dans Central Park. Une autre application, Fitness Insights, indique par exemple à l’usager quand dormir, quand se restaurer et quels sont les moments les plus propices pour faire de l’exercice. L’application envoie ainsi des rappels et notifications qui permettent aux usagers Paris, les 6 et 7 mars 2017
Big Data Paris 2017 12 d’optimiser leur durée de sommeil, même s’il ne fait pas de doute, convient Chul LEE, que les outils de traçabilité du sommeil vont certainement d’affiner ce type d’application. Paris, les 6 et 7 mars 2017
Big Data Paris 2017 13 Auchan Direct Marc ROUSSEAU, responsable de la Data chez Auchan Direct, explique que cette dernière est la filiale du groupe Auchan travaillant dans la livraison à domicile des courses du quotidien, à raison d’une livraison en Ile-de-France en moyenne toutes les vingt secondes. L’Entreprise connaît une transformation importante, dont témoigne la création en 2016 d’un entrepôt permettant la préparation automatisée des commandes des clients, ce qui constitue une première dans le secteur du e-commerce alimentaire. Se donnant pour mission d’éclairer les collaborateurs pour améliorer l’expérience client, Auchan Direct a souhaité miser sur l’exploitation des Data, en s’attachant d'abord à démystifier la Data à l’intention de son public, composé d’experts internes appelés à prendre des décisions sur la base d’informations. Une recherche conduite à l’université de Duke aux Etats-Unis a interrogé les directeurs financiers d’un grand nombre d’entreprises américaines en leur demandant des prédictions quant à l’évolution de l’indice boursier américain S&P. Les chercheurs ont recueilli 11 600 prévisions d’experts et ont étudié leur corrélation avec la réalité, qui s’est avérée quasiment nulle. Les chercheurs ont nettement démontré notre excès de confiance dans nos prévisions, à tel point que l’hypothèse selon laquelle nos décisions seraient prises de manière très rationnelle paraît fragilisée. Les analyses du prix Nobel Daniel Kahneman, qui a distingué deux types de modes de fonctionnement du cerveau, une pensée intuitive (correspondant au système des raccourcis cognitifs) et une pensée rationnelle (impliquant de prendre du recul sur les faits à prendre en considération en vue d’une décision), vont dans le même sens. Auchan Direct a débuté son travail sur les Big Data début 2016 avec une base de données reposant sur six tables orientées client et un requêteur SQL. Le dispositif était conçu pour l’Homo economicus parfaitement rationnel mais a donné peu de résultats. L’Entreprise a ensuite enrichi son dispositif d’un outil de Dataviz Qlik Sense, en replaçant le Dataware au centre de l’architecture du dispositif. Si le monde du Dataware peut être envisagé comme une bibliothèque aux rayonnages infinis, le Big Data s’apparente davantage à un immense grenier où les données ne sont pas rangées, et où les technologies idoines sont indispensables pour s’y retrouver. Daniel Kahneman a également montré que le cerveau humain avait un certain nombre de biais cognitifs dont nous sommes victimes tous les jours. Notre cerveau excelle en particulier à construire une histoire cohérente dans laquelle ni la quantité ni la qualité des données n’importe. Pour passer d’une démarche de diagnostic à une démarche d’amélioration sans tomber dans ce type d’écueil, Auchan Direct avait besoin d’une méthodologie très précise. Si le Big Data est nécessaire dans une démarche d’amélioration, il ne peut suffire, souligne Marc ROUSSEAU. Trois piliers sont indispensables pour mettre les collaborateurs en situation de réussir : le Lean, le Dataviz et le Big Data. SeLoger.com et l’expérience du « cookie vocal » Romain SAMBARINO, président et fondateur d’Allo-Media, start up fondée en 2011, raconte que travaillant d'abord sur les annuaires téléphoniques, la société qu’il a fondée s'est vite rendu compte que personne ne s’était encore attaché à analyser le contenu des conversations téléphoniques pour en tirer des données exploitables. L’Entreprise a recruté Paris, les 6 et 7 mars 2017
Big Data Paris 2017 14 des docteurs en reconnaissance automatique de la parole qui ont développé des outils d’analyse de langage afin de rendre les conversations signifiantes. C'est dans cette logique qu’a été créé le « cookie vocal » en septembre 2016. Marc RUSSO, Corporate Développement de Seloger.com, explique que le site immobilier a lancé en février 2016 un nouveau service, Se Loger Invest, portant sur l’investissement immobilier. Se Loger avait besoin d’une solution simple, efficace et rapide à mettre en œuvre permettant de qualifier les « leads », c'est-à-dire les formulaires remplis par les clients sur le site lorsqu’ils souhaitent être recontactés en vue d’un conseil immobilier. En quelques jours, une sémantique liée à l’investissement a été définie avec Allo- Media. Il est apparu en cours de production, en janvier dernier, que certains appels ne recevaient pas de réponse, créant le besoin de création d’un « répondeur intelligent ». En trois semaines environ, la solution du cookie vocal proposée par Allo-Media, a vu le jour, permettant au site de ne plus perdre d’appel. La technologie du cookie vocal fonctionne et convient bien à Se Loger, qui dispose ainsi d’une remontée d’informations efficace. La conversation des conseillers est écoutée mais ceux-ci y voient une aide pour la remontée d’informations clés. L’outil leur évite, en outre, une saisie des données à remonter puisque cette saisie s’effectue automatiquement. Interrogé par un participant sur la capacité éventuelle du dispositif à remonter les émotions de clients qui apparaîtraient dans les conversations au téléphone (par exemple si un client est irrité), Romain SAMBARINO confirme que ce type de saisie a débuté. L’accent a d'abord été mis sur la sémantique et la signification des mots mais d’ores et déjà, la tonalité du signal est superposée à l’analyse pour les expressions ambiguës. L’étape suivante portera sur la prise en compte des émotions. A la question de la salle visant à savoir si l’on peut imaginer l’utilisation de ces technologies par un assureur ou un banquier en vue du recueil de données exploitables, Romain SAMBARINO précise que la solution d’Allo-Media, qui se situe en amont du signal téléphonique, peut effectivement être mise à profit dans une boutique, par exemple, d’autant plus qu’un conseiller perd souvent la richesse d’une conversation faute d’avoir le temps de prendre des notes, ce que fait l’outil, d’une certaine manière, de manière automatique. La data au service d’une relation attentionnée au client Gauthier LE MASNE de CHERMONT, Chief Customer Data Officer, souligne que la stratégie Data, au sein d’Air France, se veut au service du client. Si la personnalisation client et l’utilisation du Big Data sont devenues la norme, le secteur aérien ne fait pas exception et les plus grandes compagnies ont déjà pris ce virage, d’autant plus que les clients attendent comme un acquis une expérience personnalisée tirant profit de la Data. Pour Air France, la promesse client est celle d’une expérience de rêve et les clients s’attendent à être pris en charge de bout en bout. La Data est dans l’ADN de la compagnie. En témoigne son expérience déjà relativement ancienne d’une démarche de Revenue Management lancée en 2011, qui a permis une grande finesse dans la définition de la distribution tarifaire au sein des avions. Air France met aujourd'hui cette expérience au service de la relation client avec une ambition claire : être le leader de la relation attentionnée, ce qui suppose de savoir répondre de façon personnalisée aux attentes des clients, en tenant compte par exemple des habitudes de voyage de chacun. Une première étape implique de reconnaître les clients de la Compagnie, même s’il ne s’agit pas de clients fidélisés. Une plateforme Big Data a été construite de façon à fournir Paris, les 6 et 7 mars 2017
Vous pouvez aussi lire