Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS

 
CONTINUER À LIRE
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Créer son Datalake sur AWS

                                   Xavier Delacour
         Architect Solutions, France, Amazon Web Services

                                       Yan Truong
 Responsable BI / Big Data / Data engineering, La Mutuelle Générale

             © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
On décrit le Big Data de différentes façons

    Volume   Rapidité            Diversité         Véracité   Valeur

                        Variabilité      Visualisation
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Objectif : créer de la valeur depuis vos données

  Croissance organique du
          revenu
           24%
                                                                      Les entreprises qui s’appuient sur leurs données
                                                                      pour générer de la valeur sont les meilleures sur
                                    15%                               leur marché. Une étude d’Aberdeen démontre que
                                                                      l’implémentation d’un datalake s’accompagne
                                                                      d’une croissance supérieure de 9% à la moyenne
                                                                      du marché.*

        Leaders                 Suiveurs
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
La Donnée change à Les services s’adaptent

                                          Capturer et stocker des
                         Nouveaux types   Péta-octets de
                           d’analyses     données

                                          Nouvelles façons
                                          d’analyser la donnée à
                                          faible coût
                                          • Machine learning
                                          • Big data
                                          • Analyse temps réél
                                          • Recherche full-text
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Traditionellement, l’analyse de données c’est …

        Business intelligence         • Donnée structurée

                                      • TBs–PBs

                                      • Schéma de donnée statique

                                      • Rapports operation et ad hoc
          Data warehouse
                                      • Investissement initial conséquent
                                        + $10K–$50K/TB/year

 OLTP    ERP           CRM      LOB
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
L’approche Data lake casse les codes

                               Big data processing,
Business intelligence      real-time, machine learning

                                                             • Données structurées et non structurée

                                                             • TBs–EBs

                                                             • Plusieurs moteurs d’analyse
  Data warehouse                   Data lake
                                                             • Stockage et Analyses à faible coûts

OLTP ERP CRM LOB        Devices   Web    Sensors    Social
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Les avantages du Data Lakes sur AWS

                                      • Durabilité et disponibilité élevée à l’echelle de
       Machine                          l’ExaByte
       learning   Analytics
                                      • Meilleure sécurité, compliance et capacités d’audit

                                      • Contrôle fin des accès au niveau Objet
          Data Lake                   • Meilleures performances en ne rappatriant qu’un
           sur AWS                      subset des données

                                      • Ingestion des données facilitée

                                      • Très nombreuses integrations avec les solutions
                                        partenaires
 On-premises         Real-time data   • Le plus grand nombre de services d’analyse et de
data movement          movement         Machine Learning
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Data Lakes, Analytics, et IoT Portfolio sur AWS
La plus large selection de services d’analytics

                     Machine learning                                                    Analytics
                                                                                         Analyses intéractives
                     Service de ML managé
                                                                                         Hadoop & Spark
                     AMIs de Deep Learning
                                                                                         Data Warehousing
                     Reconnaissance de Video et d’Image
                                                                                         Recherche full-text
                     Interfaces conversationnelles
                                                                                         Analyse temps réél
                     Caméra video avec Deep-Learning
                                                                                         Visualisations et Dashboards
                     Traitement automatique du Language Naturel
                     Traduction
                     Reconnaissance de la voix
                     Text-to-Speech

                                                 Data Lake
                                                  sur AWS
                                             Storage | Archival Storage | Data Catalog

                     On-premises data movement                                               Real-time data movement
                     Connection réseau dédiée                                                Connectez des devices sur AWS
                     Appliances sécurisée                                                    Streaming de données temps réel
                     Valise renforcée pour le transport de vos données                       Streaming de vidéo temps réel
                     Migration de base de données
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Data Lakes, Analytics, et IoT Portfolio sur AWS
La plus large selection de services d’analytics

                     Machine learning                                                      Analytics
                                                                                           Amazon Athena
                     Amazon SageMaker
                                                                                           Amazon EMR
                     AWS Deep Learning AMIs
                                                                                           Amazon Redshift
                     Amazon Rekognition
                                                                                           Amazon Elasticsearch Service
                     Amazon Lex
                                                                                           Amazon Kinesis
                     AWS DeepLens
                                                                                           Amazon QuickSight
                     Amazon Comprehend
                     Amazon Translate
                     Amazon Transcribe
                     Amazon Polly

                                               Data Lake
                                                sur AWS
                                      Amazon S3 | Amazon Glacier | AWS Glue Data Catalog

                     On-premises data movement                                                 Real-time data movement
                     AWS Direct Connect                                                        AWS IoT Core
                     AWS Snowball                                                              Amazon Kinesis Data Firehose
                     AWS Snowmobile                                                            Amazon Kinesis Data Streams
                     AWS Database Migration Service                                            Amazon Kinesis Video Streams
Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
Par où commencer ?

  © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Catalogue et Recherche                                 Accès et gestion des utilisateurs
                                                 Gestion des metadata                             Donnez accès de façon sécurisé à vos utilisateurs

                                               DynamoDB      Amazon ES                                API Gateway         IAM          Cognito

            Ingestion des données
             Poussez vos données sur S3                                                                                               Traitement et Analyse
           rapidement et de façon sécurisée                                                                                 Utilisez des methodes prédictives et prescriptives
                                                                            Stockage central                                        pour tirer la valeur de vos données
                                                                         Stockage sécurisé et peu cher
                                                                            de vos données sur S3

Firehose    Direct Connect      Snowball        DMS                                                                       Athena        Quicksight          EMR          Redshift

                                                                                     S3

                                                                         Protégez et sécurisez
                                                             Gérez les droits pour assurez la sécurité de la donnée
                                                                      et l’authentification des utilisateurs

                                                           Security Token    Cloudwatch      Cloudtrail      KMS
                                                              Service
Qu’est ce que contient mon Data Lake ?

                Gartner:
                            “En 2018, 80% des data lakes n’inclueront pas de méthode
                            efficasse de gestion des metadatas, ce qui les rendra peu
                            inutilisable."

                                                                                Data Lake
                                                                                 sur AWS
                                                                            Storage | Archival Storage | Data Catalog

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue

    Data Catalog               Job Authoring               Job Execution

       Découvrez                   Développez                    Déployez

Compatible avec Apache Hive   Genération automatique   Execution serverless
Metastore                     de code ETL              Ordonnancement flexible
Intégré aux services AWS      Python et Apache Spark   Monitoring et gestion des
Analyse automatique           Editez, debugez, et      alertes
                              partagez
Data Lake sur Amazon S3 avec AWS Glue
    Your data

 Application Web

  Amazon RDS

  Autres bases                    AMAZON
                                 QUICKSIGHT

  Données de vos
   datacentres

    Temps réel
Autres méthodes d’alimentation du Catalogue

   Créer vos tables manuellement    Utiliser les Hive DDL statement

   Utilisez l’API AWS Glue         Importez depuis votre Apache Hive Metastore

                                        Apache Hive
                                        Metastore
                                                       AWS GLUE ETL     AWS GLUE
                                                                      DATA CATALOG
Comment générer de la valeur ?

            Machine learning                                                     Analytics
                                                                                 Amazon Athena
            Amazon SageMaker
                                                                                 Amazon EMR
            AWS Deep Learning AMIs
                                                                                 Amazon Redshift
            Amazon Rekognition
                                                                                 Amazon Elasticsearch Service
            Amazon Lex
                                                                                 Amazon Kinesis
            AWS DeepLens
                                                                                 Amazon QuickSight
            Amazon Comprehend
            Amazon Translate
            Amazon Transcribe
            Amazon Polly

                        Data Lake sur AWS
                            Amazon S3 | Amazon Glacier | AWS Glue Data Catalog

            On-premises data movement                                                Real-time data movement
            AWS Direct Connect                                                       AWS IoT Core
            AWS Snowball                                                             Amazon Kinesis Data Firehose
            AWS Snowmobile                                                           Amazon Kinesis Data Streams
            AWS Database Migration Service                                           Amazon Kinesis Video Streams
Analytique avec Hadoop/Spark
                                                                  • Traitement distribué

                                                                  • Différents types d’analyse
                                                                    • Batch/Script (Hive/Pig)
                                                                    • Interactif (Spark, Presto)
 Batch   Script       Interactif   Temp réél   Machine    NoSQL     • Temp réél (Spark)
                                               learning
                                                                    • Machine Learning (Spark)
                                                                    • NoSQL (HBase)

                  YARN (Hadoop Resource Manager)                  • Pour de nombreux cas d’usage
                                                                    • Analyse de log et clicks
                                                                    • Machine learning

                      Data Lake                                     • Analyse temps réél

                       sur AWS                                      • Analyse à grande échelle
                                                                    • Recherche génomique
                                                                    • ETL
Analytique avec Hadoop/Spark Analytics sur AWS

 Batch   Script       Interactif   Temps réél   Machine    NoSQL          Amazon EMR
                                                learning

                                                                   Hadoop/Spark managé
                  YARN (Hadoop Resource Manager)

                      Data Lake                                            Amazon S3
                       sur AWS
                                                                    Stockage Objet
Amazon EMR
Hadoop et Spark managé dans le cloud pour 1/8 des coûts

    Enterprise ready             Facile             Faibles coûts
Gestion externalisée des metadonnées
                                                Amazon EMR
Vous avez plusieurs otpions

                              Glue Data                                     Amazon S3
                               Catalog                               HDFS

                                             Job ETL Transient

                              MySQL DB
                               instance        Amazon EMR

                                                                     HDFS   Source de vérité

                                          Cluster Sparl interactif
Amazon Athena: Analyse interactive

Service de requête interactive pour analyser vos données stockées sur Amazon S3 en
utilisant le language SQL standard
Pas d’infrastructure à paramétrer ni à manager, et aucun chargement de données
Capacité à lancer des requêtes SQL sur des données archivée dans Amazon Glacier
(coming soon)
   Query Instantly           Pay per query                                                  Open                   Easy

                                     $                                                           SQL
  Aucun coût de stop;    Payez simplement pour                         Interface SQL ANSI, drivers           Serverless: zéro
  pointez simplement     les requêtes executées;                           JDBC/ODBC, multiple             infrastructure, zéro
   vers Amazon S3 et    Gagnez 30-90% sur votre                              formats, types de                administration
     commencez à        coût par requête avec les                      compression, et gestion des          Integré à Amazon
        requêter.             algorithmes de                            jointures complexes et des             QuickSight.
                               compression.                                  types de données.
                               © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Data Lake avec AWS
                        REX la Mutuelle Générale

                                     Yan TRUONG
                               Responsable Data engineering
Vendredi 15 juin 2018
                                                              Ce document est à usage interne uniquement. Il est confidentiel et la
                                                              propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
1 146
                              C.A. 2016
                                          M

23   Vendredi 15 juin 2018
                                              Ce document est à usage interne uniquement. Il est confidentiel et la
                                              propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Le challenge : les « datas » au profit de nos clients
         et de notre développement

24   Vendredi 13 avril 2018
                                                                 Ce document est à usage interne uniquement. Il est confidentiel et la
                                                                 propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
La vision
     Simplifier la vie du
     Datascientist

     Consolider toutes les données du client
     Collecter des données externes utiles à tous
     Avoir un langage commun
     Partager des jeux de données entre directions
     Respecter les contraintes réglementaires

25   Vendredi 15 juin 2018
                              Ce document est à usage interne uniquement. Il est confidentiel et la
                              propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
La démarche

     1.    Une ambition juste

     2.    Une solution qui s’adapte constamment à nos
           besoins
                             AWS cloud

                                                                     #Challenge
                                                                     #NoAdmin

26   Vendredi 15 juin 2018
                                         Ce document est à usage interne uniquement. Il est confidentiel et la
                                         propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Les bénéfices

     Accélérer les cycles d’innovation
     Usages multiples du potentiel de nos
     données
     • Agilité
     • Droit à l’erreur
     • L’amour est dans le … prix

27   Vendredi 15 juin 2018
                              Ce document est à usage interne uniquement. Il est confidentiel et la
                              propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Le Datalake Baikal

28   Vendredi 13 avril 2018
                              Ce document est à usage interne uniquement. Il est confidentiel et la
                              propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Notre retour d’expérience

                     Use case, use case et use case

               Think BIG, start small … and when you
                        need it make IT BIG

                 Le vrai sujet c’est la Data, pas l’infra

                   Le CLOUD est disruptif mais aussi
                  vecteur d’amélioration => DevOpS

29 Vendredi 15 juin 2018
                                       Ce document est à usage interne uniquement. Il est confidentiel et la
                                       propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
En résumé

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Catalogue et Recherche                                 Accès et gestion des utilisateurs
                                                 Gestion des metadata                             Donnez accès de façon sécurisé à vos utilisateurs

                                               DynamoDB      Amazon ES                                API Gateway         IAM          Cognito

            Ingestion des données
             Poussez vos données sur S3                                                                                               Traitement et Analyse
           rapidement et de façon sécurisée                                                                                 Utilisez des methodes prédictives et prescriptives
                                                                            Stockage central                                        pour tirer la valeur de vos données
                                                                         Stockage sécurisé et peu cher
                                                                            de vos données sur S3

Firehose    Direct Connect      Snowball        DMS                                                                       Athena        Quicksight          EMR          Redshift

                                                                                     S3

                                                                         Protégez et sécurisez
                                                             Gérez les droits pour assurez la sécurité de la donnée
                                                                      et l’authentification des utilisateurs

                                                           Security Token    Cloudwatch      Cloudtrail      KMS
                                                              Service
Merci!

© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Vous pouvez aussi lire