Créer son Datalake sur AWS - Xavier Delacour Architect Solutions, France, Amazon Web Services - Amazon AWS
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Créer son Datalake sur AWS Xavier Delacour Architect Solutions, France, Amazon Web Services Yan Truong Responsable BI / Big Data / Data engineering, La Mutuelle Générale © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
On décrit le Big Data de différentes façons Volume Rapidité Diversité Véracité Valeur Variabilité Visualisation
Objectif : créer de la valeur depuis vos données Croissance organique du revenu 24% Les entreprises qui s’appuient sur leurs données pour générer de la valeur sont les meilleures sur 15% leur marché. Une étude d’Aberdeen démontre que l’implémentation d’un datalake s’accompagne d’une croissance supérieure de 9% à la moyenne du marché.* Leaders Suiveurs *Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
La Donnée change à Les services s’adaptent Capturer et stocker des Nouveaux types Péta-octets de d’analyses données Nouvelles façons d’analyser la donnée à faible coût • Machine learning • Big data • Analyse temps réél • Recherche full-text
Traditionellement, l’analyse de données c’est … Business intelligence • Donnée structurée • TBs–PBs • Schéma de donnée statique • Rapports operation et ad hoc Data warehouse • Investissement initial conséquent + $10K–$50K/TB/year OLTP ERP CRM LOB
L’approche Data lake casse les codes Big data processing, Business intelligence real-time, machine learning • Données structurées et non structurée • TBs–EBs • Plusieurs moteurs d’analyse Data warehouse Data lake • Stockage et Analyses à faible coûts OLTP ERP CRM LOB Devices Web Sensors Social
Les avantages du Data Lakes sur AWS • Durabilité et disponibilité élevée à l’echelle de Machine l’ExaByte learning Analytics • Meilleure sécurité, compliance et capacités d’audit • Contrôle fin des accès au niveau Objet Data Lake • Meilleures performances en ne rappatriant qu’un sur AWS subset des données • Ingestion des données facilitée • Très nombreuses integrations avec les solutions partenaires On-premises Real-time data • Le plus grand nombre de services d’analyse et de data movement movement Machine Learning
Data Lakes, Analytics, et IoT Portfolio sur AWS La plus large selection de services d’analytics Machine learning Analytics Analyses intéractives Service de ML managé Hadoop & Spark AMIs de Deep Learning Data Warehousing Reconnaissance de Video et d’Image Recherche full-text Interfaces conversationnelles Analyse temps réél Caméra video avec Deep-Learning Visualisations et Dashboards Traitement automatique du Language Naturel Traduction Reconnaissance de la voix Text-to-Speech Data Lake sur AWS Storage | Archival Storage | Data Catalog On-premises data movement Real-time data movement Connection réseau dédiée Connectez des devices sur AWS Appliances sécurisée Streaming de données temps réel Valise renforcée pour le transport de vos données Streaming de vidéo temps réel Migration de base de données
Data Lakes, Analytics, et IoT Portfolio sur AWS La plus large selection de services d’analytics Machine learning Analytics Amazon Athena Amazon SageMaker Amazon EMR AWS Deep Learning AMIs Amazon Redshift Amazon Rekognition Amazon Elasticsearch Service Amazon Lex Amazon Kinesis AWS DeepLens Amazon QuickSight Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Data Lake sur AWS Amazon S3 | Amazon Glacier | AWS Glue Data Catalog On-premises data movement Real-time data movement AWS Direct Connect AWS IoT Core AWS Snowball Amazon Kinesis Data Firehose AWS Snowmobile Amazon Kinesis Data Streams AWS Database Migration Service Amazon Kinesis Video Streams
Catalogue et Recherche Accès et gestion des utilisateurs Gestion des metadata Donnez accès de façon sécurisé à vos utilisateurs DynamoDB Amazon ES API Gateway IAM Cognito Ingestion des données Poussez vos données sur S3 Traitement et Analyse rapidement et de façon sécurisée Utilisez des methodes prédictives et prescriptives Stockage central pour tirer la valeur de vos données Stockage sécurisé et peu cher de vos données sur S3 Firehose Direct Connect Snowball DMS Athena Quicksight EMR Redshift S3 Protégez et sécurisez Gérez les droits pour assurez la sécurité de la donnée et l’authentification des utilisateurs Security Token Cloudwatch Cloudtrail KMS Service
Qu’est ce que contient mon Data Lake ? Gartner: “En 2018, 80% des data lakes n’inclueront pas de méthode efficasse de gestion des metadatas, ce qui les rendra peu inutilisable." Data Lake sur AWS Storage | Archival Storage | Data Catalog © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue Data Catalog Job Authoring Job Execution Découvrez Développez Déployez Compatible avec Apache Hive Genération automatique Execution serverless Metastore de code ETL Ordonnancement flexible Intégré aux services AWS Python et Apache Spark Monitoring et gestion des Analyse automatique Editez, debugez, et alertes partagez
Data Lake sur Amazon S3 avec AWS Glue Your data Application Web Amazon RDS Autres bases AMAZON QUICKSIGHT Données de vos datacentres Temps réel
Autres méthodes d’alimentation du Catalogue Créer vos tables manuellement Utiliser les Hive DDL statement Utilisez l’API AWS Glue Importez depuis votre Apache Hive Metastore Apache Hive Metastore AWS GLUE ETL AWS GLUE DATA CATALOG
Comment générer de la valeur ? Machine learning Analytics Amazon Athena Amazon SageMaker Amazon EMR AWS Deep Learning AMIs Amazon Redshift Amazon Rekognition Amazon Elasticsearch Service Amazon Lex Amazon Kinesis AWS DeepLens Amazon QuickSight Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Data Lake sur AWS Amazon S3 | Amazon Glacier | AWS Glue Data Catalog On-premises data movement Real-time data movement AWS Direct Connect AWS IoT Core AWS Snowball Amazon Kinesis Data Firehose AWS Snowmobile Amazon Kinesis Data Streams AWS Database Migration Service Amazon Kinesis Video Streams
Analytique avec Hadoop/Spark • Traitement distribué • Différents types d’analyse • Batch/Script (Hive/Pig) • Interactif (Spark, Presto) Batch Script Interactif Temp réél Machine NoSQL • Temp réél (Spark) learning • Machine Learning (Spark) • NoSQL (HBase) YARN (Hadoop Resource Manager) • Pour de nombreux cas d’usage • Analyse de log et clicks • Machine learning Data Lake • Analyse temps réél sur AWS • Analyse à grande échelle • Recherche génomique • ETL
Analytique avec Hadoop/Spark Analytics sur AWS Batch Script Interactif Temps réél Machine NoSQL Amazon EMR learning Hadoop/Spark managé YARN (Hadoop Resource Manager) Data Lake Amazon S3 sur AWS Stockage Objet
Amazon EMR Hadoop et Spark managé dans le cloud pour 1/8 des coûts Enterprise ready Facile Faibles coûts
Gestion externalisée des metadonnées Amazon EMR Vous avez plusieurs otpions Glue Data Amazon S3 Catalog HDFS Job ETL Transient MySQL DB instance Amazon EMR HDFS Source de vérité Cluster Sparl interactif
Amazon Athena: Analyse interactive Service de requête interactive pour analyser vos données stockées sur Amazon S3 en utilisant le language SQL standard Pas d’infrastructure à paramétrer ni à manager, et aucun chargement de données Capacité à lancer des requêtes SQL sur des données archivée dans Amazon Glacier (coming soon) Query Instantly Pay per query Open Easy $ SQL Aucun coût de stop; Payez simplement pour Interface SQL ANSI, drivers Serverless: zéro pointez simplement les requêtes executées; JDBC/ODBC, multiple infrastructure, zéro vers Amazon S3 et Gagnez 30-90% sur votre formats, types de administration commencez à coût par requête avec les compression, et gestion des Integré à Amazon requêter. algorithmes de jointures complexes et des QuickSight. compression. types de données. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Data Lake avec AWS REX la Mutuelle Générale Yan TRUONG Responsable Data engineering Vendredi 15 juin 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
1 146 C.A. 2016 M 23 Vendredi 15 juin 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Le challenge : les « datas » au profit de nos clients et de notre développement 24 Vendredi 13 avril 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
La vision Simplifier la vie du Datascientist Consolider toutes les données du client Collecter des données externes utiles à tous Avoir un langage commun Partager des jeux de données entre directions Respecter les contraintes réglementaires 25 Vendredi 15 juin 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
La démarche 1. Une ambition juste 2. Une solution qui s’adapte constamment à nos besoins AWS cloud #Challenge #NoAdmin 26 Vendredi 15 juin 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Les bénéfices Accélérer les cycles d’innovation Usages multiples du potentiel de nos données • Agilité • Droit à l’erreur • L’amour est dans le … prix 27 Vendredi 15 juin 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Le Datalake Baikal 28 Vendredi 13 avril 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
Notre retour d’expérience Use case, use case et use case Think BIG, start small … and when you need it make IT BIG Le vrai sujet c’est la Data, pas l’infra Le CLOUD est disruptif mais aussi vecteur d’amélioration => DevOpS 29 Vendredi 15 juin 2018 Ce document est à usage interne uniquement. Il est confidentiel et la propriété de La Mutuelle Générale. Il ne peut être transmis à des tiers
En résumé © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Catalogue et Recherche Accès et gestion des utilisateurs Gestion des metadata Donnez accès de façon sécurisé à vos utilisateurs DynamoDB Amazon ES API Gateway IAM Cognito Ingestion des données Poussez vos données sur S3 Traitement et Analyse rapidement et de façon sécurisée Utilisez des methodes prédictives et prescriptives Stockage central pour tirer la valeur de vos données Stockage sécurisé et peu cher de vos données sur S3 Firehose Direct Connect Snowball DMS Athena Quicksight EMR Redshift S3 Protégez et sécurisez Gérez les droits pour assurez la sécurité de la donnée et l’authentification des utilisateurs Security Token Cloudwatch Cloudtrail KMS Service
Merci! © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Vous pouvez aussi lire