FORMATION Catalogue PARCOURS - Octopeek
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
2018 / Octopeek Formation NOM DE LA FORMATION 02 Catalogue FORMATION PARCOURS Big Data & Data Science
Catalogue FORMATION Parcours / Big Data & Data Science Octopeek SAS – 191 av de la Division Leclerc, 95880 Enghien-les-Bains – 09 53 73 74 74 - R.C.S. Pontoise : 519 279 095 SIRET : 519 279 095 00037 – APE : 6202 A - N° TVA Intracommunautaire : FR31 519 279 095 - SAS au capital de 51 300 euros
02 PRÉSENTATION Octopeek Formation « Le Big Data transforme le monde. Il donne une nouvelle impulsion à l’intelligence humaine. Big Data et Data Science permettent d’effectuer des projections qui avenir. L’enjeu est de comprendre ces mutations.» © Photo by Alessio Lin on Unsplash
Octopeek Formation PRÉSENTATION 03 O O CTOPEE K UNE AGENCE D’EXPERTS Big Data & Data Science _ Octopeek intervient auprès de grands comptes : industrie, banque, assurance, e-com- « Être DATA DRIVEN » merce, retail, luxe, énergie, automobile, aéro nautique, transport… Nous concevons et mettons en œuvre des architectures Big Data. Nous développons Nos formateurs sont des experts des modélisations descriptives, prédictives et Architectes Big Data et Data Scientists prescriptives, basées sur des analyses maté- _ rielles, comportementales et contextuelles. Nos équipes de docteurs et ingénieurs se Leurs applications : la gestion des équipe- nourrissent de leurs expériences quotidiennes ments et la maintenance industrielle, la supply acquises auprès de grands groupes du CAC chain, l’aménagement du territoire, la santé, 40 en participant à des projets stratégiques la gestion des ressources, le marketing direct, et en répondant à différents use cases sur de la rétention client, la réduction de la fraude… nombreux marchés.
04 Octopeek Formation © Photo by Annie Spratt on Unsplash CURSUS DE FORMATION La Data Science et les technologies Big Data deviennent un enjeu stratégique majeur pour les entreprises. Elles bousculent les chaînes de valeurs, les modèles économiques ainsi que les métiers au sein de ces organisations. Les cursus de formations proposés dans ce catalogue permettent d’appréhender ces nouvelles technologies et ces nouveaux sa- DES CURSUS voir-faire liés à la transformation digitale, que PERSONNALISÉS ce soit en mode découverte, en approfondis- sement ou en expertise. Nous pouvons vous accompagner dans le cadre de cursus de formations personnalisés, par exemple en tenant compte de vos use cases. Audit et devis sur demande > Nous contacter
Octopeek Formation 05 SOMMAIRE DES FORMATIONS 08 PA G E 11 PA G E PLATEFORME BIG DATA AS A SERVICE Une plateforme BDaaS ÉTAT DE L’ART à votre disposition pendant ET FONDAMENTAUX la durée de la formation Big Data – Enjeux et opportunités Conduite et pilotage d’un projet Big Data 15 PA G E 19 PA G E INFRASTRUCTURE ET TECHNOLOGIES Big Data – Architectures DÉVELOPPEMENT et technologies ET DATA ANALYSE Hadoop – Architecture et Administration Data Analyse Pig, Hive & Spark Développement MapReduce et Spark sur Hadoop 25 Les bases NoSQL PA G E Technique de Data Visualisation DATA SCIENCE Data Science – Fondamentaux Data Science avancée R pour la Data Science Python pour la Data Science Spark pour la Data Science
06 BDAAS Octopeek Formation PLATEFORME BIG DATA AS A SERVICE BDAAS Une plateforme BDaaS à votre disposition pendant la durée de la formation et les 15 jours suivants. Les stagiaires ont accès à un vrai cluster Big Data et peuvent travailler sur • DURÉE des cas pratiques réels. 15 jours La puissance de calcul étant fournie par le cluster, de simples PC bureau- TARIF tiques suffisent pour la formation. Le coût d’accès à la plateforme BDaaS Une connexion et un navigateur web permettent d'accéder à la plateforme est inclus dans nos Big Data. Cela simplifie la logistique pour les formations intra-entreprises. offres de formations. Les utilisateurs cet environnement complet Big Data as a Service pendant LEARN leur formation et DATA durant les 15 jours suivant la formation. OPEN DATA DATA Externe LISTEN EXECUTE Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Octopeek Formation BDAAS 07
08 ÉTAT DE L’ART & FONDAMENTAUX Octopeek Formation
Octopeek Formation ÉTAT DE L’ART & FONDAMENTAUX 09 ÉTAT DE L’ART ET FONDAMENTAUX 01 Big Data - Enjeux et opportunités 02 Piloter un projet Big Data
10 ÉTAT DE L’ART & FONDAMENTAUX Réf. OCT-FGEN101 DURÉE 2 jours / 14h Big Data BIG DATA - ENJEUX ET OPPORTUNITÉS Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative Data dans de nombreux secteurs d’activité. L’enjeu est de connaître les envi- MODALITÉS ronnements sociaux-économiques et le panorama technologique des projets. ET MOYENS PÉDAGOGIQUES Démonstrations, cas Généralités Exemples d’utilisation des types pratiques, synthèse et Présentation du Big Data de stockage Big Data et comparatif évaluation des acquis Perspectives offertes par le Big Data Les technologies Big Data Les acteurs du Big Data Hadoop et le Big Data Objectifs Écosystèmes Big Data et Les distributions Hadoop pédagogiques distributions majeures L’écosystème Hadoop Comprendre les enjeux du Big Data Les opportunités qu’offrent le Big Le traitement de données en Big Découvrir les Data pour la DSI Data opportunités du Big Levier d’amélioration par l’analyse HDFS et YARN Data de données Map Reduce / Tez Acquérir les Les impacts du Big Data Apache Hive connaissances néces- Le RGPD Apache Spark et ses librairies saires permettant de mettre en œuvre les Open Data Compétences autour du Big Data technologies Big Data Les grands principes Data Scientist Evaluer et sélec- Motivations Data Analyst tionner les outils Impacts sur les entreprises Data Engineer appropriés dans le cadre d’un plan de mise en œuvre du Cas d’usage du Big Data Big Data Marketing Méthodologie projet Gestion intelligente de l’énergie Les étapes d’un projet Big Data Public concerné Données médicales Mise en œuvre d’un projet Big Data Chef de projets, DSI, Services publiques Rôles des acteurs DSI et Métier Architecte SI et toute Grande distribution dans un projet Big Data personne intéressée Transformation des processus par les enjeux du Big Le stockage dans le Big Data métier Data et ses oppor- Exigences de stockage du Risques à prendre en compte dans tunités. Big Data un projet Big Data Le théorème CAP Prérequis NoSQL Avoir une bonne Schema on write vs schema culture générale on read des systèmes Types de stockage en Big Data d'information Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FPRO21 ÉTAT DE L’ART & FONDAMENTAUX 11 DURÉE 2 jours / 14h Big Data PILOTER UN PROJET BIG DATA Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative L’objectif de cette formation est d’appréhender les challenges dans la mise MODALITÉS organisationnelles et juridiques, ainsi que la gouvernance et la sécurité des ET MOYENS projets Big Data. PÉDAGOGIQUES Synthèse et évaluation des acquis Introduction et mise en contexte Management, organisation et d’un projet Big Data pilotage d'un projet Big Data Introduction au Big Data Planification d’un projet Big Data Objectifs Histoire et origine - Identification et définition des pédagogiques Le besoin en Big Data - Concept phases du projet Comprendre les des 3V / 6V Définition de la liste des livrables - Les acteurs du Big Data Mesure de la performance : giques, organisation- Architecture générale et benchmark, surperformance nelles et juridiques fonctionnement Mise en place des outils de gestion d’un projet Big Data Offres du marché et traitement des données Bien comprendre Exemples d’utilisation: sécurité Définition d’un projet pilote (POC : les challenges dans informatique, réseaux sociaux, santé... la mise en place d'un Mise à disposition les résultats projet Big Data Gestion du projet au quotidien Avoir une bonne projets Big Data Tests de performance et gestion et de la conduite du des risques d’un projet Big Data changement Tests de performance, de charge, Maîtriser les com- de vieillissement et de limite de pétences nécessaires l’application dans la constitution Gestion des risques métiers d’une équipe projet Cadrage des projets Big Data Gestion des risques stratégiques Big Data Étude de la maturité des solutions cadrage métier du marché Public concerné Chef de projets, Di- de données Travaux pratiques recteur de projets, DSI Atelier Agile avec mise en place et toute personne en technologiques d’une stratégie de pilotage d’un charge de la mise en projet Big Data œuvre et du pilotage de projet Big Data nécessaires Prérequis juridiques: CNIL, propriété Des connaissances intellectuelle, RGPD en gestion de projets sont un plus Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
12 BIG DATA / INFRASTRUCTURE & TECHNOLOGIE Octopeek Formation
Octopeek Formation BIG DATA / INFRASTRUCTURE & TECHNOLOGIE 13 BIG DATA INFRASTRUCTURE & TECHNOLOGIES 01 Big Data - Architectures et technologies 02 Hadoop - Architecture et administration
14 BIG DATA / INFRASTRUCTURE & TECHNOLOGIE Réf. OCT-FBDT301 Big Data DURÉE 2 jours / 14h BIG DATA - ARCHITECTURE & TECHNOLOGIES Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à prendre MODALITÉS en charge un projet de gestion de données massives, tout en passant par ET MOYENS l'analyse et la visualisation des données. PÉDAGOGIQUES Démonstrations, cas pratiques, synthèse et Comprendre les concepts clés Data Visualisation, représenter évaluation des acquis et les enjeux du Big Data des données de façon visuelle Les origines du Big Data Principales solutions du marché La valeur de la donnée : un Aller au-delà des rapports Objectifs changement d'importance statiques pédagogiques La donnée en tant que matière La Data Visualisation et l'art de Découvrir les première raconter des chiffres de manière concepts clés du Big Les chiffres clés du marché dans créative et ludique Data le monde et en France. Comprendre Les enjeux du Big Data : ROI, Conclusion l’écosystème techno- Les conditions du succès logique d’un projet données Synthèse des meilleures Big Data pratiques Apprendre à Technologies du Big Data Bibliographie mettre en œuvre une Architecture et composants de la solution Big Data. plateforme Hadoop Avoir une vue d’en- Les modes de stockage (NoSQL, semble sur les possi- bilités du Big Data Fonctionnement de MapReduce et YARN Public concerné Principales distributions Hadoop Chef de projets, Les technologies émergentes : Architecte et toute Spark, Storm, NiFi personne souhaitant Démarche d'installation d'une connaître les impacts plateforme Hadoop du Big Data au Présentation des technologies niveau de l’organi- sation et des archi- tectures Traitement des données Big Data Fonctionnement de Hadoop Prérequis Avoir une bonne Importer des données vers HDFS culture générale Traitement des données avec Pig des systèmes Requêtes SQL avec Hive d’information massives avec un ETL Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FBDT302 BIG DATA / INFRASTRUCTURE & TECHNOLOGIE 15 Big Data DURÉE 3 jours / 21h HADOOP - ARCHITECTURE & ADMINISTRATION Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative Hadoop est la principale plateforme de Big Data. Elle assure le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra MODALITÉS de comprendre son architecture et d’acquérir les compétences nécessaires ET MOYENS PÉDAGOGIQUES Démonstrations, cas pratiques, synthèse et Introduction Administration évaluation des acquis Présentation générale d’Hadoop Gestion des ressources Exemples d’utilisations d’Hadoop - Affecter les quotas Principales distributions d’Hadoop Objectifs Administration de HDFS pédagogiques - Gestion des démons Hadoop Architecture et composants de la - Ajout / suppression des nœuds l’architecture d’une plateforme Hadoop - Gestion des données dans HDFS solution Hadoop Approche conceptuelle d’Hadoop Administration de MapReduce Installer et HDFS : NameNode / DataNode - Gestion des tâches MapReduce Paradigme MapReduce et YARN - Gestion des nœuds de calcul Hadoop Les technologies émergentes sécurité et de récupération des personnaliser un données environnement Installation d’une plateforme Hadoop pour Hadoop Travaux pratiques optimiser la - disponibilité et le - Installation d’Hadoop / HDFS ministration pas à pas d’un cluster débit des données - Installation des principaux Hadoop composants : Hive, Pig, etc. Public concerné - Mise en œuvre : installation d’Hadoop Chef de projets, et de quelques composants Administrateur Système et toute personne souhaitant mettre en œuvre un commandes, API Rest, serveur http système Hadoop intégré, API natives Prérequis YARN, Logs, etc. Connaissance systèmes Unix/Linux Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
16 BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE Octopeek Formation
Octopeek Formation BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE 17 BIG DATA DÉVELOPPEMENT & DATA ANALYSE 01 Data Analyse Pig, Hive & Spark 02 Développement MapReduce et Spark sur Hadoop 03 Les bases NoSQL 04 Techniques de Data Visualisation
18 BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE Réf. : OCT-FBDT303 DURÉE 3 jours / 21h Big Data DATA ANALYSE PIG, HIVE & SPARK Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative Le but de cette formation est de présenter des outils permettant de traiter et d’analyser des données sur Hadoop. Elle vous permettra de développer des MODALITÉS compétences en analyse de données en se focalisant sur Pig, Hive et Spark, ET MOYENS que vous serez en mesure d’exploiter. PÉDAGOGIQUES Démonstrations, cas pratiques, synthèse et Introduction Requêtage des données avec Hive évaluation des acquis Introduction au Big Data - Description et caractéristiques de Hive Comprendre les concepts clés Utilisation de HCatalog et les enjeux du Big Data Analyse des données avec Hive Objectifs Introduction à Hadoop - Management des données Hive pédagogiques Principales distributions de - Formats de données Hive Comprendre ce Hadoop - Création des bases de données que sont Hadoop et et des tableaux de management YARN La plateforme Hadoop - Tableaux auto-managés Pouvoir manipuler Architecture et composants de les données sous la plateforme Hadoop les vues Hadoop HDFS - Stockage des résultats de requêtes Savoir manipuler NameNode / DataNode / - Contrôle d’accès aux données les données avec RessourceManager Traitement de texte avec Hive Spark Paradigme MapReduce et YARN Fonctions String Savoir analyser les Les technologies émergentes Utilisation des expressions données avec Hive habituelles dans Hive Traitement des données avec Pig Public concerné Description et caractéristiques de Pig Apache Spark SQL Toute personne - Présentation de Pig Présentation générale souhaitant manipuler - Différence entre Pig et MapReduce Caractéristiques – Architecture et analyser des don- - Cas d’utilisation de Pig Les bases de Spark nées dans un cluster Traitement des données DataFrames et DataSets Hadoop - Modélisation des données Les RDD - Programmation avec Pig Latin Le SQL Context Prérequis - Transformations dans la syntaxe Opérations sur les DataFrames Connaissances Pig Latin et les DataSets systèmes d’informa- - Fonctions de chargement et de Comparaison entre Spark SQL tion, connaissances stockage et Hive bases de données, Travaux pratiques concepts de programmation Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FBDT304 BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE 19 Big Data DURÉE 3 jours / 21h DÉVELOPPEMENT MAPREDUCE & SPARK SUR HADOOP Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative Hadoop est un framework libre et Open Source destiné à faciliter la création d’applications distribuées pour le stockage et le traitement d’immenses MODALITÉS volumes de données. Cette formation vous permettra d’acquérir les ET MOYENS compétences nécessaires pour développer des solutions compatibles avec PÉDAGOGIQUES la plateforme Hadoop. Vous apprendrez à développer des applications Démonstrations, cas MapReduce et Spark sous Hadoop. pratiques, synthèse et évaluation des acquis Introduction Apache Spark Introduction au Big Data Concept et principe Objectifs Introduction à Hadoop Pourquoi Spark ? pédagogiques Introduction à Spark Spark vs MapReduce Comprendre le Architecture et fonctionnement fonctionnement de La plateforme Hadoop de Spark MapReduce Architecture et composants Comprendre le fonc- de la plateforme Hadoop Programmation avec Spark tionnement de Spark HDFS : NameNode / DataNode Les bases de Spark Pouvoir développer Paradigme MapReduce et YARN Les RDD des applications Les technologies émergentes La programmation parallèle avec distribuées dans Spark un environnement MapReduce - Partitionnement, jobs, stage et Hadoop Détailler l’approche MapReduce tasks Programmation MapReduce - Changer le niveau de Public concerné parallélisation Chef de projets, - Comment interagir avec les jobs Soumettre une application Spark Développeur, MapReduce à un cluster Ingénieur d’études, - Principales Interfaces utilisateurs : Manipulation des données avec Architecte technique Mapper, Reducer, Partitioner, Spark : Spark SQL, DataFrames et toute personne Counter et DataSets souhaitant dévelop- - Les entrées / sorties d’une Spark Streaming per des applications application MapReduce distribuées dans - Comment réaliser des Travaux pratiques un environnement tests unitaires d'applications Exercices de mise en pratique de Hadoop MapReduce la programmation MapReduce et Comment utiliser des de la programmation Spark Prérequis combinateurs MapReduce, Notions en pro- des partitioners et des caches grammation Java distribués et/ou Python et SQL Meilleures pratiques pour développer et débugger des applications MapReduce Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
20 BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE Réf. : OCT-FBDT305 DURÉE 3 jours / 21h Big Data LES BASES NoSQL Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative L'utilisation des bases de données NoSQL a explosé depuis quelques années. L’objectif de cette formation est de présenter un état de l’art sur le sujet. Elle MODALITÉS vous permettra de comprendre le concept des bases NoSQL et d’apprendre ET MOYENS à utiliser les bases HBase et ElasticSearch. PÉDAGOGIQUES Démonstrations, cas pratiques, synthèse et Introduction Panorama des principales évaluation des acquis Concept de bases de données solutions NoSQL relationnelles Big Data et nouvelles HBase – Stockage Hadoop Objectifs caractéristiques des données Présentation générale – Hadoop pédagogiques Les évolutions des données, Caractéristiques – Architecture Comprendre le traitements et infrastructures Organisation logique des données principe des bases Nouveaux besoins en gestion Organisation physique des NoSQL des données données – configuration distribuée Savoir utiliser les Limites des SGDB relationnels Communication avec Hbase Shell bases NoSQL Concept du NoSQL API Savoir choisir le mo- Théorème de CAP dèle de base NoSQL ElasticSearch – base orientée qui répond le plus SQL vs NoSQL document aux besoins Données structurées vs non Présentation générale & historique Comprendre le structurées Architecture et technologies fonctionnement de CAP vs ACID utilisées HBase, Elasticsearch Table vs document Concepts de base : Index, et savoir les mani- Schémas des données Document, Cluster, Nœud, Réplique puler Requêtes Le format JSON Transactions API Rest Public concerné Syntaxe Fonctionnement Chef de projets, Caractéristiques – performance, Kibana et Logstash Administrateur bases scalabilité, etc. de données, DSI et Travaux Pratiques toute personne en Le NoSql Alternance entre les concepts charge de la mise en Caractéristiques générales théoriques et la mise en pratique à œuvre et du pilotage Architecture distribuée travers des exercices de réflexion, d’une base NoSQL Critères de choix d’une base d’installation ou de programmation NoSQL sur les différentes parties de la Prérequis Principaux modèles de BDD formation Connaissances en NoSQL base de données - Modèles orientés Key-Valeur Connaissances en sys- - Modèles orientés Document tèmes d’information - Modèles orientés Colonne - Modèles orientés Graphe Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FBDT306 BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE 21 DURÉE 2 jours / 14h Big Data TECHNIQUES DE DATA VISUALISATION Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative La DataViz est l’art d’attribuer un visage aux données. Elle est présente tout au long d’un projet Big Data. Cette formation vous permettra de connaître MODALITÉS les outils et les méthodes de visualisation. Ceci vous permettra de mieux ET MOYENS comprendre vos données, et part la même occasion, d'accélérer vos prises PÉDAGOGIQUES de décisions. Démonstrations, cas pratiques, synthèse et évaluation des acquis Introduction & mise en contexte La DataViz selon le modèle de Importance de la DataViz – la représentation des données : Pourquoi la DataViz ? graphique, infographie, Objectifs A qui s’adresse la DataViz ? cartographie, chronologie, pédagogiques Histoire et origine hiérarchie, réseau, statistique Comprendre le Principes de la DataViz principe de la visua- Principes de la perception visuelle Comment choisir une bonne lisation des données Principes de base de sémiologie représentation des données « DataViz » graphique Identification de l’objectif de la Découvrir les outils visualisation : définir le message, et les frameworks de DataViz & Big Data raconter une histoire, etc. la DataViz Big Data et les 3V / 6V Identification des types de Comprendre Collecte de données - Open Data données disponibles comment choisir une Exploration des données : Estimation des contraintes bonne représenta- représentation multidimensionnelle, Choix du modèle de tion des données classification, etc. représentation en fonction Nettoyage et filtrage des données des données et du message à Public concerné DataViz et analyse de données transmettre Data Scientist, Data Analyst, Dé- Catégories de la DataViz Outils de la DataViz veloppeur, Mana- La DataViz selon le type de Principaux acteurs du marché ger, Responsable représentation : fixe, animée et Frameworks de programmation Marketing et toute interactive pour la DataViz (JavaScript, R, personne souhaitant La DataViz selon le secteur utiliser la visualisation d’activité : énergie, Quelques solutions Open Source des données pharmaceutique, banque,etc. Comment choisir les bons outils ? La DataViz selon la relation Quelles technologies ? Prérequis entre les données : temporelle, Des connaissances classement, comparaison, sont recommandées répartition, variation, distribution en Big Data, BI, et corrélation programmation et manipulation des données Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
22 DATA SCIENCE Octopeek Formation
Octopeek Formation DATA SCIENCE 23 DATA SCIENCE 01 Data Science – Fondamentaux 02 Data Science avancée 03 R pour la Data Science 04 Python pour la Data Science 05 Spark pour la Data Science
24 DATA SCIENCE Réf. : OCT-FDSC401 DURÉE 2 jours / 14h Data Science DATA SCIENCE - FONDAMENTAUX Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative La Data Science est aujourd’hui centrale dans les entreprises digitalisées. Le but de cette formation est de connaître les bonnes pratiques ainsi que les MODALITÉS outils à utiliser en Data Science. ET MOYENS PÉDAGOGIQUES Démonstrations, cas Introduction à la Data Science Feature Engineering pratiques, synthèse et Qu’est-ce que la Data Science ? Types de variables : variables évaluation des acquis - Définition catégorielles / discrètes, variables - Domaines d’application de la Data continues Science Méthodes principales : sélection Objectifs - Outils et algorithmes pour la Data des caractéristiques, réduction de pédagogiques Science dimensions Apprendre à mo- De l’analyse statistique au Machine déliser un problème Learning Les différentes familles Data Science Enjeux de la Data Science d’algorithmes de Machine Apprendre à Learning extraire de la valeur Étapes de réalisation d’un projet L’apprentissage supervisé de grands ensembles Data Science L’apprentissage non-supervisé de données en Collecte des données L’apprentissage renforcé utilisant une variété Préparation et nettoyage des de méthodes de données Techniques d’évaluation de la Machine Learning Construction du modèle performance d’un modèle Apprendre les Évaluation du modèle Choix de la métrique de meilleures pratiques Visualisation et analyse des performance en matière de net- résultats La validation croisée toyage et de prépara- Les bonnes pratiques à adopter Sur-apprentissage et sous- tion de données. apprentissage Outils de la Data Science Régularisation Public concerné Librairies : Sckit-Learn, Pandas, Développeurs, Data MLlib… La visualisation des données Scientists et toute Outils de développement: Jupyter Principe de la visualisation des personne souhaitant Notebook, Tableau, etc. données acquérir des connais- Importance de la visualisation des sances dans le domaine Prétraitement des données données de la Data Science. Nettoyage des données Principaux outils de visualisation Intégration des données des données Prérequis Transformation des données Avoir des connais- Échantillonnage Exemples de cas d’utilisation sances de base en mathématiques, statistiques et programmation. Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FDSC402 DATA SCIENCE 25 DURÉE 3 jours / 21h Data Science DATA SCIENCE AVANCÉE Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative L’importance croissante de la Data Science, surtout dans des entreprises à fortes composantes numériques, nécessite la maitrise et l’expertise de cette dernière. MODALITÉS Cette formation vise à approfondir des connaissances de base préalablement ET MOYENS acquises en Data Science. Introduire des algorithmes de Machine Learning PÉDAGOGIQUES avancés, tels que le Deep Learning, vous aidera à mieux exploiter les méthodes Démonstrations, cas classiques, en apprenant à choisir un modèle approprié. Vous apprendrez à pratiques, synthèse et évaluation des acquis Introduction générale à la Data Apprentissage non supervisé Objectifs Science Principe & spécificités pédagogiques Qu’est-ce que la Data Science ? L’algorithme de K-means Découvrir et uti- - Définition L’algorithme EM (Espérance- liser les techniques - Domaines d’application de la Data d'optimisation des Science Détection des anomalies paramètres - Outils et algorithmes pour la Data L’analyse en composantes Comprendre les Science techniques d'appren- De l’analyse statistique au Machine tissage supervisé, Learning Traitement automatique non supervisé, Deep Enjeux de la Data Science du langage naturel (NLP) Learning et NLP Processus de réalisation d’un projet Principe Data Science Les étapes de traitement Public concerné Tokenisation Data Analysts, Data Techniques d'optimisation des Analyse syntaxique et analyse Scientists et toute paramètres sémantique personne souhaitant Modèles ensemblistes Topic Modeling acquérir des connais- - Stacking Domaines d’application sances approfondies - Boosting en Data Science et - Bagging Deep Learning Machine Learning. Optimisation des hyper paramètres Principe Sur-apprentissage et sous- Introduction aux réseaux de Prérequis apprentissage neurones Avoir des connais- Régularisation Outils techniques / libraires ( Torch, sances en mathéma- tiques et statistiques. Apprentissage supervisé Use cases (image recognition avec Principe de base Les algorithmes de régression Spécificités du Deep Learning - Régression linéaire - Régression logistique Solutions prêtes à l’emploi : AWS, Classification supervisée Google… et leur intégration Arbres de décision et Random Forest Boosting Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
26 DATA SCIENCE Réf. : OCT-FDSC403 DURÉE 3 jours / 21h Data Science R POUR LA DATA SCIENCE Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative le comportement des clients ou d’anticiper des tendances. Ce stage vous MODALITÉS permettra de découvrir l’analyse de données ainsi que le Machine Learning ET MOYENS via R, les différentes étapes qui interviennent lors de l’élaboration d’un modèle PÉDAGOGIQUES statistique, ainsi que l’analyse textuelle et la Data Visualisation. Démonstrations, cas pratiques, synthèse et évaluation des acquis Le langage R Data Analysis C’est quoi ? Corrélation Pourquoi R ? Clustering Objectifs Installation & environnement Text Mining pédagogiques Regression Analysis Savoir modéliser Shell, IDE, NoteBook un problème de Data Interpréteur R Machine Learning Science en R La base de langage R Modeling Data Apprendre à Apprentissage supervisé et non manipuler, préparer, Premiers pas supervisé nettoyer, traiter et Structure de données Predictive analyser les données Fonction Evaluation du modèle avec R. Import, export, parsing des données Notions statistiques Data Visualisation avec R Public concerné ggplot2 Développeurs R, Data Manipulation plotly Data Analysts, Data Manipulation des valeurs vides Geo Mapping Scientists et toute Transformation de données personne souhaitant Nettoyage de données acquérir des connais- sances dans le Data Wrangling domaine de la Data Indexation de données Science et R. Jointure & combinaison Agrégation & Grouping Prérequis Avoir des connais- Data Exploring sances en mathéma- tiques, statistiques Explorations statistiques et programmation R. Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FDSC404 DATA SCIENCE 27 DURÉE 3 jours / 21h Data Science PYTHON POUR LA DATA SCIENCE Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative comportement des clients ou d’anticiper des tendances. MODALITÉS Cette formation vous permettra de découvrir la Data Science via Python, ET MOYENS les différentes étapes qui interviennent lors de l’élaboration d’un modèle PÉDAGOGIQUES statistique, ainsi que l’analyse textuelle et la Data Visualisation. Démonstrations, cas pratiques, synthèse et évaluation des acquis Introduction à la Data Science Data Analysis – Modeling avec Qu’est-ce que la Data Science ? Scikit-Learn - Définition Introduction à Scikit-Learn Objectifs - Domaines d’application de la Data Étapes d’élaboration d’un modèle pédagogiques Science Use case Savoir modéliser - Outils et algorithmes pour la Data Apprentissage supervisé vs un problème de Data Science apprentissage non supervisé Science en Python De l’analyse statistique au Machine Evaluation du modèle Découvrir les Learning Exercices principales librairies Enjeux de la Data Science de calcul numérique dont Numpy, Pandas Le langage Python Principe de la Data Visualisation et Matplotlib Qu’est-ce que Python ? MatplotLib : Scatter Plot, Box Plot, Shell, IDE, NoteBook histogrammes Public concerné Les bases de Python Visualisation interactive Développeurs, - Structures de données Exercices Data Analystes, Data - Modules & fonctions Scientists, et toute - Gestion des fichiers Introduction à l’utilisation de personne souhaitant Spark avec Python acquérir des connais- Collecte et préparation des Présentation de Spark sances dans le données avec Numpy et Pandas Présentation de la librairie PySpark domaine de la Data Importation et stockage de Les différents types d’analyses Science et Python données avec PySpark (SQL, Streaming, Nettoyage et filtrage des données Prérequis Une première Transformation des données Travaux pratiques expérience en pro- Jointure & combinaison Alternance d'apports théoriques, grammation Python Agrégation & Grouping d’exercices pratiques et de mise Avoir des connais- Exercices en situation sous forme de travaux sances de base en pratiques, permettant de tester les mathématiques et différentes notions abordées. statistiques Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
28 DATA SCIENCE Réf. : OCT-FDSC405 DURÉE 3 jours / 21h Data Science SPARK POUR LA DATA SCIENCE Intra-entreprises sur devis APPRÉCIATION Évaluation qualitative La Data Science est aujourd’hui centrale dans les entreprises digitalisées. Le but de cette formation est de se familiariser avec Spark et de comprendre MODALITÉS son utilisation pour traiter des problèmes de Data Science ET MOYENS PÉDAGOGIQUES Démonstrations, cas pratiques, synthèse et Introduction à la Data Science Spark SQL évaluation des acquis Qu’est-ce que la Data Science ? Initiation à Spark SQL - Définition Création de DataFrames Objectifs - Domaines d’application de la Data Manipulation des DataFrames pédagogiques Science (opérations basiques, agrégations Se familiariser avec - Outils et algorithmes pour la Data Spark Science Chargement et stockage de Apprendre à aborder De l’analyse statistique au les problématiques re- Machine Learning latives à la Data Science Enjeux de la Data Science Spark ML avec MLlib avec Spark Modélisation statistique et Comprendre le prin- Introduction Spark apprentissage cipe de fonctionnement Qu’est-ce que Spark ? Types de données (Vector, de Spark et découvrir Fonctionnement : RDD, les principales librai- DataFrames et DataSets Préparation des données ries (Streaming, SQL, Comment interagir avec Spark ? Utilisation d’algorithmes de Machine Learning, Programmer avec Spark : APIs MLlib (k-means, régression Java, Python, Scala logistique, arbre de discrimination, Public concerné Manipulation des données Exemple de création d’un modèle Développeurs, Data Formats basiques (fichiers textes, d’évaluation avec Spark MLlib sur Analystes, Data Scien- JSON, CSV, SequencesFiles, un jeu de données tists, et toute personne souhaitant acquérir des Interagir avec des sources de GraphX et GraphFrames connaissances dans le données externes : connecteurs Présentation de GraphX domaine de la Data Hive, JDC, HBase, ElasticSearch… Principe de création des graphes Science et Spark. API GraphX Spark Streaming Présentation GraphFrames Prérequis Introduction à Spark Streaming GraphX vs GraphFrames Une première expérience La notion de « DStream » en programmation. Principales sources de données Travaux pratiques Avoir des connaissances Utilisation de l’API Alternance d'apports théoriques, en SQL, mathématiques Manipulation des données d’exercices pratiques et de mise et statistiques. en situation sous forme de travaux pratiques permettant de tester les différentes notions abordées.
29 Octopeek SAS – 191 av de la Division Leclerc, 95880 Enghien-les-Bains – 09 53 73 74 74 - R.C.S. Pontoise : 519 279 095 SIRET : 519 279 095 00037 – APE : 6202 A - N° TVA Intracommunautaire : FR31 519 279 095 - SAS au capital de 51 300 euros
www.octopeek.com
Vous pouvez aussi lire