FORMATION Catalogue PARCOURS - Octopeek

La page est créée Nadia Pelletier
 
CONTINUER À LIRE
FORMATION Catalogue PARCOURS - Octopeek
2018 / Octopeek Formation   NOM DE LA FORMATION   02

Catalogue
FORMATION
PARCOURS
Big Data & Data Science
FORMATION Catalogue PARCOURS - Octopeek
Catalogue
                  FORMATION
        Parcours / Big Data & Data Science

Octopeek SAS – 191 av de la Division Leclerc, 95880 Enghien-les-Bains – 09 53 73 74 74 - R.C.S. Pontoise : 519 279 095
SIRET : 519 279 095 00037 – APE : 6202 A - N° TVA Intracommunautaire : FR31 519 279 095 - SAS au capital de 51 300 euros
02           PRÉSENTATION                    Octopeek Formation

        « Le Big Data transforme
        le monde. Il donne une nouvelle
      impulsion à l’intelligence humaine.
     Big Data et Data Science permettent
         d’effectuer des projections qui
                                   avenir.
           L’enjeu est de comprendre
                 ces mutations.»

                                                             © Photo by Alessio Lin on Unsplash
Octopeek Formation                          PRÉSENTATION                              03

    O
O CTOPEE K
UNE AGENCE D’EXPERTS

Big Data & Data Science
_

Octopeek intervient auprès de grands
comptes : industrie, banque, assurance, e-com-            « Être DATA DRIVEN »
merce, retail, luxe, énergie, automobile, aéro
nautique, transport…

Nous concevons et mettons en œuvre des
architectures Big Data. Nous développons          Nos formateurs sont des experts
des modélisations descriptives, prédictives et    Architectes Big Data et Data Scientists
prescriptives, basées sur des analyses maté-      _
rielles, comportementales et contextuelles.
                                                  Nos équipes de docteurs et ingénieurs se
Leurs applications : la gestion des équipe-       nourrissent de leurs expériences quotidiennes
ments et la maintenance industrielle, la supply   acquises auprès de grands groupes du CAC
chain, l’aménagement du territoire, la santé,     40 en participant à des projets stratégiques
la gestion des ressources, le marketing direct,   et en répondant à différents use cases sur de
la rétention client, la réduction de la fraude…   nombreux marchés.
04                                                                Octopeek Formation

                                                                                       © Photo by Annie Spratt on Unsplash
     CURSUS
     DE FORMATION
                                  La Data Science et les technologies Big Data
                                  deviennent un enjeu stratégique majeur pour
                                  les entreprises. Elles bousculent les chaînes
                                  de valeurs, les modèles économiques ainsi
                                  que les métiers au sein de ces organisations.
                                  Les cursus de formations proposés dans ce
                                  catalogue permettent d’appréhender ces
                                  nouvelles technologies et ces nouveaux sa-
       DES CURSUS                 voir-faire liés à la transformation digitale, que
     PERSONNALISÉS                ce soit en mode découverte, en approfondis-
                                  sement ou en expertise.
     Nous pouvons vous
     accompagner dans
     le cadre de cursus de
     formations personnalisés,
     par exemple en tenant
     compte de vos use cases.

     Audit et devis sur demande
             > Nous contacter
Octopeek Formation                                                              05

                                          SOMMAIRE
                                          DES FORMATIONS

                                     08
                            PA G E
                                                                           11

                                                                  PA G E
PLATEFORME BIG DATA
AS A SERVICE

Une plateforme BDaaS                      ÉTAT DE L’ART
à votre disposition pendant               ET FONDAMENTAUX
la durée de la formation
                                           Big Data – Enjeux et opportunités
                                           Conduite et pilotage d’un projet
                                           Big Data

                                     15
                            PA G E

                                                                           19
                                                                  PA G E
INFRASTRUCTURE
ET TECHNOLOGIES

 Big Data – Architectures                 DÉVELOPPEMENT
 et technologies                          ET DATA ANALYSE
 Hadoop – Architecture
 et Administration                         Data Analyse Pig, Hive & Spark
                                           Développement MapReduce
                                           et Spark sur Hadoop

                                     25
                                           Les bases NoSQL
                            PA G E

                                           Technique de Data Visualisation

DATA SCIENCE

  Data Science – Fondamentaux
  Data Science avancée
  R pour la Data Science
  Python pour la Data Science
  Spark pour la Data Science
06                                         BDAAS                                           Octopeek Formation

PLATEFORME
BIG DATA AS A SERVICE
BDAAS

Une plateforme BDaaS à votre disposition pendant la durée de la formation
et les 15 jours suivants.

                          Les stagiaires ont accès à un vrai cluster Big Data et peuvent travailler sur
 • DURÉE                 des cas pratiques réels.
 15 jours
                           La puissance de calcul étant fournie par le cluster, de simples PC bureau-
   TARIF                 tiques suffisent pour la formation.
 Le coût d’accès à la
 plateforme BDaaS          Une connexion et un navigateur web permettent d'accéder à la plateforme
 est inclus dans nos     Big Data. Cela simplifie la logistique pour les formations intra-entreprises.
 offres de formations.
 Les utilisateurs

 cet environnement
 complet Big Data
 as a Service pendant
                                                                                       LEARN
 leur formation et
                           DATA
 durant les 15 jours
 suivant la formation.
                                      OPEN
                                      DATA

                            DATA Externe

                                                                                  LISTEN                 EXECUTE

                                             Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Octopeek Formation   BDAAS   07
08   ÉTAT DE L’ART & FONDAMENTAUX   Octopeek Formation
Octopeek Formation          ÉTAT DE L’ART & FONDAMENTAUX      09

                     ÉTAT DE L’ART
                     ET FONDAMENTAUX

                       01 Big Data - Enjeux et opportunités
                       02 Piloter un projet Big Data
10                       ÉTAT DE L’ART & FONDAMENTAUX                                          Réf. OCT-FGEN101

   DURÉE
2 jours / 14h
                         Big Data
                         BIG DATA - ENJEUX ET OPPORTUNITÉS                                     Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative

                         Data dans de nombreux secteurs d’activité. L’enjeu est de connaître les envi-
MODALITÉS                ronnements sociaux-économiques et le panorama technologique des projets.
ET MOYENS
PÉDAGOGIQUES
Démonstrations, cas      Généralités                                      Exemples d’utilisation des types
pratiques, synthèse et    Présentation du Big Data                        de stockage Big Data et comparatif
évaluation des acquis     Perspectives offertes par le Big
                          Data                                          Les technologies Big Data
                          Les acteurs du Big Data                         Hadoop et le Big Data
    Objectifs             Écosystèmes Big Data et                         Les distributions Hadoop
pédagogiques              distributions majeures                          L’écosystème Hadoop
   Comprendre les
enjeux du Big Data       Les opportunités qu’offrent le Big             Le traitement de données en Big
    Découvrir les        Data pour la DSI                               Data
opportunités du Big        Levier d’amélioration par l’analyse            HDFS et YARN
Data                       de données                                     Map Reduce / Tez
    Acquérir les           Les impacts du Big Data                        Apache Hive
connaissances néces-       Le RGPD                                        Apache Spark et ses librairies
saires permettant de
mettre en œuvre les      Open Data                                      Compétences autour du Big Data
technologies Big Data     Les grands principes                           Data Scientist
    Evaluer et sélec-     Motivations                                    Data Analyst
tionner les outils        Impacts sur les entreprises                    Data Engineer
appropriés dans le
cadre d’un plan de
mise en œuvre du         Cas d’usage du Big Data
Big Data                  Marketing                                     Méthodologie projet
                          Gestion intelligente de l’énergie              Les étapes d’un projet Big Data
   Public concerné        Données médicales                              Mise en œuvre d’un projet Big Data
Chef de projets, DSI,     Services publiques                             Rôles des acteurs DSI et Métier
Architecte SI et toute    Grande distribution                            dans un projet Big Data
personne intéressée                                                      Transformation des processus
par les enjeux du Big    Le stockage dans le Big Data                    métier
Data et ses oppor-         Exigences de stockage du                      Risques à prendre en compte dans
tunités.                  Big Data                                       un projet Big Data
                           Le théorème CAP
    Prérequis              NoSQL
Avoir une bonne            Schema on write vs schema
culture générale          on read
des systèmes               Types de stockage en Big Data
d'information

                                          Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FPRO21                ÉTAT DE L’ART & FONDAMENTAUX                                                                  11

     DURÉE
  2 jours / 14h
                                 Big Data
                                 PILOTER UN PROJET BIG DATA                                              Intra-entreprises sur devis
  APPRÉCIATION
  Évaluation qualitative
                                 L’objectif de cette formation est d’appréhender les challenges dans la mise

  MODALITÉS                      organisationnelles et juridiques, ainsi que la gouvernance et la sécurité des
  ET MOYENS                      projets Big Data.
  PÉDAGOGIQUES
  Synthèse et évaluation
  des acquis                     Introduction et mise en contexte                   Management, organisation et
                                 d’un projet Big Data                               pilotage d'un projet Big Data
                                   Introduction au Big Data                           Planification d’un projet Big Data
     Objectifs                     Histoire et origine                                - Identification et définition des
  pédagogiques                     Le besoin en Big Data - Concept                    phases du projet
    Comprendre les                 des 3V / 6V                                        Définition de la liste des livrables
                       -           Les acteurs du Big Data                            Mesure de la performance :
  giques, organisation-            Architecture générale et                           benchmark, surperformance
  nelles et juridiques             fonctionnement                                     Mise en place des outils de gestion
  d’un projet Big Data             Offres du marché                                   et traitement des données
     Bien comprendre               Exemples d’utilisation: sécurité                   Définition d’un projet pilote (POC :
  les challenges dans               informatique, réseaux sociaux, santé...
  la mise en place d'un                                                                 Mise à disposition les résultats
  projet Big Data                                                                       Gestion du projet au quotidien
     Avoir une bonne             projets Big Data
                                                                                    Tests de performance et gestion
  et de la conduite du                                                              des risques d’un projet Big Data
  changement                                                                          Tests de performance, de charge,
    Maîtriser les com-                                                                de vieillissement et de limite de
  pétences nécessaires                                                                l’application
  dans la constitution                                                                Gestion des risques métiers
  d’une équipe projet            Cadrage des projets Big Data                         Gestion des risques stratégiques
  Big Data                                                                            Étude de la maturité des solutions
                                   cadrage métier                                     du marché
      Public concerné
  Chef de projets, Di-             de données                                       Travaux pratiques
  recteur de projets, DSI                                                             Atelier Agile avec mise en place
  et toute personne en             technologiques                                     d’une stratégie de pilotage d’un
  charge de la mise en                                                                projet Big Data
  œuvre et du pilotage
  de projet Big Data               nécessaires

     Prérequis                      juridiques: CNIL, propriété
  Des connaissances                 intellectuelle, RGPD
  en gestion de projets
  sont un plus

Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
12   BIG DATA / INFRASTRUCTURE & TECHNOLOGIE   Octopeek Formation
Octopeek Formation      BIG DATA / INFRASTRUCTURE & TECHNOLOGIE      13

                     BIG DATA
                     INFRASTRUCTURE
                     & TECHNOLOGIES

                       01 Big Data - Architectures et technologies
                       02 Hadoop - Architecture et administration
14                       BIG DATA / INFRASTRUCTURE & TECHNOLOGIE                               Réf. OCT-FBDT301

                         Big Data
   DURÉE
2 jours / 14h
                         BIG DATA - ARCHITECTURE
                         & TECHNOLOGIES                                                       Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative
                         Ce cours de synthèse vous présentera les enjeux et les apports du Big Data
                         ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à prendre
MODALITÉS                en charge un projet de gestion de données massives, tout en passant par
ET MOYENS                l'analyse et la visualisation des données.
PÉDAGOGIQUES
Démonstrations, cas
pratiques, synthèse et   Comprendre les concepts clés                  Data Visualisation, représenter
évaluation des acquis    et les enjeux du Big Data                     des données de façon visuelle
                           Les origines du Big Data                     Principales solutions du marché
                           La valeur de la donnée : un                  Aller au-delà des rapports
    Objectifs              changement d'importance                      statiques
pédagogiques               La donnée en tant que matière                La Data Visualisation et l'art de
   Découvrir les           première                                     raconter des chiffres de manière
concepts clés du Big       Les chiffres clés du marché dans             créative et ludique
Data                       le monde et en France.
   Comprendre              Les enjeux du Big Data : ROI,               Conclusion
l’écosystème techno-                                                    Les conditions du succès
logique d’un projet        données                                      Synthèse des meilleures
Big Data                                                                pratiques
   Apprendre à           Technologies du Big Data                       Bibliographie
mettre en œuvre une        Architecture et composants de la
solution Big Data.         plateforme Hadoop
   Avoir une vue d’en-     Les modes de stockage (NoSQL,
semble sur les possi-
bilités du Big Data        Fonctionnement de MapReduce
                           et YARN
   Public concerné         Principales distributions Hadoop
Chef de projets,           Les technologies émergentes :
Architecte et toute        Spark, Storm, NiFi
personne souhaitant        Démarche d'installation d'une
connaître les impacts      plateforme Hadoop
du Big Data au             Présentation des technologies
niveau de l’organi-
sation et des archi-
tectures                 Traitement des données Big Data
                           Fonctionnement de Hadoop
    Prérequis
Avoir une bonne           Importer des données vers HDFS
culture générale          Traitement des données avec Pig
des systèmes               Requêtes SQL avec Hive
d’information
                          massives avec un ETL

                                         Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FBDT302               BIG DATA / INFRASTRUCTURE & TECHNOLOGIE                                                       15

                                 Big Data
     DURÉE
  3 jours / 21h
                                 HADOOP - ARCHITECTURE
                                 & ADMINISTRATION                                                       Intra-entreprises sur devis
  APPRÉCIATION
  Évaluation qualitative
                                 Hadoop est la principale plateforme de Big Data. Elle assure le stockage et le
                                 traitement d’immenses volumes de données. Cette formation vous permettra
  MODALITÉS                      de comprendre son architecture et d’acquérir les compétences nécessaires
  ET MOYENS
  PÉDAGOGIQUES
  Démonstrations, cas
  pratiques, synthèse et         Introduction                                       Administration
  évaluation des acquis            Présentation générale d’Hadoop                     Gestion des ressources
                                   Exemples d’utilisations d’Hadoop                 - Affecter les quotas
                                   Principales distributions d’Hadoop
    Objectifs                                                                         Administration de HDFS
  pédagogiques                                                                      - Gestion des démons Hadoop
                                 Architecture et composants de la                   - Ajout / suppression des nœuds
  l’architecture d’une           plateforme Hadoop                                  - Gestion des données dans HDFS
  solution Hadoop                  Approche conceptuelle d’Hadoop                     Administration de MapReduce
     Installer et                  HDFS : NameNode / DataNode                       - Gestion des tâches MapReduce
                                   Paradigme MapReduce et YARN                      - Gestion des nœuds de calcul
  Hadoop                           Les technologies émergentes
                                                                                        sécurité et de récupération des
  personnaliser un                                                                      données
  environnement                    Installation d’une plateforme
  Hadoop pour                      Hadoop                                           Travaux pratiques
  optimiser la                                                                                                      -
  disponibilité et le            - Installation d’Hadoop / HDFS                     ministration pas à pas d’un cluster
  débit des données              - Installation des principaux                      Hadoop
                                   composants : Hive, Pig, etc.
     Public concerné             - Mise en œuvre : installation d’Hadoop
  Chef de projets,                 et de quelques composants
  Administrateur
  Système et toute
  personne souhaitant
  mettre en œuvre un              commandes, API Rest, serveur http
  système Hadoop                  intégré, API natives

     Prérequis                     YARN, Logs, etc.
  Connaissance
  systèmes Unix/Linux

Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
16   BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE   Octopeek Formation
Octopeek Formation      BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE   17

                     BIG DATA
                     DÉVELOPPEMENT
                     & DATA ANALYSE

                       01 Data Analyse Pig, Hive & Spark
                       02 Développement MapReduce et Spark sur Hadoop
                       03 Les bases NoSQL
                       04 Techniques de Data Visualisation
18                       BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE                                Réf. : OCT-FBDT303

   DURÉE
3 jours / 21h
                         Big Data
                         DATA ANALYSE PIG, HIVE & SPARK                                         Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative
                         Le but de cette formation est de présenter des outils permettant de traiter et
                         d’analyser des données sur Hadoop. Elle vous permettra de développer des
MODALITÉS                compétences en analyse de données en se focalisant sur Pig, Hive et Spark,
ET MOYENS                que vous serez en mesure d’exploiter.
PÉDAGOGIQUES
Démonstrations, cas
pratiques, synthèse et   Introduction                                    Requêtage des données avec Hive
évaluation des acquis      Introduction au Big Data -                      Description et caractéristiques de Hive
                           Comprendre les concepts clés                     Utilisation de HCatalog
                           et les enjeux du Big Data                        Analyse des données avec Hive
    Objectifs              Introduction à Hadoop -                          Management des données Hive
pédagogiques               Principales distributions de                  - Formats de données Hive
  Comprendre ce            Hadoop                                        - Création des bases de données
que sont Hadoop et                                                         et des tableaux de management
YARN                     La plateforme Hadoop                            - Tableaux auto-managés
  Pouvoir manipuler        Architecture et composants de
les données sous          la plateforme Hadoop                             les vues
Hadoop                     HDFS                                          - Stockage des résultats de requêtes
  Savoir manipuler         NameNode / DataNode /                         - Contrôle d’accès aux données
les données avec          RessourceManager                                  Traitement de texte avec Hive
Spark                      Paradigme MapReduce et YARN                      Fonctions String
  Savoir analyser les      Les technologies émergentes                      Utilisation des expressions
données avec Hive                                                           habituelles dans Hive
                         Traitement des données avec Pig
   Public concerné          Description et caractéristiques de Pig       Apache Spark SQL
Toute personne           - Présentation de Pig                            Présentation générale
souhaitant manipuler     - Différence entre Pig et MapReduce              Caractéristiques – Architecture
et analyser des don-     - Cas d’utilisation de Pig                       Les bases de Spark
nées dans un cluster        Traitement des données                        DataFrames et DataSets
Hadoop                   - Modélisation des données                       Les RDD
                         - Programmation avec Pig Latin                   Le SQL Context
   Prérequis             - Transformations dans la syntaxe                Opérations sur les DataFrames
Connaissances              Pig Latin                                      et les DataSets
systèmes d’informa-      - Fonctions de chargement et de                  Comparaison entre Spark SQL
tion, connaissances        stockage                                       et Hive
bases de données,           Travaux pratiques
concepts de
programmation

                                           Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FBDT304               BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE                                                   19

                                 Big Data
     DURÉE
  3 jours / 21h                  DÉVELOPPEMENT MAPREDUCE
                                 & SPARK SUR HADOOP                                                  Intra-entreprises sur devis
  APPRÉCIATION
  Évaluation qualitative
                                 Hadoop est un framework libre et Open Source destiné à faciliter la création
                                 d’applications distribuées pour le stockage et le traitement d’immenses
  MODALITÉS                      volumes de données. Cette formation vous permettra d’acquérir les
  ET MOYENS                      compétences nécessaires pour développer des solutions compatibles avec
  PÉDAGOGIQUES                   la plateforme Hadoop. Vous apprendrez à développer des applications
  Démonstrations, cas            MapReduce et Spark sous Hadoop.
  pratiques, synthèse et
  évaluation des acquis
                                 Introduction                                       Apache Spark
                                   Introduction au Big Data                          Concept et principe
      Objectifs                    Introduction à Hadoop                             Pourquoi Spark ?
  pédagogiques                     Introduction à Spark                              Spark vs MapReduce
     Comprendre le                                                                   Architecture et fonctionnement
  fonctionnement de              La plateforme Hadoop                                de Spark
  MapReduce                       Architecture et composants
     Comprendre le fonc-           de la plateforme Hadoop                          Programmation avec Spark
  tionnement de Spark             HDFS : NameNode / DataNode                           Les bases de Spark
     Pouvoir développer           Paradigme MapReduce et YARN                          Les RDD
  des applications                Les technologies émergentes                          La programmation parallèle avec
  distribuées dans                                                                     Spark
  un environnement               MapReduce                                          - Partitionnement, jobs, stage et
  Hadoop                          Détailler l’approche MapReduce                      tasks
                                  Programmation MapReduce                           - Changer le niveau de
      Public concerné                                                                  parallélisation
  Chef de projets,               - Comment interagir avec les jobs                     Soumettre une application Spark
  Développeur,                     MapReduce                                        à un cluster
  Ingénieur d’études,            - Principales Interfaces utilisateurs :               Manipulation des données avec
  Architecte technique             Mapper, Reducer, Partitioner,                       Spark : Spark SQL, DataFrames
  et toute personne                Counter                                            et DataSets
  souhaitant dévelop-            - Les entrées / sorties d’une                         Spark Streaming
  per des applications             application MapReduce
  distribuées dans               - Comment réaliser des                             Travaux pratiques
  un environnement                 tests unitaires d'applications                   Exercices de mise en pratique de
  Hadoop                           MapReduce                                        la programmation MapReduce et
                                   Comment utiliser des                             de la programmation Spark
     Prérequis                     combinateurs MapReduce,
  Notions en pro-                  des partitioners et des caches
  grammation Java                  distribués
  et/ou Python et SQL              Meilleures pratiques pour
                                   développer et débugger des
                                   applications MapReduce

Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
20                       BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE                               Réf. : OCT-FBDT305

   DURÉE
3 jours / 21h
                         Big Data
                         LES BASES NoSQL                                                       Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative
                         L'utilisation des bases de données NoSQL a explosé depuis quelques années.
                         L’objectif de cette formation est de présenter un état de l’art sur le sujet. Elle
MODALITÉS                vous permettra de comprendre le concept des bases NoSQL et d’apprendre
ET MOYENS                à utiliser les bases HBase et ElasticSearch.
PÉDAGOGIQUES
Démonstrations, cas
pratiques, synthèse et   Introduction                                     Panorama des principales
évaluation des acquis      Concept de bases de données                  solutions NoSQL
                         relationnelles
                           Big Data et nouvelles                        HBase – Stockage Hadoop
    Objectifs              caractéristiques des données                  Présentation générale – Hadoop
pédagogiques               Les évolutions des données,                   Caractéristiques – Architecture
  Comprendre le            traitements et infrastructures                Organisation logique des données
principe des bases         Nouveaux besoins en gestion                   Organisation physique des
NoSQL                      des données                                   données – configuration distribuée
  Savoir utiliser les      Limites des SGDB relationnels                 Communication avec Hbase Shell
bases NoSQL                Concept du NoSQL                              API
Savoir choisir le mo-      Théorème de CAP
dèle de base NoSQL                                                      ElasticSearch – base orientée
qui répond le plus       SQL vs NoSQL                                   document
aux besoins               Données structurées vs non                      Présentation générale & historique
  Comprendre le           structurées                                     Architecture et technologies
fonctionnement de         CAP vs ACID                                     utilisées
HBase, Elasticsearch      Table vs document                               Concepts de base : Index,
et savoir les mani-       Schémas des données                             Document, Cluster, Nœud, Réplique
puler                     Requêtes                                        Le format JSON
                          Transactions                                    API Rest
   Public concerné        Syntaxe                                         Fonctionnement
Chef de projets,          Caractéristiques – performance,                 Kibana et Logstash
Administrateur bases      scalabilité, etc.
de données, DSI et                                                      Travaux Pratiques
toute personne en        Le NoSql                                       Alternance entre les concepts
charge de la mise en       Caractéristiques générales                   théoriques et la mise en pratique à
œuvre et du pilotage       Architecture distribuée                      travers des exercices de réflexion,
d’une base NoSQL           Critères de choix d’une base                 d’installation ou de programmation
                           NoSQL                                        sur les différentes parties de la
   Prérequis               Principaux modèles de BDD                    formation
Connaissances en         NoSQL
base de données          - Modèles orientés Key-Valeur
Connaissances en sys-    - Modèles orientés Document
tèmes d’information      - Modèles orientés Colonne
                         - Modèles orientés Graphe

                                          Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FBDT306               BIG DATA / DÉVÉLOPPEMENT & DATA ANALYSE                                                      21

     DURÉE
  2 jours / 14h
                                 Big Data
                                 TECHNIQUES DE DATA VISUALISATION                                       Intra-entreprises sur devis
  APPRÉCIATION
  Évaluation qualitative
                                 La DataViz est l’art d’attribuer un visage aux données. Elle est présente tout
                                 au long d’un projet Big Data. Cette formation vous permettra de connaître
  MODALITÉS                      les outils et les méthodes de visualisation. Ceci vous permettra de mieux
  ET MOYENS                      comprendre vos données, et part la même occasion, d'accélérer vos prises
  PÉDAGOGIQUES                   de décisions.
  Démonstrations, cas
  pratiques, synthèse et
  évaluation des acquis          Introduction & mise en contexte                        La DataViz selon le modèle de
                                   Importance de la DataViz –                           la représentation des données :
                                   Pourquoi la DataViz ?                                graphique, infographie,
      Objectifs                    A qui s’adresse la DataViz ?                         cartographie, chronologie,
  pédagogiques                     Histoire et origine                                  hiérarchie, réseau, statistique
     Comprendre le                 Principes de la DataViz
  principe de la visua-            Principes de la perception visuelle              Comment choisir une bonne
  lisation des données             Principes de base de sémiologie                  représentation des données
  « DataViz »                    graphique                                            Identification de l’objectif de la
     Découvrir les outils                                                             visualisation : définir le message,
  et les frameworks de           DataViz & Big Data                                   raconter une histoire, etc.
  la DataViz                      Big Data et les 3V / 6V                             Identification des types de
     Comprendre                   Collecte de données - Open Data                     données disponibles
  comment choisir une             Exploration des données :                           Estimation des contraintes
  bonne représenta-               représentation multidimensionnelle,                 Choix du modèle de
  tion des données                classification, etc.                                représentation en fonction
                                  Nettoyage et filtrage des données                   des données et du message à
      Public concerné             DataViz et analyse de données                       transmettre
  Data Scientist,
  Data Analyst, Dé-              Catégories de la DataViz                           Outils de la DataViz
  veloppeur, Mana-                 La DataViz selon le type de                       Principaux acteurs du marché
  ger, Responsable               représentation : fixe, animée et                    Frameworks de programmation
  Marketing et toute             interactive                                         pour la DataViz (JavaScript, R,
  personne souhaitant              La DataViz selon le secteur
  utiliser la visualisation        d’activité : énergie,                                Quelques solutions Open Source
  des données                      pharmaceutique, banque,etc.                          Comment choisir les bons outils ?
                                   La DataViz selon la relation                         Quelles technologies ?
     Prérequis                     entre les données : temporelle,
  Des connaissances                classement, comparaison,
  sont recommandées                répartition, variation, distribution
  en Big Data, BI,                 et corrélation
  programmation et
  manipulation des
  données

Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
22   DATA SCIENCE   Octopeek Formation
Octopeek Formation                 DATA SCIENCE         23

                     DATA
                     SCIENCE

                       01 Data Science – Fondamentaux
                       02 Data Science avancée
                       03 R pour la Data Science
                       04 Python pour la Data Science
                       05 Spark pour la Data Science
24                       DATA SCIENCE                                                          Réf. : OCT-FDSC401

   DURÉE
2 jours / 14h
                         Data Science
                         DATA SCIENCE - FONDAMENTAUX                                           Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative
                         La Data Science est aujourd’hui centrale dans les entreprises digitalisées. Le
                         but de cette formation est de connaître les bonnes pratiques ainsi que les
MODALITÉS                outils à utiliser en Data Science.
ET MOYENS
PÉDAGOGIQUES
Démonstrations, cas      Introduction à la Data Science                 Feature Engineering
pratiques, synthèse et      Qu’est-ce que la Data Science ?              Types de variables : variables
évaluation des acquis    - Définition                                     catégorielles / discrètes, variables
                         - Domaines d’application de la Data              continues
                           Science                                       Méthodes principales : sélection
    Objectifs            - Outils et algorithmes pour la Data            des caractéristiques, réduction de
pédagogiques               Science                                       dimensions
   Apprendre à mo-          De l’analyse statistique au Machine
déliser un problème        Learning                                     Les différentes familles
Data Science                Enjeux de la Data Science                   d’algorithmes de Machine
   Apprendre à                                                          Learning
extraire de la valeur    Étapes de réalisation d’un projet                L’apprentissage supervisé
de grands ensembles      Data Science                                     L’apprentissage non-supervisé
de données en             Collecte des données                            L’apprentissage renforcé
utilisant une variété     Préparation et nettoyage des
de méthodes de            données                                       Techniques d’évaluation de la
Machine Learning          Construction du modèle                        performance d’un modèle
   Apprendre les          Évaluation du modèle                            Choix de la métrique de
meilleures pratiques      Visualisation et analyse des                     performance
en matière de net-         résultats                                      La validation croisée
toyage et de prépara-     Les bonnes pratiques à adopter                  Sur-apprentissage et sous-
tion de données.                                                          apprentissage
                         Outils de la Data Science                        Régularisation
   Public concerné        Librairies : Sckit-Learn, Pandas,
Développeurs, Data        MLlib…                                        La visualisation des données
Scientists et toute       Outils de développement: Jupyter                Principe de la visualisation des
personne souhaitant       Notebook, Tableau, etc.                       données
acquérir des connais-                                                     Importance de la visualisation des
sances dans le domaine   Prétraitement des données                      données
de la Data Science.        Nettoyage des données                          Principaux outils de visualisation
                           Intégration des données                      des données
   Prérequis               Transformation des données
Avoir des connais-         Échantillonnage                              Exemples de cas d’utilisation
sances de base en
mathématiques,
statistiques et
programmation.

                                          Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FDSC402               DATA SCIENCE                                                                                  25

     DURÉE
  3 jours / 21h
                                 Data Science
                                 DATA SCIENCE AVANCÉE                                                   Intra-entreprises sur devis
  APPRÉCIATION
  Évaluation qualitative
                                 L’importance croissante de la Data Science, surtout dans des entreprises à fortes
                                 composantes numériques, nécessite la maitrise et l’expertise de cette dernière.
  MODALITÉS                      Cette formation vise à approfondir des connaissances de base préalablement
  ET MOYENS                      acquises en Data Science. Introduire des algorithmes de Machine Learning
  PÉDAGOGIQUES                   avancés, tels que le Deep Learning, vous aidera à mieux exploiter les méthodes
  Démonstrations, cas            classiques, en apprenant à choisir un modèle approprié. Vous apprendrez à
  pratiques, synthèse et
  évaluation des acquis

                                 Introduction générale à la Data                    Apprentissage non supervisé
      Objectifs                  Science                                             Principe & spécificités
  pédagogiques                      Qu’est-ce que la Data Science ?                  L’algorithme de K-means
     Découvrir et uti-           - Définition                                        L’algorithme EM (Espérance-
  liser les techniques           - Domaines d’application de la Data
  d'optimisation des               Science                                              Détection des anomalies
  paramètres                     - Outils et algorithmes pour la Data                   L’analyse en composantes
     Comprendre les                Science
  techniques d'appren-              De l’analyse statistique au Machine
  tissage supervisé,               Learning                                         Traitement automatique
  non supervisé, Deep               Enjeux de la Data Science                       du langage naturel (NLP)
  Learning et NLP                   Processus de réalisation d’un projet              Principe
                                   Data Science                                       Les étapes de traitement
     Public concerné                                                                  Tokenisation
  Data Analysts, Data            Techniques d'optimisation des                        Analyse syntaxique et analyse
  Scientists et toute            paramètres                                           sémantique
  personne souhaitant               Modèles ensemblistes                              Topic Modeling
  acquérir des connais-          - Stacking                                           Domaines d’application
  sances approfondies            - Boosting
  en Data Science et             - Bagging                                          Deep Learning
  Machine Learning.                 Optimisation des hyper paramètres                Principe
                                    Sur-apprentissage et sous-                       Introduction aux réseaux de
     Prérequis                     apprentissage                                     neurones
  Avoir des connais-                Régularisation                                   Outils techniques / libraires ( Torch,
  sances en mathéma-
  tiques et statistiques.        Apprentissage supervisé                                Use cases (image recognition avec
                                   Principe de base
                                   Les algorithmes de régression                        Spécificités du Deep Learning
                                 - Régression linéaire
                                 - Régression logistique                                Solutions prêtes à l’emploi : AWS,
                                   Classification supervisée                            Google… et leur intégration
                                   Arbres de décision et Random Forest
                                   Boosting

Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
26                       DATA SCIENCE                                                          Réf. : OCT-FDSC403

   DURÉE
3 jours / 21h
                         Data Science
                         R POUR LA DATA SCIENCE                                                Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative

                         le comportement des clients ou d’anticiper des tendances. Ce stage vous
MODALITÉS                permettra de découvrir l’analyse de données ainsi que le Machine Learning
ET MOYENS                via R, les différentes étapes qui interviennent lors de l’élaboration d’un modèle
PÉDAGOGIQUES             statistique, ainsi que l’analyse textuelle et la Data Visualisation.
Démonstrations, cas
pratiques, synthèse et
évaluation des acquis    Le langage R                                   Data Analysis
                           C’est quoi ?                                  Corrélation
                           Pourquoi R ?                                  Clustering
   Objectifs               Installation & environnement                  Text Mining
pédagogiques                                                             Regression Analysis
  Savoir modéliser       Shell, IDE, NoteBook
un problème de Data       Interpréteur R                                Machine Learning
Science en R              La base de langage R                           Modeling Data
  Apprendre à                                                            Apprentissage supervisé et non
manipuler, préparer,     Premiers pas                                    supervisé
nettoyer, traiter et       Structure de données                          Predictive
analyser les données       Fonction                                      Evaluation du modèle
avec R.                   Import, export, parsing des données
                           Notions statistiques                         Data Visualisation avec R
   Public concerné                                                       ggplot2
Développeurs R,          Data Manipulation                               plotly
Data Analysts, Data       Manipulation des valeurs vides                 Geo Mapping
Scientists et toute       Transformation de données
personne souhaitant       Nettoyage de données
acquérir des connais-
sances dans le           Data Wrangling
domaine de la Data        Indexation de données
Science et R.             Jointure & combinaison
                          Agrégation & Grouping
   Prérequis
Avoir des connais-       Data Exploring
sances en mathéma-
tiques, statistiques       Explorations statistiques
et programmation R.

                                          Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
Réf. OCT-FDSC404               DATA SCIENCE                                                                                   27

     DURÉE
  3 jours / 21h
                                 Data Science
                                 PYTHON POUR LA DATA SCIENCE                                             Intra-entreprises sur devis
  APPRÉCIATION
  Évaluation qualitative

                                 comportement des clients ou d’anticiper des tendances.
  MODALITÉS                      Cette formation vous permettra de découvrir la Data Science via Python,
  ET MOYENS                      les différentes étapes qui interviennent lors de l’élaboration d’un modèle
  PÉDAGOGIQUES                   statistique, ainsi que l’analyse textuelle et la Data Visualisation.
  Démonstrations, cas
  pratiques, synthèse et
  évaluation des acquis          Introduction à la Data Science                     Data Analysis – Modeling avec
                                   Qu’est-ce que la Data Science ?                  Scikit-Learn
                                 - Définition                                         Introduction à Scikit-Learn
     Objectifs                   - Domaines d’application de la Data                  Étapes d’élaboration d’un modèle
  pédagogiques                     Science                                            Use case
    Savoir modéliser             - Outils et algorithmes pour la Data                 Apprentissage supervisé vs
  un problème de Data              Science                                           apprentissage non supervisé
  Science en Python                De l’analyse statistique au Machine                Evaluation du modèle
    Découvrir les                  Learning                                           Exercices
  principales librairies           Enjeux de la Data Science
  de calcul numérique
  dont Numpy, Pandas             Le langage Python                                      Principe de la Data Visualisation
  et Matplotlib                    Qu’est-ce que Python ?                               MatplotLib : Scatter Plot, Box Plot,
                                   Shell, IDE, NoteBook                                 histogrammes
     Public concerné               Les bases de Python                                  Visualisation interactive
  Développeurs,                  - Structures de données                                Exercices
  Data Analystes, Data           - Modules & fonctions
  Scientists, et toute           - Gestion des fichiers                             Introduction à l’utilisation de
  personne souhaitant                                                               Spark avec Python
  acquérir des connais-          Collecte et préparation des                          Présentation de Spark
  sances dans le                 données avec Numpy et Pandas                         Présentation de la librairie PySpark
  domaine de la Data              Importation et stockage de                          Les différents types d’analyses
  Science et Python               données                                             avec PySpark (SQL, Streaming,
                                  Nettoyage et filtrage des données
     Prérequis
  Une première                     Transformation des données                       Travaux pratiques
  expérience en pro-               Jointure & combinaison                           Alternance d'apports théoriques,
  grammation Python                Agrégation & Grouping                            d’exercices pratiques et de mise
  Avoir des connais-               Exercices                                        en situation sous forme de travaux
  sances de base en                                                                 pratiques, permettant de tester les
  mathématiques et                                                                  différentes notions abordées.
  statistiques

Contact : formation@octopeek.com - Tél.: 09 53 73 74 74 - www.octopeek.com/formations
28                          DATA SCIENCE                                              Réf. : OCT-FDSC405

   DURÉE
3 jours / 21h
                            Data Science
                            SPARK POUR LA DATA SCIENCE                                 Intra-entreprises sur devis
APPRÉCIATION
Évaluation qualitative
                            La Data Science est aujourd’hui centrale dans les entreprises digitalisées.
                            Le but de cette formation est de se familiariser avec Spark et de comprendre
MODALITÉS                   son utilisation pour traiter des problèmes de Data Science
ET MOYENS
PÉDAGOGIQUES
Démonstrations, cas
pratiques, synthèse et      Introduction à la Data Science         Spark SQL
évaluation des acquis          Qu’est-ce que la Data Science ?      Initiation à Spark SQL
                            - Définition                            Création de DataFrames
    Objectifs               - Domaines d’application de la Data     Manipulation des DataFrames
pédagogiques                  Science                               (opérations basiques, agrégations
   Se familiariser avec     - Outils et algorithmes pour la Data
Spark                         Science                                Chargement et stockage de
   Apprendre à aborder         De l’analyse statistique au
les problématiques re-        Machine Learning
latives à la Data Science      Enjeux de la Data Science           Spark ML avec MLlib
avec Spark                                                          Modélisation statistique et
   Comprendre le prin-      Introduction Spark                      apprentissage
cipe de fonctionnement        Qu’est-ce que Spark ?                 Types de données (Vector,
de Spark et découvrir         Fonctionnement : RDD,
les principales librai-       DataFrames et DataSets                  Préparation des données
ries (Streaming, SQL,         Comment interagir avec Spark ?         Utilisation d’algorithmes de
Machine Learning,             Programmer avec Spark : APIs           MLlib (k-means, régression
                              Java, Python, Scala                    logistique, arbre de discrimination,

    Public concerné         Manipulation des données                 Exemple de création d’un modèle
Développeurs, Data           Formats basiques (fichiers textes,      d’évaluation avec Spark MLlib sur
Analystes, Data Scien-       JSON, CSV, SequencesFiles,              un jeu de données
tists, et toute personne
souhaitant acquérir des      Interagir avec des sources de         GraphX et GraphFrames
connaissances dans le        données externes : connecteurs         Présentation de GraphX
domaine de la Data           Hive, JDC, HBase, ElasticSearch…       Principe de création des graphes
Science et Spark.                                                   API GraphX
                            Spark Streaming                         Présentation GraphFrames
    Prérequis                Introduction à Spark Streaming         GraphX vs GraphFrames
Une première expérience      La notion de « DStream »
en programmation.            Principales sources de données        Travaux pratiques
Avoir des connaissances      Utilisation de l’API                  Alternance d'apports théoriques,
en SQL, mathématiques        Manipulation des données              d’exercices pratiques et de mise
et statistiques.                                                   en situation sous forme de travaux
                                                                   pratiques permettant de tester les
                                                                   différentes notions abordées.
29

Octopeek SAS – 191 av de la Division Leclerc, 95880 Enghien-les-Bains – 09 53 73 74 74 - R.C.S. Pontoise : 519 279 095
SIRET : 519 279 095 00037 – APE : 6202 A - N° TVA Intracommunautaire : FR31 519 279 095 - SAS au capital de 51 300 euros
www.octopeek.com
Vous pouvez aussi lire