11 Objectifs et principes du - Machine Learning - CentraleSupelec
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
29/05/2018 Big Data : Informatique pour les données et calculs massifs 11 – Objectifs et principes du Machine Learning Stéphane Vialle Stephane.Vialle@centralesupelec.fr http://www.metz.supelec.fr/~vialle Objectifs du « Machine Learning » Taxonomie des algorithmes Entrainement, validation et tests Evaluation et métriques de performances Problèmes liés à la grande dimension 2 1
29/05/2018 Objectifs du Machine Learning Le Machine Learning (ML) est un ensemble : • d’outils statistiques, • d’algorithmes informatiques • et d’outils informatiques qui permettent d’automatiser la construction d’une fonction de prédiction f à partir d’un ensemble d’observations (l’ensemble d’apprentissage) Le ML est une discipline hybride à cheval sur les mathématiques (statistiques essentiellement) et l’informatique (algorithmique, codage performant et large échelle) 3 Objectifs du Machine Learning Un modèle de Machine Learning est un algorithme qui permet de construire une fonction de prédiction f à partir d’un jeu de données d’apprentissage : • La construction de f constitue l’apprentissage ou l’entrainement du modèle • Une prédiction correspond à l’évaluation de la fonction de prédiction sur les variables prédictives d’une observation x : f(x) 4 2
29/05/2018 Objectifs du Machine Learning L’objectif du Machine Learning est de trouver des corrélations : • L’objectif n’est pas de trouver des causes en examinant une chronologie (comme dans une démarche scientifique) • Mais d’identifier des corrélations pertinentes entre les variables prédictives des observations et les variables cibles Rien n’impose qu’une variable prédictive soit la cause d’un phénomène décrit par une variable cible Par exemple, il y a une corrélation entre : • la couleur des dents d’un fumeur (variable prédictive, observation) • et le taux de goudron dans ses poumons (variable cible) Mais la couleur de ses dents n’est pas la cause de l’état de ses poumons! 5 Objectifs du Machine Learning L’objectif du Machine Learning est de trouver des corrélations : Certains modèles peuvent expliquer leur processus « Expliquer leur raisonnement » (ex : arbre de décisions) Mais la plupart du temps il faut se contenter de détection de corrélations sans explications, car le ML ne cherche pas des relations de cause à effet (en fait il ne raisonne pas!). 6 3
29/05/2018 Objectifs du Machine Learning Compétences et rôle du data scientist : Avoir une double connaissance pour choisir un bon modèle : • Connaissance du problème métier que l’on veut modéliser • Connaissance des hypothèses présupposées par chaque algorithme Etre capable de choisir le bon outil/algorithme de ML Etre capable de guider le processus d’apprentissage : • En explorant et préparant les données • En choisissant certaines variables prédictives plus significatives Rmq : La visualisation des données est souvent primordiale pour être capable d’améliorer le processus d’apprentissage 7 Objectifs du Machine Learning Qualités d’un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 • Déployabilité : être capable de passer à l’échelle sur un environnement distribué Un algorithme complexe qui ne passe pas à l’échelle ne sera probablement pas utile ! • Robustesse : supporter des données incohérentes et incomplètes, des données du monde réel. Les algorithmes très pointus mais très sensibles aux données « sales » ne seront pas applicable facilement. Ne pas être trop sensible aux données aberrantes est un atout si on ne peut pas bien préparer les données. • Transparence • Adéquation aux compétences disponibles • Proportionnalité 8 4
29/05/2018 Objectifs du Machine Learning Qualités d’un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 • Déployabilité • Robustesse • Transparence : détecter automatiquement une dégradation des performances de l’application quand le processus d’apprentissage progresse ! Reboucler avec une évaluation globale de l’application … pas simple. Très utile pour les algorithmes d’apprentissage continu « online » • Adéquation aux compétences disponibles : ne pas exiger d’expertise trop poussée pour l’implantation et l’optimisation Les statisticiens/data scientists ne sont pas des informaticiens, et réciproquement ! Si un algorithme nécessite des compétences pointues en Math et en Informatique, il va coûter cher… Même pb en HPC 9 • Proportionnalité Objectifs du Machine Learning Qualités d’un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 • Déployabilité • Robustesse • Transparence • Adéquation aux compétences disponibles • Proportionnalité : le temps et l’argent investis dans un algorithme de ML ou dans son optimisation doivent être proportionnels au gain obtenu Souci classique, mais révélateur de mauvaises expériences ! Ces « qualités » en environnement industriel révèlent les difficultés / mauvaises surprises déjà rencontrées. L’analyse de données (Big Data) est toujours très prometteuse, mais la période utopique est terminée. 10 5
29/05/2018 Objectifs du « Machine Learning » Taxonomie des algorithmes Entrainement, validation et tests Evaluation et métriques de performances Problèmes liés à la grande dimension 11 Taxonomie des algorithmes Deux axes de classement des algorithmes de ML • Le mode d’apprentissage : algorithmes supervisés et non‐supervisés • Le type de problème traité pour les algorithmes supervisés algorithmes de régression et de classification Algorithme Mode d’apprentissage Type de problème Régressions linéaires, Supervisé Régression polynomiales et régularisés Naïve Bayes Supervisé Classification Arbre de décision Supervisé Régression ou classification Clustering hiérarchique Non‐supervisé (classification) …. 12 6
29/05/2018 Taxonomie des algorithmes Mode d’apprentissage supervisé : • Les données sont des ensembles de couples entrée‐sortie • Les sorties peuvent être • des mesures observées (ex. sorties de capteurs) • des indications d’experts (ex. insuffisant/superficiel/maitrisé/expert) • Ces algorithmes cherchent à mettre au point/à apprendre une fonction de prédiction qui associe les entrées aux sorties 13 Taxonomie des algorithmes Mode d’apprentissage supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 On va introduire une variable de plus : l’Id du groupe de sortie (0 ou 1) gr 1 Et l’algorithme « apprendra » des gr 0 x1 couples : ((x1,x2), grId) L’algorithme mettra au point une fonction de prédiction f : (x1,x2) grId qui tentera de répondre correctement pour tous les points sur lesquels on l’aura entraîné, mais aussi sur d’autres points 14 7
29/05/2018 Taxonomie des algorithmes Mode d’apprentissage non‐supervisé : • Les données sont uniquement des ensembles d’entrées • Les algorithmes cherchent à organiser tous seuls les données en groupes • Ces algorithmes cherchent aussi à mettre au point / à apprendre une fonction de prédiction d’un groupe de sortie • Certains décident seuls du nombre de groupes, d’autres peuvent être contraint pour construire k groupes ou des groupes d’un rayon maximal Rmq : ici l’apprentissage ne se fait plus à partir d’une indication fournie par un expert, mais seulement à partir de fluctuations dans les valeurs d’entrée 15 Taxonomie des algorithmes Mode d’apprentissage non‐supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 On n’introduit aucune variable supplémentaire gr 1 Et l’algorithme construira tout seul des gr 0 groupes de points d’entrée à partir de x1 leurs seules coordonnées (x1, x2) L’algorithme mettra toujours au point une fonction de prédiction f : (x,y) grId qui tentera de répondre correctement pour tous les points sur lesquels on l’aura entraîné, mais aussi sur d’autres points 16 8
29/05/2018 Taxonomie des algorithmes Algorithmes supervisés de régression et de classification • Dans le cas des algorithmes supervisés de régression la sortie peut prendre une infinité de valeurs (réelles) • Dans le cas des algorithmes supervisés de classification la sortie peut prendre un ensemble fini de valeurs (ex : {1,…k}) (ce sont les « étiquettes » des valeurs d’entrée) € Décision Admis m² Refusé Note d’examen Prix(taille en m²) Décision(note d’examen) Problème de régression Problème de classification pour estimer le prix pour décider l’admission ou le refus 17 Objectifs du « Machine Learning » Taxonomie des algorithmes Entrainement, validation et tests Evaluation et métriques de performances Problèmes liés à la grande dimension 18 9
29/05/2018 Entrainement, validation et tests Segmentation de l’ensemble des observations disponibles Approche de base : Soit m l’ensemble des observations disponibles On le coupe en deux : • mentrainement : 70% de m • mtest : 30% de m On entraine le modèle sur mentrainement, et on le teste sur mtest Mais en fait on entre dans une boucle d’optimisation : mentrainement mtest entrainement test réglage modèle on optimise le modèle en affinant ses paramètres 19 Entrainement, validation et tests Segmentation de l’ensemble des observations disponibles Approche de base : mentrainement mtest entrainement test réglage modèle On risque d’optimiser le modèle pour les observations de test (mtest) !! 20 10
29/05/2018 Entrainement, validation et tests Segmentation de l’ensemble des observations disponibles Approche améliorée : Soit m l’ensemble des observations disponibles On le coupe en trois : • mentrainement : 60% de m • mtest : 20% de m Pour la boucle d’optimisation • mvalidation : 20% de m Une fois le modèle optimisé et entrainé, on valide (ou non) sa généricité sur un jeu de données encore jamais utilisé mentrainement mtest mvalidation entrainement test validation réglage modèle 21 Entrainement, validation et tests Segmentation de l’ensemble des observations disponibles Approche par validation croisée : On coupe toujours l’ensemble des observations en trois : • mentrainement : 60% de m • mtest : 20% de m Pour la boucle d’optimisation • mvalidation : 20% de m On isole les données de mtest, mais on utilise les autres données pour participer tantôt à mentrainement et tantot à mvalidation mentrainement mtest mvalidation entrainement test validation réglage modèle 22 11
29/05/2018 Entrainement, validation et tests Segmentation de l’ensemble des observations disponibles Approche par validation croisée : « leave‐k‐out cross‐validation » • mtest : 20% de m • mentrainement : 80% de m – k observations • mvalidation : k observations On réalise toutes les combinaisons possibles : N = Ck80% Les N erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche méthodique mais longue ! mentrainement mtest mvalidation mentrainement mvalidation mentrainement entrainement test mvalidation validation entrainement test validation Ck80% entrainement test validation réglage modèle réglage modèle réglage modèle 23 Entrainement, validation et tests Segmentation de l’ensemble des observations disponibles Approche par validation croisée : «k‐fold cross‐validation » • mtest : 20% de m • 80% de m découpés aléatoirement en q paquets de même taille • mentrainement : q‐1 paquets • mvalidation : 1 paquet On teste toutes les combinaisons possibles de paquets : q possibilités Les q erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche moins systématique mais plus rapide ! mentrainement mtest mvalidation mentrainement entrainement test m validation validation m entrainement entrainement test m validation validation q entrainement test validation réglage modèle réglage modèle réglage modèle 24 12
29/05/2018 Objectifs du « Machine Learning » Taxonomie des algorithmes Entrainement, validation et tests Evaluation et métriques de performances • Exemples pour les méthodes de régression • Exemples pour les méthodes de classification Problèmes liés à la grande dimension 25 Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i) Valeurs prédites par le modèle : ( i) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : ‐ Erreur de prédiction naïve : ‐ Erreur moyenne absolue : ∑ − MAE Racine de la moyenne du carré des erreurs : ∑ − RMSE Signale plus sévèrement les grandes erreurs 26 13
29/05/2018 Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i) Valeurs prédites par le modèle : ( i) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : ‐ Erreur de prédiction naïve : ‐ ∑ ∑ − Coefficient de détermination (R²) : ∑ 1 − ∑ − Taux de fluctuation du au modèle « Mesure de l’adéquation du modèle aux données observées … » 0 1: R² proche de 1 adéquation parfaite R² proche de 0 adéquation nulle 27 Objectifs du « Machine Learning » Taxonomie des algorithmes Entrainement, validation et tests Evaluation et métriques de performances • Exemples pour les méthodes de régression • Exemples pour les méthodes de classification Problèmes liés à la grande dimension 28 14
29/05/2018 Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Observations + ‐ Total + Vrais positifs Faux positifs Positifs prédits Prédictions (VP) (FP) (VP+FP) ‐ Faux négatifs Vrais négatifs Négatifs prédits (FN) (VN) (FN+VN) Total Total des vrais Total des vrais Total des positifs observés négatifs observés échantillons (VP+FN) (FP+VN) (N) 29 Evaluation des classifications Matrice de confusion : déduction d’indicateurs de performance Observations + ‐ Total + 250 150 400 Prédictions (VP) (FP) (VP+FP) ‐ 50 550 600 (FN) (VN) (FN+VN) Total 300 700 1000 • Taux d’erreurs : (FP+FN)/N • Rappel, recall ou sensibilité : VP/(VP+FN) Taux de vrais positifs • Précision : VP/(VP+FP) 30 15
29/05/2018 Evaluation des classifications Matrice de confusion : déduction d’indicateurs de performance Observations + ‐ Total + 250 150 400 Prédictions (VP) (FP) (VP+FP) ‐ 50 550 600 (FN) (VN) (FN+VN) Total 300 700 1000 • Taux d’erreurs : (FP+FN)/N : 20% • Rappel, recall ou sensibilité : VP/(VP+FN) : 83% • Précision : VP/(VP+FP) : 63% 31 Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Observations + ‐ Total Prédictions + 250 (VP) 150 (FP) 400 ‐ 50 (FN) 550 (VN) 600 Total 300 700 1000 • F1 score : indicateur agrégé de la précision et du rappel agrégation de ratios par moyenne harmonique moyenne de la précision et du rappel F1 = 2 x (1/(1/precision + 1/rappel)) F1 = 2 x (precision*rappel)/(precision+rappel) F1 = 2.VP/(2.VP + FP + FN) , 0 ≤ F1 score ≤ 1 Le facteur 2x permet d’avoir un F1 score de 1 quand à la fois la précision et le rappel valent 1 32 16
29/05/2018 Evaluation des classifications Qualité d’un clustering : X2 Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre « clustering ») X1 Critère de similarité intra‐cluster Un cluster de points , de centre ∑ ∑ ∑ Rayon = Diamètre = . On cherche habituellement à minimiser ces Rayon ou Diamètres Pout obtenir les clusters les plus compacts possibles 33 Evaluation des classifications Qualité d’un clustering : X2 Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre « clustering ») X1 Critère de dissimilarité inter‐clusters Soit deux clusters et , on calcule une distance inter‐cluster que l’on cherche à maximiser : ∑ ∑ Ex : D( , )= , . ou : D( , )= min , ou …. 34 17
29/05/2018 Objectifs du « Machine Learning » Taxonomie des algorithmes Entrainement, validation et tests Evaluation et métriques de performances Problèmes liés à la grande dimension 35 Problèmes de la grande dimension La malédiction de la dimension Richard Belleman, 1961. Le volume englobant les données augmente exponentiellement avec la dimension de l’espace des données Souvent les données deviennent éparses dans un espace en grande dimension Les modèles de régression deviennent moins pertinents : • On peut expliquer un nuage de point épars par de nombreux modèles ! • Une fluctuation dans une variable peut entraîner de gros changements dans le modèle qui devient instable Les modèles de classification sont également perturbés par des données éparses (plus complexe) 36 18
29/05/2018 Problèmes de la grande dimension De plus en plus de caractéristiques encodées dans chaque donnée Chaque dimension correspond à une caractéristique du système Problème des caractéristiques corrélées (partiellement ou fortement) Problème des caractéristiques non pertinentes pour l’analyse Complique l’utilisation d’un modèle 37 Problèmes de la grande dimension Des volumes de données énormes Si les données ne sont pas éparses, alors leur volume devient vraiment énorme Problèmes de stockage, d’interrogation en temps limité, de chargement en RAM… Et de plus en plus de difficultés à représenter les données et à les visualiser… 38 19
29/05/2018 Objectifs et principes du Machine Learning 39 20
Vous pouvez aussi lire