Comprendre les données visuelles à grande échelle - ENSIMAG 2021-2022 Karteek Alahari & Diane Larlus
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Comprendre les données visuelles à grande échelle ENSIMAG 2021-2022 Karteek Alahari & Diane Larlus Jeudi 30 septembre 2021
Comprendre les données visuelles à grande échelle l Site Web: https://project.inria.fr/bigvisdata/ l Intervenants: ► Karteek Alahari, Chargé de Recherche @ INRIA Grenoble ► Diane Larlus, Principal Scientist @ NAVER LABS l 12 x 1h30 = 18h de cours l Évaluation l Examen final écrit l Présentations et Quizz sur des articles de recherche
Cours 1: Introduction – Image Retrieval (part 1) Comprendre les données visuelles à grande échelle 30 septembre 2021
Les données à grande échelle Comprendre les données visuelles à grande échelle Cours 1: Introduction, 30 septembre 2021
Les données à grande échelle Le big data • littéralement « grosses données » • méga données • données massives désigne un ensemble de données qui sont tellement volumineuses qu‘elles en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Wikipedia • Nécessite le développement d’outils spécifiques
Les données visuelles à grande échelle ou Big Visual Data sont devenues une façon majeure de transférer l’information
Quelques chiffres l Croissance très importante, en raison de l’accumulation des contenus numériques auto-produits par le grand public ► ImDb recense plus de 400 000 films ► Images (semi-)pro : Corbis, Getty, Fotolia ► centaines de milliers d’ images ► Facebook – chiffres de 2013 ► 350 millions de nouvelles photos / jour ► 250 milliards de photos stockées ► 3,000 années de vidéo générées chaque jour ► Flickr – novembre 2016 ► 13 milliards de photos ► Youtube ► 35h / min uloaded in 2011 ► 100h / min uploaded in 2014
Les données visuelles à grande échelle ou Big Visual Data sont devenues une façon majeure de transférer l’information Selon la British Security Industry Authority (BSIA), il y aurait autour de 5M de CCTV cameras en GB, soit une pour 14 habitants (source: telegraph-2013) La chine projeté d’installer 600 millions de caméras de surveillance sur son territoire
Les données visuelles à grande échelle ou Big Visual Data sont devenues une façon majeure de transférer l’information Seule une partie de ces données est exploitée, et une bonne partie du processus est fait à la main → opportunités de simplification de tâches fastidieuses → opportunités de nouvelles applications et de nouvelles solutions commerciales → développement de l’intelligence ambiante
Exemples d’applications du Big Visual Data l News/Films à la demande l Commerce électronique l Informations médicales l Systèmes d’informations géographiques l Architecture/Design l Protection du copyright / traçage de contenu l Géolocalisation, système de navigation l Enquêtes policières l Militaire l Expérimentations scientifiques l Enseignement l Archivage, gestion des bases de données de contenu (personnelles ou professionnelles) l Moteur de recherche (Internet, collections personnelles) l Voitures et autres véhicules autonomes l Robotique, plateformes d’intelligence ambiante l Autres applications industrielles l Etc.
Exemples d’applications à NAVER LABS
Chaîne du Big Visual Data 1. Génération : • outils de production et de création 2. Représentation • utilisation de formats de représentation différents 3. Stockage 4. Transmission • problème de réseaux, architecture 5. Recherche d’information • recherche d’images basée sur le contenu (image retrieval ou image search) • Autres taches de vision par ordinateur / d’analyse d’images (voir exemples) 6. Distribution • conception de serveur de streaming, interfaces de l’application, etc.
Annotations d’images: difficulté et ambiguïté Comprendre les données visuelles à grande échelle Cours 1: Introduction, 30 septembre 2021
Contenu et métadonnées l Les données “brutes” (fichier image, fichier son) contiennent des informations sémantiques = directement compréhensibles pour l'utilisateur l Ces métadonnées proviennent ► Soit de propriétés de descripteurs des objets (ex: couleur moyenne d’une image, métadonnée surexposé) ► Soit de données d’autres médias (ex: GPS) ► Soit d’annotations manuelles (ex. Tags) .
Exemple: Exchangeable image file format (Exif) l Spécification pour les formats d’images des appareils numériques ► non uniformisé, mais largement utilisé l Pour JPEG, TIFF, RIFF, ne supporte pas, PNG ou GIF l Le format supporte souvent ► Date et heure, enregistrés par l’appareil ► Les paramètres de l’appareil l Dépendent du modèle : inclus la marque et des informations diverses telles que le temps d’ouverture, l’orientation, la focale, l’ISO, etc. ► Une vignette de prévisualisation ► La description et les informations de copyright ► Les coordonnées GPS l Ce format est supporté par de nombreuses applications
Contenu et métadonnées …. vs acquisition d’annotations spécifiques à la tâche l Il est parfois nécessaire d’acquérir des annotations spécifiques à la tâche qui nous intéresse l On parle de données labélisées l Elles sont souvent associées à l’apprentissage supervisé l Dans ce cas elles sont utilisées comme données d’apprentissage pour apprendre un modèle de prédiction utile à la tâche à résoudre (Des exemples de tâches automatisables seront données juste après) l L’apprentissage supervisé est un exemple d’apprentissage machine
Annotation d'images l Il faut choisir un type d’annotation l Ensemble de tags / étiquettes (une ou plusieurs étiquettes par image) l Position approximative de tous les objets (boites englobantes) l Position précise de tous les objets (masques de segmentation) l Phrases descriptives l Il faut une cohérence des annotations sur toute une base people motorbike people motorbike A motorcyclist turning right
Ambiguïté de l'annotation d'images l Difficile de se mettre d'accord sur les annotations l Exemple: Instructions pour la création d’une vérité terrain pour la compétition PASCAL 2009 All objects of the defined categories, unless: you are unsure what the object is. What to label the object is very small (at your discretion). less than 10-20% of the object is visible. If this is not possible because too many objects, mark image as bad. Viewpoint Record the viewpoint of the ‘bulk’ of the object e.g. the body rather than the head. Allow viewpoints within 10-20 degrees. If ambiguous, leave as ‘Unspecified’. Unusually rotated objects e.g. upside-down people should be left as 'Unspecified'. Bounding box Mark the bounding box of the visible area of the object (not the estimated total extent of the object). Bounding box should contain all visible pixels, except where the bounding box would have to be made Ø Malgré ces instructions, excessively large to include a few additional pixels (
Ambiguïté de l'annotation d'images l Obtenir des annotations précises est une tâche fastidieuse l Une solution courante: plateformes de crowdsourcing, comme Amazon Mechanical Turk l Crowdsourcing : externalisation ouverte ou production participative en français l Amazon Mechanical Turk (AMT) l Origine du nom : le Turc mécanique ou l’automate joueur d'échecs est un célèbre canular construit à la fin du XVIIIe siècle : il s’agissait d'un prétendu automate doté de la faculté de jouer aux échecs l L’utilisation d’Amazon Mechanical Turk a permis la construction de bases d’images annotées qui ont grandement participé à l’avancée de la recherche en vision par ordinateur, par exemple: l ImageNet (http://image-net.org/) l MS Coco (http://mscoco.org/) l Visual Genome (https://visualgenome.org/) l Base VQA (http://www.visualqa.org/)
ImageNet
Pushing the state of the art • ImageNet challenge: • Task: Categorize images into 1000 classes
Pushing the state of the art • ImageNet challenge: • Task: Categorize images into 1000 classes • Until 2011: “standard” techniques (Fisher Vector) • Starting 2012: deep learning (CNNs) (Source: Nervana)
MS COCO • Common Objects in Contexts “What is COCO?” from its webpage COCO is a large-scale object detection, segmentation, and captioning dataset COCO has several features: • Object segmentation • Recognition in context • Superpixel stuff segmentation • 330K images (>200K labeled) • 1.5 million object instances • 80 object categories • 91 stuff categories • 5 captions per image • 250,000 people with keypoints http://cocodataset.org
Visual Genome • 108,077 Images • 5.4 Million Region Descriptions • 1.7 Million Visual Question Answers • 3.8 Million Object Instances • 2.8 Million Attributes • 2.3 Million Relationships • Everything Mapped to Wordnet Synsets Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li Jia-Li, David Ayman Shamma, Michael Bernstein, Li Fei-Fei
Quels sont les processus automatisables en analyse de données visuelles ? Comprendre les données visuelles à grande échelle Cours 1: Introduction, 30 septembre 2021
1) Recherche d’images par similarité Principe • Etant donné une image, retrouver les images similaires dans une grande base visuelle
1) Recherche d’images par similarité l Utilise la notion de proximité, de similarité, ou de distance entre images l Généralement, la requête est exprimée sous la forme d’un ou de plusieurs vecteurs dans un espace multidimensionnel. ► définition d’une distance (ou mesure de similarité) sur cet espace ► recherche des objets dont la distance est minimale l Les vecteurs sont extraits du contenu de l’image Recherche par le contenu ou CBIR: content based information retrieval l Possibilité d’utiliser un retour de pertinence l L’utilisateur spécifie quels résultats sont les plus pertinents pour sa requête l Le système raffine les résultats en fonction de ce retour
Variation d’apparence d’une instance d’objet donné scale reference image viewpoint occlusion illumination
Autres processus automatisables: la reconnaissance d’objet 2) Catégorisation d’image • Catégorie principale associée à l’image, ou réponse oui/non à une liste de catégories connues à l’avance 3) Détection d’objet • Boite englobante pour toutes les instances d’une catégorie d’intérêt 4) Segmentation d’objet, segmentation sémantique • Localisation précise des objets au niveau du pixel
Difficultés de la modélisation des catégories d’objet • Illumination, ombres • Orientation et pose • Fond texturé, distracteurs • Occultations • Variations intra-classe
5) Etiquetage d’image ou Image tagging • Catégorisation de l’objet principal contenu dans l’image ou des différents objets • lien avec la reconnaissance d’objet et notamment la classification d’image • Catégorisation de la scène • intérieur vs extérieur, paysage urbain ou campagnard, etc. • Tout autre type d’attributs possible • Couleur, forme, texture, etc. Tokyo tower Landscape Sunset Urban
Annotations avec des critères subjectifs 6) Qualités esthétiques • Prédire si le plus grand nombre va trouver une image agréable à regarder, visuellement esthétique 7) Iconicité d’une image • Prédire si une image est un bon représentant d’un concept, par exemple dans un but d’enseignement 8) Mémorabilité • Prédire si une image sera plus facilement remarquée, mémorisée (remembered) [AVA: Murray et al. CVPR12] [What makes an image iconic? Zhang et al. Arxiv 14] [Image memorability. Khosla et al. ICCV15]
Annotations plus complexes 9) Le sous-titrage automatique d’image (image captioning) Automatic Image Caption Generation Sample taken from the work of Andrej Karpathy and Li Fei-Fei More recent demo: https://www.captionbot.ai/
Annotations plus complexes 10) La réponse à des questions visuelles (Visual question answering ou VQA) http://www.visualqa.org/ More recent demo: http://vqa.cloudcv.org/
Apprentissage automatique et intelligence artificielle Comprendre les données visuelles à grande échelle Cours 1: Introduction, 30 septembre 2021
Vocabulaire • Apprentissage automatique (Machine learning) champ d'étude de l'intelligence artificielle qui se base sur des approches statistiques pour donner aux ordinateurs la capacité d' « apprendre » à partir de données [..]. Il comporte généralement deux phases. - La première consiste à estimer un modèle à partir de données, appelées observations [..] Cette phase dite « d'apprentissage » ou « d'entraînement » est généralement réalisée préalablement à l'utilisation pratique du modèle. Wikipedia - La seconde phase correspond à la mise en production : le modèle étant déterminé, de nouvelles données peuvent alors être soumises afin d'obtenir le résultat correspondant à la tâche souhaitée. • Apprentissage profond (Deep Learning) est un ensemble de méthodes d'apprentissage automatique tentant de modéliser avec un haut niveau d’abstraction des données grâce à des architectures articulées de différentes transformations non linéaires • Intelligence artificielle (AI) est l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence
AI in the news • 2016: computer beats a top-ranked professional player at the go game, known as one of the most difficult for computers
AI in the news 2019: StyleGAN – and more generally GANs and Deep Fakes • December 2018 – StyleGAN paper + Code • February 2019 – This Person Does Not Exist. Website (https://thispersondoesnotexist.com/)
Recherche visuelle d’images – introduction Comprendre les données visuelles à grande échelle Cours 1: Introduction, 30 septembre 2021
Visual Search - Principle
Visual Search - Principle
Visual Search - Applications Many applications • Reverse Image search • Web search engine • Personal photo collection
Visual Search - Applications Many applications • Geolocalization
Visual Search - Applications Many applications • Query for more information • Landmarks • Paintings • Movies • Book covers • Game covers • Packaged food
Visual Search - Applications Many applications • Shopping interfaces
Inherent ambiguity What can the user mean with such a single query?
Inherent ambiguity What can the user mean with such a single query?
Inherent ambiguity What can the user mean with such a single query? Application dependent! • Inject prior information • Leverage training
Inherent ambiguity What can the user mean with such a single query? Information a priori: • Design à la main de descripteurs Application dependent! pertinents ou de méthodes pertinentes pour la vérification en fonction de l’application visée • Inject prior information • Leverage training Apprentissage: • On laisse le système apprendre tout ou partie du design, en particulier le système « choisit » les caractéristiques pertinentes pour la tâche
Description locale des images Comprendre les données visuelles à grande échelle Cours 1: Introduction, 15 octobre 2020
Rappel: variation d’apparence d’une instance d’objet donné scale reference image viewpoint occlusion illumination
Local representations It is challenging to capture all these invariances in a global representation
Local representations It is challenging to capture all these invariances in a global representation Local representations seem more adapted but require more sophisticated matching
Représentations locales • Les représentations locales captures l’apparence de l’image localement • L’apparence locale est extraite à plusieurs positions dans l’image, choisies avec soin, notamment à l’aide d’un critère de « répétabilité ». Définition: un détecteur est dit répétable s’il choisit les mêmes régions d’une scène / d’un objet dans des images potentiellement très différentes de cet objet Exemple: la fenêtre est choisit par le détecteur dans les deux images
Représentations locales • Les représentations locales captures l’apparence de l’image localement • L’apparence locale est extraite à plusieurs positions dans l’image, choisies avec soin, notamment à l’aide d’un critère de « répétabilité ». Définition: un détecteur est dit répétable s’il choisit les mêmes régions d’une scène / d’un objet dans des images potentiellement très différentes de cet objet On utilise pour cela des détecteurs de points d’intérêt • Exemple de détecteurs: Harris, Hessian, Hessian-Affine, MSER, etc. [Harris&Stephens1988, Mikolajczyk&Schmid2002, Matas et al, 2004 Survey: [Mikolajczyk, IJCV 2005]
Représentations locales • Les représentations locales captures l’apparence de l’image localement • Ces représentations locales doivent posséder des propriétés d’invariance et de discrimination invariant Local descriptors • SIFT, SURF, LBP, etc. compact discriminative [Lowe IJCV04, Bay et al, 2008, Ojala et al, 2014] (plus de détails à venir)
Local representations Overview of the pipeline image image
Description locale - plan l Extraction de points/régions d’intérêt l Descripteurs locaux l Appariement de points
Extraction de points/régions d’intérêt : enjeux l Extraire des régions qui soient invariantes à de nombreuses transformations, afin d’être « répétables » (repeatability) l Transformations géométriques l Translation l Rotation l Similitude (rotation + changement d’échelle isotrope) l Affine (en 3D, texture localement planaire) l Transformations photométriques ► Changement d’intensité affine (I -> a I + b)
Principaux extracteurs de points/régions d’intérêt Vus en cours l Harris l Harris-Affine l Hessian-Affine l Maximally Stable Extremal Regions (MSER) l Salient Region Detector [A comparison of affine region detectors » K. Mikolajczyk et al., IJCV 2005 ]
Détecteur de Harris : Introduction l Détecter les « coins », qui correspondent à des structures: ► répétables de l’image ► qui localisent des endroits très discriminants d’une image l Détecteur de Harris ► analyse locale ► lorsqu’on est sur un «coin», un déplacement dans n’importe quelle direction produit un fort changement des niveaux de gris « A Combined Corner and Edge Detector », C. Harris et M. Stephens, 1988
Détecteur de Harris • A(x,y): • Faible dans toutes les dimensions -> région uniforme • Large dans une direction -> contour • Large dans toutes les dimensions -> point d’intérêt
Détecteur de Harris l Illustration:
Détecteur de Harris • Comment calculer la fonction d’auto-corrélation ? • Basée sur une approximation du premier ordre
Détecteur de Harris • Basé sur une approximation du premier ordre
Détecteur de Harris : calcul des gradients • Calcul des gradients • On calcule indépendamment le gradient dans les deux dimensions x et y Ix Iy
Détecteur de Harris : classification des régions par utilisation d’un seuil • Détection de points d’intérêt • Application d’un seuil (absolu, relatif, nombre de points) • Extraction des maxima locaux
Détecteur de Harris : exemple
Détecteur de Harris : propriété d’invariance l Invariance à la translation : inhérente à la sélection des maxima locaux l Invariance aux transformations affines d'intensité l Invariance à la rotation ► l’ellipse tourne mais la forme reste identique ► les valeurs propres restent identiques l Mais pas d’invariance à des changements d’échelle
Détecteur de Harris : Invariance à l’échelle l Pas d’invariance aux changements d’échelle
Détecteur de Harris : Invariance à l’échelle l Choix d’un noyau (kernel). ex: Laplacien ou DoG l Sélection d'une échelle caractéristique : ► prendre les valeurs extrêmes d’une fonction f liée à l’échelle ► Une bonne fonction f présente des pics marqués Laplacien invariance de l’échelle caractéristique
Détecteur de Harris : Invariance à l’échelle l Détecteur de Harris-Laplace ► Sélectionner le maximum de Harris en espace pour plusieurs échelles ► Sélection des points à leur échelle caractéristique avec le Laplacien
Détecteur de Harris-Affine (début) l Détecteur de région de l’état de l’art l Algorithme : estimation itérative des paramètres ► Localisation du point d’intérêt: utilisation du détecteur de Harris ► Choix de l’échelle : sélection automatique avec le Laplacien ► Choix d’un voisinage affine : normalisation avec la matrice des seconds moments -> jusqu’à convergence
Détecteur de Harris-Affine (suite) l Estimation itérative de la localisation, de l’échelle, du voisinage Points initiaux
Détecteur de Harris-Affine (suite) l Estimation itérative de la localisation, de l’échelle, du voisinage Iteration #1
Détecteur de Harris-Affine (suite) l Estimation itérative de la localisation, de l’échelle, du voisinage Iteration #2
Détecteur de Harris-Affine (suite) l Estimation itérative de la localisation, de l’échelle, du voisinage Iteration #3, #4, ...
Détecteur de Harris-Affine: pour résumer l Initialisation avec des points d’intérêt multi-échelle grâce au détecteur de Harris l Estimation itérative de la localisation, de l’échelle, du voisinage
Description locale : plan l Extraction de points/régions d’intérêt l Descripteurs locaux l Appariement de points
Et une fois qu’on a défini l’ellipse ? l Synthèse du patch (imagette) ► On calcule un patch de taille donnée l Tailles typiques de patch : 21x21, 64x64
Objectif l En utilisant un détecteur, on est capable de détecter des zones robustes (et informatives) de l’image l Mais à ce stade, ces zones ne peuvent pas être comparées entre elles l Qu’est qu’un descripteur ? ► une représentation de la zone d’intérêt invariance ► sous la forme d’un vecteur ► qui appartient à un espace muni d’une distance compacité l Qu’est qu’un bon descripteur ? ► invariant ► discriminant capacité de ► compact discrimination l Remarque : ces objectifs sont contradictoires
Description locale : plan l Extraction de points/régions d’intérêt l Descripteurs locaux l Descripteurs basiques l État de l’art : le descripteur SIFT l Appariement de points
Descripteurs de pixels l On range les pixels au voisinage du point d’intérêt dans un vecteur () descripteur local
Descripteurs de pixels l On range les pixels au voisinage du point d’intérêt dans un vecteur () descripteur local l Calcul simple l Volumineux (patch de 32x32 = vecteur de 1024 éléments) l Invariance possible aux transformations affines de luminosité l Mauvaise « baseline »
SIFT (Scale invariant feature transform) ► Calculé sur un patch déjà normalisé : échelle (ou affine) ► Possibilité de normaliser également en orientation (orientation dominante) Explications au tableau
Autres descripteurs locaux l Il existe de nombreuses autres variantes de SIFT: ► CS-LBP (voisinage au niveau du pixel, comparaisons directes) ► HOG (articles à lire pour les prochaines semaines) ► GLOH (log-polar bins) ► SURF (approximation, Blob detector, HAAR wavelets) Navneet Dalal et Bill Triggs, “Histograms of Oriented Gradients for Human Detection”. CVPR 2005 M. Heikkila, M. Pietikainen, C. Schmid, “Description of interest regions with local binary patterns” E. Tola, V. Lepetit, P. Fua, “A fast local descriptor for dense matching”. CVPR 2008 LBP
CS-LBP (Center-symmetric local binary pattern) l Principe du descripteur CS-LBP l Le patch est divisé en une grille de cellules l Pour chaque pixel nc dans la grille l Le comparer à ses 8 voisins (n1 à n8) l Encoder ces 8 comparaisons (0 ou 1) en un nombre binaires à 8 chiffres l Pour chaque cellule l Construire un histogramme d’occurrence de ces nombres binaires l Cela donne un histogramme à 256 dimensions l Concaténer les histogrammes de chaque cellule l Il existe de nombreuses autres variantes de SIFT: ► CS-LBP (voisinage au niveau du pixel, comparaisons directes) ► HOG (generalization) ► GLOH (log-polar bins) ► SURF (approximation, Blob detector, HAAR wavelets) Navneet Dalal et Bill Triggs, “Histograms of Oriented Gradients for Human Detection”. CVPR 2005 M. Heikkila, M. Pietikainen, C. Schmid, “Description of interest regions with local binary patterns” E. Tola, V. Lepetit, P. Fua, “A fast local descriptor for dense matching”. CVPR 2008
Descripteurs locaux: conclusion l Choisir un détecteur avec de nombreuses invariances par construction ► normalisation affine de la région vers un patch de taille constante en utilisant un détecteur affine invariant ► normalisation affine en luminosité avant le calcul du descripteur pour garantir l’invariance affine l Utilisation d’un descripteur de relativement grande dimension (par exemple 128 pour SIFT) pour obtenir une bonne capacité de discrimination
Description locale : plan l Extraction de points/régions d’intérêt l Descripteurs locaux l Appariement de points
Appariement de points l Problème : étant donné des points ou régions d’intérêt et les descripteurs associés, comment apparier de manière robuste les points de deux images ? l Dans ce contexte: robuste = robuste au bruit = aux mauvais appariements locaux l Dans le suite: sélection des meilleurs couples de points
Sélection des meilleurs couples l Remarque: ambiguïté 0.9 0.8 0.7 l Différentes stratégies: ► Winner-takes-all (symétrique ou à sens unique) ► Filtrage ultérieur par géométrie
Sélection des meilleurs couples 0.9 0.8 Entrée 0.7 Différentes stratégies de sélection: ► Winner-takes-all A sens unique 0.9 0.9 0.8 0.7 0.9 Symétrique
Problème : appariements entre deux images Un grand nombre des appariements restant est incorrect
Vérification géométrique par mise en correspondance d’images Différentes stratégies: ► Filtrage ultérieur par géométrie Deux méthodes classiques l RANSAC l Transformée de Hough
Vérification par un modèle géométrique Pour une paire d'images I, I' l Il existe un vecteur de paramètres p tel que 2 points en correspondance (x, x') vérifient F(x, x', p) = 0 l le plus souvent x' = T(x, p) avec T transformation l En indexation: ► si les images sont en correspondance, alors il existe p tel que “suffisamment” de points (x, x') vérifient F(x, x', p) = 0 Idée intuitive de l’algorithme: 1. estimation de p 2. nombre de points qui vérifient l'équation avec le meilleur p = mesure de ressemblance entre images
RANSAC RANSAC (RANdom SAmple Consensus) • Algorithme • Entrée: un ensemble d’appariements locaux entre deux images • Sortie: paramètres de la transformation estimée entre les deux images • Pour try dans 1..K • Sélectionner aléatoirement un ensemble d’appariements (seed) • Estimer les paramètres de la transformation entre les deux images en utilisant seulement cet ensemble seed • Trouver le nombre d’appariements qui correspondent à la transformation estimée (inliers) • Si ce nombre est suffisamment grand • Reestimer les paramètres avec tous les inliers • Garder les paramètres de la transformation qui a le plus d’inliers
RANSAC RANSAC (RANdom SAmple Consensus) Illustration de RANSAC sur un autre problème plus facile à visualiser: l’estimation des paramètres d’une droite. Rappel: nous voulons l’utiliser pour sélectionner des appariements tous cohérents pour la même transformation géométrique. Les paramètres estimés dans notre cas sont donc ceux de la transformation.
Problème : appariements entre deux images après RANSAC
Local representations Summary of the pipeline Bottleneck: pairwise matching
Local representations Comment accélérer cette étape ? Summary of the pipeline Bottleneck: pairwise matching Solution au Prochain cours !
Vous pouvez aussi lire