Comprendre comment marchent les sacs de mots visuels

Depuis 10 ans [1], les sacs de mots visuels (aussi appelés bags of visual words, bags of features ou bags of keypoints) sont très largement utilisés dans la communauté de vision par ordinateur pour la classification et la reconnaissance d’image.

Calculer la similarité entre deux images est compliqué car ils y a beaucoup de pixels dans une image. Habituellement, on chercher à extraire des caractéristiques telles que la couleur, la forme ou la texture pour comparer des images. Une difficulté est de calculer des caractéristiques robustes aux rotations, zooms, changements d’illumination, bruit et occlusions. La plupart des techniques nécessitent de segmenter les images avant de décrire les objets à reconnaitre.

Les points d’intérêt tels que SIFT, SURF, etc. résolvent la plupart de ces problèmes : ils sont robuste aux transformations et n’ont pas besoin de segmentation, il est donc très facile de les utiliser. Extraire des points d’intérêt pour comparer des images est une bonne idée. Après l’extraction des points, il y a principalement des options : 1) mettre en correspondance les points d’une image avec les points d’une autre image pour faire la reconstruction de panorama, la reconnaissance et la localisation des objets ou 2) faire une description statistique des images en comptant les différents « genres » de points d’intérêt contenus dans l’image. C’est la technique des sacs de mots visuels (BoVW). Les BoVW sont utilisés pour la classification d’images.

Comment fonctionnent les sacs de mots visuels?

Voici le principe en 4 étapes :

  1. Extraire les points d’intérêt des images avec SURF par exemple.
  2. Créer un dictionnaire visuel  en partitionnant les points d’intérêt. Pour cela on peut utiliser k-means et fixer k entre 200 et 2 000.
  3. Pour une image, il faut vérifier dans quelle partition est chaque point d’intérêt. Un histogramme à 1 000 bins est alors construit, où chaque bin correspond à une partition. La valeur d’un bin est égale au nombre de point d’intérêt de l’image qui sont la partition correspondante.
  4. Chaque image est décrite par un vecteur, la classification peut être faite par un algorithme de classification supervisé tel que les SVM.

bovw

[1] Csurka, G., Dance, C., Fan, L., Willamowski, J., & Bray, C. (2004, May). Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV (Vol. 1, No. 1-22, pp. 1-2).

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


1 + trois =

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>