EMGU CV

Emgu cv est un wrapper d’openCV en C#.

On y retrouve la quasi-totalité des fonctionnalités d’openCV permettant d’effectuer toutes les tâches basique d’analyse et de traitement d’image. On y trouve également des outils de machine learning comme les classifieurs SVM,  Réseaux de neurones, Naive Bayes, Decision Tree…

Depuis la version 2.3, on y trouve en plus d’openCV, l’OCR Tesseract.

Des exemples déjà programmés sont disponible avec la bibliothèques comme la détection de visages, SVM, détection de mouvement, détection de piéton, reconnaissance de panneaux, utilisation de SURF, lecteur de plaque d’immatriculation.

http://www.emgu.com/wiki/index.php/Main_Page

Voronoi

Le diagramme de Voronoi est couramment utilisé pour décomposer un espace à partir d’un ensemble de sites (les sites peuvent être un point ou un ensemble de points).

Si on définit un espace contenant n sites. On peut tracer pour chaque site sa cellule de Voronoi. Elle définit l’ensemble des points de l’espace qui sont plus proches de p que de tous les autres sites.

Koichi Kise, Akinori Sato et Motoi Iwata proposent une méthode de segmentation de document basé sur le diagramme de Voronoi appliqué à des aires. Les principe consiste à discrétisé le contour des surfaces puis d’appliquer Voronoi à des groupes de points.

Référence:
K. Kise, A. Sato, and M. Iwata. Segmentation of page images using the area Voronoi diagram. Computer Vision and Image Un- derstanding, 70(3) :370{382, 1998.

RXY cut

Le découpage récursif XY (RXY cut) est une technique pour segmenter une page de manière descendante (top-down). L’algorithme décompose récursivement l’image du document en sous-rectangle. Pour faire cela on trace les profils de projection horizontaux et verticaux (correspondant respectivement à la somme des pixels le long de l’axe X et le long de l’axe Y). Ainsi le découpage se fait récursivement sur les zones les zone d’espace les plus denses.

Création du pro fil de projection horizontal

Exemples de mises en page ne pouvant pas être segmentées par RXY cut.

Référence :
G. Nagy and S. Seth. Hierarchical representation of optically scanned documents. In Proc. of the 17th Conf. on Pattern Recognition, pp. 347–349, 1984.

RLSA

Le Run Length Smoothing Algorithm est un algorithme publié en 1981 par L. Abele et F. Wahl permettant de segmenter les informations présentes sur un document. Globalement, l’idée consiste à relier les pixels noirs séparés par moins de n pixels blanc. En faisant grandir n, on pourra d’abord segmenter les lettres, les mots, les lignes et les paragraphes.

Le RLSA est généralement appliqué horizontalement puis verticalement. On combine à l’aide d’un ET logique ces deux opération afin d’obtenir le résultat final.
rlsa
rlsa2

Référence:
K.Y. Wong, R.G. Casey and F.M. Wahl, « Document analysis system, » IBM J. Res. Devel., Vol. 26, NO. 6,111). 647-656, 1982.