Combiner le texte et l’image pour améliorer la reconnaissance de documents

Les documents peuvent avoir un contenu très varié : un roman, un article scientifique, une facture, un formulaire, une lettre, un ticket de metro, de restaurant… Ces documents peuvent contenir du texte, des tableaux, des logos, des illustrations, ils peuvent également être tordus, pliés, taché, etc.

La technique la plus classique, et certainement la plus performante, est d’appliquer un OCR (lecture optique de caractères) sur l’image du document pour en extraire le texte, puis de comparer ce texte aux textes d’autres documents pour savoir si deux documents sont similaires.

Cependant, les techniques d’OCR fonctionnent beaucoup moins bien sur les tickets (de métro, restaurants, …) car ils sont petits, l’encre effacé et ils sont parfois tordus ou pliés. Certaine facture peuvent être aussi complexe car le contenu change complétement mais le logo reste similaire. Dans ce cas, les techniques de traitement d’image fonctionnent mieux.

La problématique est alors de trouver un moyen de combiner les techniques basées sur le texte et celles basées sur l’image pour que le document soit bien reconnu dans tout les cas. Cette combinaison est très complexe à faire car on souhaite privilégier le texte de temps en temps et l’image d’autres fois mais on ne sait pas à l’avance quelle techniques va fonctionner. Si on essaye de combiner les caractéristique avant (fusion précoce) de reconnaitre ou après (fusion tardive) les performance sont intermédiaire entre celles que l’on aurait eu en utilisant que le texte ou que l’image.

Combi

L’astuce est d’utiliser une combinaison tardive par apprentissage supervisé. L’apprentissage permet au système de comprendre dans quel cas il doit privilégier l’image et dans quel cas il doit privilégier le texte. Grâce à cette méthode les performances globale de reconnaissance sont améliorés.

Cette méthode à été publié dans la conférence DAS 2014, vous pouvez retrouver l’article sur HAL, le dépot d’article scientifique en ligne.

Présentation oral CIFED 2014

Demain débutera les conférences CORIA (COnférence en Recherche d’Information et Applications) et CIFED (Colloque International Francophone sur l’Écrit et le Document) qui sont cette année organisées simultanément à Nancy.

Cet événement est appelé la Semaine du Document Numérique et de la Recherche d’Information (SDNRI) et rassemble les communautés francophones en recherche d’information et analyse de l’écrit et des documents numérisés.

cifed14

Crédit photo : Muzzamil Luqman

A cette occasion je présenterai mes travaux de recherche que j’effectue à Gestform en tant que responsable R&D, portant sur la combinaison de caractéristiques texte et image pour améliorer les performances de classification. Ces travaux ont été effectués en partenariat avec Nicholas Journet et Jean-Philippe Domenger, tous deux chercheurs au LaBRI (Laboratoire Bordelais de Recherche en Informatique).

Vous pouvez trouver dans le lien qui suit un aperçu de la présentation orale que je vais donner demain après-midi lors de cette conférence :  cifed14Oral