Extraction d’information des pdf avec CERMINE

http://cermine.ceon.pl/cermine/about.html

http://cermine.ceon.pl/cermine/about.html

CERMINE (Content ExtRactor and MINEr)  est une bibliothèque Java (GitHub) et un web service (http://cermine.ceon.pl/index.html) permettant d’extraire des meta-données  et du contenu depuis des PDF d’articles scientifiques créés numériquement.

Le système analyse le contenu du PDF et tente d’extraire des informations telles que le titre de l’article, le journal dans lequel il a été publié, la bibliographie (volume, pages, etc.), les auteurs et leurs affiliations, les mots-clés, le résumé…

Pour l’instant à l’étape de prototype, le projet reste expérimental mais très intéressant. Le code source étant disponible sur Github et le web service permet de tester le programme directement avec ses propres documents !

J’ai découvert cette technique lors de la conférence internationale DAS (Document Analysis System)

Référence :

Dominika Tkaczyk, Pawel Szostek, Piotr Jan Dendek, Mateusz Fedoryszak and Lukasz Bolikowski. CERMINE – automatic extraction of metadata and references from scientific literature. In 11th IAPR International Workshop on Document Analysis Systems, 2014.

Récolter les images de Flickr pour la reconstruction 3D

Lors de la conférence Electronic Imaging de 2013 organisée par l’IS&T/SPIE, Steve Seitz qui travaille à l’université de Washington et chez Google a présenté une keynote très intéressante intitulée « a trillion photos ».

Le principe est d’exploiter les millions d’images présentes dans les bases de données telles que Flickr. L’objectif du projet Building Rome in a Day est de récolter un maximum d’image en tapant simplement le mot clé « Rome » ou « Venise » dans Flickr. Une grande partie des images seront inexploitables car elles ne peuvent pas être mise en correspondance avec d’autres images, par exemple une photo de famille, d’un restaurant, etc. En revanche, les lieux les plus touristiques telles que la place « San Marco » sont prises en photos sous de nombreux angles différents. En utilisant une chaine de traitement classique telles que j’ai utilisé pendant ma thèse (SIFT+FLANN+RANSAC) il est possible de mettre en correspondance les images puis de faire la reconstruction 3D.

Dans cette vidéo de démonstration, les pyramides filiformes représentent les positions estimées de chaque prise de vue. La reconstruction a été faite en utilisant 14 079 photos. La reconstruction de Venise c’est fait en utilisant 250 000 images, 496 cœurs de calcul, 27h sont nécessaires pour la mise en correspondance et 38h pour la reconstruction.

 

 

 

Combiner le texte et l’image pour améliorer la reconnaissance de documents

Les documents peuvent avoir un contenu très varié : un roman, un article scientifique, une facture, un formulaire, une lettre, un ticket de metro, de restaurant… Ces documents peuvent contenir du texte, des tableaux, des logos, des illustrations, ils peuvent également être tordus, pliés, taché, etc.

La technique la plus classique, et certainement la plus performante, est d’appliquer un OCR (lecture optique de caractères) sur l’image du document pour en extraire le texte, puis de comparer ce texte aux textes d’autres documents pour savoir si deux documents sont similaires.

Cependant, les techniques d’OCR fonctionnent beaucoup moins bien sur les tickets (de métro, restaurants, …) car ils sont petits, l’encre effacé et ils sont parfois tordus ou pliés. Certaine facture peuvent être aussi complexe car le contenu change complétement mais le logo reste similaire. Dans ce cas, les techniques de traitement d’image fonctionnent mieux.

La problématique est alors de trouver un moyen de combiner les techniques basées sur le texte et celles basées sur l’image pour que le document soit bien reconnu dans tout les cas. Cette combinaison est très complexe à faire car on souhaite privilégier le texte de temps en temps et l’image d’autres fois mais on ne sait pas à l’avance quelle techniques va fonctionner. Si on essaye de combiner les caractéristique avant (fusion précoce) de reconnaitre ou après (fusion tardive) les performance sont intermédiaire entre celles que l’on aurait eu en utilisant que le texte ou que l’image.

Combi

L’astuce est d’utiliser une combinaison tardive par apprentissage supervisé. L’apprentissage permet au système de comprendre dans quel cas il doit privilégier l’image et dans quel cas il doit privilégier le texte. Grâce à cette méthode les performances globale de reconnaissance sont améliorés.

Cette méthode à été publié dans la conférence DAS 2014, vous pouvez retrouver l’article sur HAL, le dépot d’article scientifique en ligne.

Présentation oral CIFED 2014

Demain débutera les conférences CORIA (COnférence en Recherche d’Information et Applications) et CIFED (Colloque International Francophone sur l’Écrit et le Document) qui sont cette année organisées simultanément à Nancy.

Cet événement est appelé la Semaine du Document Numérique et de la Recherche d’Information (SDNRI) et rassemble les communautés francophones en recherche d’information et analyse de l’écrit et des documents numérisés.

cifed14

Crédit photo : Muzzamil Luqman

A cette occasion je présenterai mes travaux de recherche que j’effectue à Gestform en tant que responsable R&D, portant sur la combinaison de caractéristiques texte et image pour améliorer les performances de classification. Ces travaux ont été effectués en partenariat avec Nicholas Journet et Jean-Philippe Domenger, tous deux chercheurs au LaBRI (Laboratoire Bordelais de Recherche en Informatique).

Vous pouvez trouver dans le lien qui suit un aperçu de la présentation orale que je vais donner demain après-midi lors de cette conférence :  cifed14Oral