Extraction d’information des pdf avec CERMINE

http://cermine.ceon.pl/cermine/about.html

http://cermine.ceon.pl/cermine/about.html

CERMINE (Content ExtRactor and MINEr)  est une bibliothèque Java (GitHub) et un web service (http://cermine.ceon.pl/index.html) permettant d’extraire des meta-données  et du contenu depuis des PDF d’articles scientifiques créés numériquement.

Le système analyse le contenu du PDF et tente d’extraire des informations telles que le titre de l’article, le journal dans lequel il a été publié, la bibliographie (volume, pages, etc.), les auteurs et leurs affiliations, les mots-clés, le résumé…

Pour l’instant à l’étape de prototype, le projet reste expérimental mais très intéressant. Le code source étant disponible sur Github et le web service permet de tester le programme directement avec ses propres documents !

J’ai découvert cette technique lors de la conférence internationale DAS (Document Analysis System)

Référence :

Dominika Tkaczyk, Pawel Szostek, Piotr Jan Dendek, Mateusz Fedoryszak and Lukasz Bolikowski. CERMINE – automatic extraction of metadata and references from scientific literature. In 11th IAPR International Workshop on Document Analysis Systems, 2014.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


neuf + = 13

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>