pdf

30
mai 2013

Extraire le texte et les images d'un fichier pdf

Rédigé par  Philippe Maladjian   5 commentaires   Mis à jour le  30/05/2013

Afin de remplir une base de données j'ai eu besoin d'extraire le contenue de plusieurs fichiers pdf de x pages. L'idée est de découper le fichier en un pdf par page, extraire les images, extraire le texte pour qu'une ligne corresponde à un fichier pdf. J'ai n'ai rien re-inventé et je me suis basé sur les outils pdfimages, pdfseparate et pdftotext.

Lire la suite de Extraire le texte et les images d'un fichier pdf


Tag pdf - BlogoFlip - Philippe Maladjian - Péripéties bucoliques d'un administrateur systèmes au royaume de la virtualisation, du stockage et accessoirement photographe à ses heures perdues