Convertir un PDF en Word pour en récupérer le texte et les images

  • Télécharger le PDF.
  • Ouvrir : iLovePDF | Outils PDF en ligne pour les amateurs de PDF
  • Cliquer sur « PDF en Word », sélectionner le fichier, cliquer sur « Convertir en Word » puis sur « Télécharger Word »
  • Aller dans le dossier « Téléchargements », là vous trouverez le fichier au format .docx et vous pourrez facilement copier-coller le texte.

Pour récupérer les images et les photos :

  • Renommez le fichier .docx en .zip
  • Faire un clic droit dessus et cliquer sur « Extraire tout… ».
  • Dans le dossier ainsi dézippé, aller dans le dossier « Word », puis « Media », vous trouverez alors toutes les images au format .jpg ou .png

Dans le cas où le PDF est très gros, une autre méthode consiste à passer par les outils en ligne de commande sous linux :

Installation des outils

sudo apt install poppler-utils
sudo apt install imagemagick

Extraction des images

pdfimages -all FichierSource.pdf ./prefixImage

Redimensionnement au max de 1000px

mogrify -resize 1000x\> *.png
mogrify -resize 1000x\> *.jpg

Conversion de tous les PNG en JPG

mogrify -quality 80 -format jpg *.png

Forcer la bonne orientation des images

mogrify -auto-orient -strip *.jpg