FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Comment convertir plusieurs pages Web en PDF avec Wget

Il existe de nombreux outils en ligne, extensions de navigateur et plugins de bureau pour transformer une page Web en PDF. Si vous utilisez régulièrement ces outils, vous pourriez rencontrer une situation où vous devez convertir plusieurs liens en une seule fois. Les faire un par un est une perte de temps et fastidieux.

Vous pouvez automatiser cette tâche grâce à un simple utilitaire de ligne de commande appelé Wget. À l'aide de quelques scripts ou applications et de cet outil, nous vous montrerons comment enregistrer plusieurs pages Web dans un fichier PDF.

Pourquoi Wget ?

Wget est un logiciel gratuit permettant de télécharger des fichiers depuis le Web. Mais c'est aussi un outil parfait pour mettre en miroir une page Web entière sur votre ordinateur. Voici les raisons :

  • Il est non interactif, ce qui signifie qu'il peut fonctionner en arrière-plan et vous permettre de transférer des données sans nécessiter votre présence.
  • Wget comprend la structure des répertoires du site Web. Il peut suivre des liens dans la page HTML, pour créer une version locale du site Web distant. Dans le processus, il respecte également le fichier robots.txt.
  • Il peut même fonctionner dans des connexions réseau lentes ou instables. Si le serveur prend en charge la récupération, il continuera à réessayer jusqu'à ce que l'intégralité du fichier soit transférée sur votre ordinateur.
  • Wget prend en charge les serveurs proxy. Il permet d'alléger la charge du réseau, d'accélérer le processus de récupération et de fournir un accès derrière les pare-feu.

Installer Wget

Sur macOS

Le moyen le plus rapide d'installer Wget est via le Homebrew. Il s'agit d'un gestionnaire de packages pour macOS permettant d'installer des utilitaires et des applications Unix utiles. Consultez cet article pour savoir comment installer des applications macOS via Homebrew. Ensuite, saisissez

brew install wget 

Vous obtiendrez la progression en temps réel de l'installation de tous les outils (le cas échéant) nécessaires à l'exécution de Wget sur votre Mac. Si vous avez déjà installé Homebrew, assurez-vous d'exécuter brew upgrade pour obtenir la dernière version de cet utilitaire.

Sur Windows 10

Il existe de nombreuses versions de Wget disponibles pour Windows 10. Rendez-vous sur Eternally Board pour télécharger la dernière version 64 bits. Placez le fichier exécutable dans un dossier et copiez-le sur le lecteur C :.

Comment convertir plusieurs pages Web en PDF avec Wget

Nous allons maintenant ajouter le chemin Wget à la variable d'environnement de votre système pour exécuter cet outil à partir de n'importe quel répertoire. Accédez à Panneau de configuration > Système et cliquez sur Paramètres système avancés . Dans la fenêtre qui s'ouvre, cliquez sur Variables d'environnement .

Comment convertir plusieurs pages Web en PDF avec Wget

Sélectionnez Chemin sous Variables système et cliquez sur Modifier . Cliquez ensuite sur Nouveau bouton situé dans le coin supérieur droit de la fenêtre. Tapez C:\wget et cliquez sur OK .

Comment convertir plusieurs pages Web en PDF avec Wget

Ouvrir Invite de commandes et tapez wget-h pour tester si tout fonctionne. Dans PowerShell tapez wget.exe -h pour charger le menu d'aide de Wget.

Comment convertir plusieurs pages Web en PDF avec Wget

Puisque nous avons affaire à plusieurs liens, coller des liens un par un est une tâche difficile. Heureusement, il existe des extensions de navigateur pour vous aider à accomplir cette tâche.

Link Klipper :Il extrait tous les liens d'une page Web sous forme de fichier CSV ou TXT. Vous pouvez même faire glisser une zone rectangulaire sur la page Web pour copier les liens de manière sélective. Le fichier est enregistré dans le téléchargement dossier.

Comment convertir plusieurs pages Web en PDF avec Wget

Snap Links Plus :Cela vous permet de lasso des éléments sur une page et de faire des choses avec eux. Maintenez le bouton droit de la souris enfoncé et tracez un rectangle de sélection autour des liens. Appuyez sur le contrôle clé et copiez vos liens dans le presse-papiers.

Configurer un répertoire

Wget fonctionne comme un robot d'exploration Web en extrayant les ressources de la page Web à partir des fichiers HTML, y compris le logo, les polices, les vignettes d'image, les fichiers CSS et JavaScript. Il essaie également de créer une structure de répertoires ressemblant au serveur distant. Créez un répertoire séparé pour les téléchargements Wget afin d'enregistrer les pages Web et d'éviter l'encombrement.

Sur votre terminal Mac ou dans une invite de commande sous Windows, entrez

mkdir Wgetdown 

Cela crée un nouveau dossier dans le répertoire d'accueil. Vous pouvez lui donner le nom que vous voulez. Ensuite, entrez

cd Wgetdown 

Changer de répertoire. Cela change le répertoire de travail actuel en Wgetdown.

Détails des commandes Wget

Après avoir créé le répertoire, nous utiliserons la commande Wget actuelle

wget -E -H -k -K -p -i [Chemin vers votre fichier texte] 

Wget utilise GNU getopt pour traiter les arguments de la ligne de commande. Chaque option a une forme longue avec les courtes. Les options longues sont pratiques à retenir mais prennent du temps à taper. Vous pouvez également mélanger différents styles d'options. Rentrons dans le détail de ces options :

  • -E (--adjust-extension)  :Si un fichier de type "app/xhtml+xml" ou "text/html" est téléchargé et que l'URL ne se termine pas par le code HTML, cette option ajoutera le code HTML au nom du fichier.
  • -H (--span-hosts) :Lorsque vous essayez de récupérer des liens de manière récursive, on ne souhaite pas récupérer des charges de données inutiles. Vous voulez que Wget ne suive que des liens spécifiques. Cette option active le spanning d'hôte, ce qui permet à l'exécution récursive de Wget de visiter n'importe quel hôte référencé par un lien. Par exemple, des images diffusées à partir d'un hôte différent.
  • -p (--page-requis) :Cette option télécharge tous les fichiers nécessaires à l'affichage d'une page HTML. Il comprend des images en ligne, de l'audio et des feuilles de style référencées.
  • -k (--convert-links) :Il convertit les liens dans le document pour les rendre adaptés à une visualisation hors ligne. Il comprend des images intégrées, des liens vers des feuilles de style, des hyperliens vers du contenu non HTML, etc.
  • -K (--sauvegarde-convertie) :Lors de la conversion d'un fichier, cette option sauvegarde la version originale avec un .orig suffixe.
  • -i (--fichier-d'entrée) :Lire les URL à partir d'un chemin vers votre fichier local ou externe.

Mise en service des commandes

Pour démontrer ces commandes dans la pratique, considérez un manuel de site Web appelé Writing Workflows. Ce manuel se compose d'une table des matières avec un lien vers les chapitres individuels. L'objectif final est que vous souhaitiez créer un fichier PDF séparé de ces sections.

Étape 1  :Ouvrir le terminal et créez un nouveau dossier, comme indiqué ci-dessus.

Comment convertir plusieurs pages Web en PDF avec Wget

Étape 2 :Utilisez l'extension Link Klipper pour enregistrer vos liens sous forme de fichier texte. Enregistrez votre fichier dans les Téléchargements dossier.

Comment convertir plusieurs pages Web en PDF avec Wget

Étape 3 :Pendant que vous êtes dans le dossier Wgetdown, saisissez

wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt 
Comment convertir plusieurs pages Web en PDF avec Wget

Étape 4 :Appuyez sur Entrée. Attendez que le processus soit terminé.

Comment convertir plusieurs pages Web en PDF avec Wget

Étape 5 :Accédez au dossier Wgetdown. Vous verrez le dossier du domaine principal processorword.net avec tous les éléments de la page Web et chapitre1.html.

Comment convertir plusieurs pages Web en PDF avec Wget

Conversion de HTML en PDF

Convertir une page Web en PDF semble simple. Mais les faire ressembler à la page Web d'origine est une tâche difficile. Produire un résultat souhaitable dépend de :

  • Polices système disponibles.
  • L'intégrité du balisage HTML.
  • Fonctionnalités requises prenant en charge les tableaux ou les images flottantes.
  • Eventuellement table des matières.

Windows 10

PrinceXML est une application pour convertir rapidement des fichiers HTML en PDF. Il vous permet de composer, de formater et d'imprimer du contenu HTML avec une mise en page configurable et une prise en charge des normes Web. Il est livré avec de nombreuses polices utiles et vous permet également de personnaliser la sortie PDF. L'application est gratuite pour une utilisation non commerciale.

Comment convertir plusieurs pages Web en PDF avec Wget

macOS

Sur votre Mac, vous pouvez créer un service Automator pour convertir un lot de fichiers HTML en PDF. Ouvrez Automator et créez une action rapide document. Définissez l'option de service pour recevoir des fichiers ou des dossiers du Finder. Glissez ensuite dans Run Shell Script et définissez Passer l'entrée option pour comme arguments . Ensuite, collez ce script dans le corps

pour leFileToProcess dans "$@" 
fais
cupsfilter "$theFileToProcess"> "${theFileToProcess%.*}.pdf"
terminé

Enregistrez le fichier au format HTML2PDF.

Comment convertir plusieurs pages Web en PDF avec Wget

Sélectionnez maintenant tous les fichiers HTML dans le Finder. Faites un clic droit et choisissez Services> HTML2PDF . Attendez quelques instants pour convertir tous vos fichiers.

Comment convertir plusieurs pages Web en PDF avec Wget

Façons de convertir une page Web unique en PDF

À première vue, les étapes de conversion de plusieurs pages Web en PDF semblent compliquées. Mais une fois que vous aurez compris les étapes et le processus, cela vous fera gagner du temps à long terme. Vous n'avez pas à dépenser d'argent pour des abonnements Web ou des convertisseurs PDF coûteux.

Si vous cherchez des moyens de transformer une seule page Web en PDF, lisez cet article sur la façon de convertir des pages Web en PDF.


[]