Internet est un vaste trésor de connaissances. Mais c'est éphémère et il n'y a aucune garantie que le contenu que vous aimez sera là à l'avenir. Si vous ne pouvez pas vous permettre de perdre ce contenu, vous pouvez utiliser un outil d'archivage Web pour stocker une copie de la page Web.
De nombreuses personnes utilisent des services de lecture ultérieure pour enregistrer des articles Web. Ces applications fonctionnent mieux avec du contenu textuel et ne gèrent pas correctement les conceptions de pages Web ou les médias complexes. Vous voulez plus de contrôle ?
Voyons comment vous pouvez créer un clone d'Instapaper ou de Pocket sur votre ordinateur sans perdre aucun actif de page Web.
ArchiveBox est une solution Open Source qui peut vous aider à héberger votre propre alternative à un service d'archivage comme Wayback Machine. Vous ne renoncez pas à votre vie privée ou ne restez pas enfermé dans un service que vous ne pouvez pas contrôler.
Il prend la liste des URL que vous souhaitez archiver et crée un clone HTML local et navigable du contenu dans plusieurs formats. Il comprend des copies locales au format HTML, une capture d'écran de la page, un fichier PDF et WARC (Web ARCHive).
Ces copies restent avec vous même si la page Web d'origine disparaît à l'avenir.
ArchiveBox est écrit en Python 3. Il utilise également des dépendances telles que Wget, Headless Chrome, Youtube-dl et d'autres outils Unix pour enregistrer la page Web. Vous n'avez pas besoin d'un serveur backend fonctionnant en permanence. Exécutez-le simplement chaque fois que vous souhaitez importer de nouveaux liens et mettre à jour la sortie statique.
Une fois l'archivage terminé, vous pouvez ouvrir le fichier output/index.html généré dans votre navigateur pour afficher l'archive.
ArchiveBox prend officiellement en charge les systèmes d'exploitation suivants :
ArchiveBox est un outil d'archivage Web flexible. Vous devez installer les dépendances suivantes et respecter la configuration minimale requise.
Il existe deux manières de configurer ArchiveBox --- Automatique et Manuel .
Dans la méthode automatique, un script d'assistance installe l'application et ses dépendances. Mais vous ne pourrez pas résoudre le problème si une erreur survient. Il est préférable d'installer l'application manuellement.
À des fins de démonstration, nous utiliserons macOS 10.14.6.
La meilleure façon d'installer des dépendances consiste à utiliser un gestionnaire de packages appelé Homebrew. Pour comprendre ses bases, consultez cet article sur la façon d'installer des applications Mac avec Homebrew.
Ouvrir le terminal et saisissez
brew install python3 git wget curl youtube-dl
brew cask install chromium
(Ignorez ceci si vous avez déjà installé Google Chrome/Chromium dans Applications)
Pour vérifier le numéro de version de toutes les dépendances, saisissez
application de dépendance --version
(Remplacez l'application de dépendance par python3, wget, youtube-dl, etc.)
Tous les services et navigateurs à lecture ultérieure peuvent exporter vos signets sous forme de fichier HTML. Suivez les instructions de cet article pour savoir comment exporter des favoris depuis votre navigateur. Vous pouvez également enregistrer un seul lien ou la liste des URL dans un fichier texte.
Clonez le référentiel depuis le GitHub. Ouvrir le terminal , et saisissez
clone git https://github.com/pirate/ArchiveBox
Ensuite,
cd ArchiveBox/
Lorsque vous clonez ce dépôt, le programme d'installation crée un dossier ArchiveBox dans votre répertoire d'accueil. Ce dossier contient tous les principaux fichiers d'application et de configuration.
Si vous souhaitez archiver un seul lien, saisissez
echo 'https://example.com'| ./archive
Accédez à votre dossier ArchiveBox pour voir la sortie nouvellement créée dossier. Ici, vous verrez un fichier index.html.
Lorsque vous souhaitez enregistrer plusieurs liens (des dizaines ou plus), il est préférable d'ajouter vos liens dans un fichier texte. L'application analysera les URL à l'intérieur du fichier et les archivera. Ouvrir le terminal et saisissez
./archive [Chemin vers votre fichier.txt]
Si votre fichier se trouve dans les Téléchargements dossier, votre chemin ressemblera à
./archive /Users/(nom du répertoire personnel)/Downloads/links.txt
Attendez quelques minutes/heures pour terminer le processus. Pour accéder à votre archive, ouvrez le output/index.html dans votre navigateur. Vous pouvez trier par colonne, rechercher le titre à l'aide de la case dans la section supérieure droite et voir le nombre total de liens en bas.
Cliquez sur le favicon sous les Fichiers colonne pour visiter la page de détails. Vous trouverez des liens vers le format de fichier individuel comme indiqué dans la capture d'écran. Le même lien est également téléchargé sur archive.org.
De la même manière, exportez vos liens Instapaper ou Pocket sous forme de fichier HTML. Ensuite, saisissez
./archive ~/Downloads/instapaper-export.html
Vous pouvez également importer une liste de liens à partir de l'URL du flux. Mais n'oubliez pas que vous pourriez rencontrer trop d'échecs ou d'expirations de session. S'il existe des milliers d'URL, il est préférable de les diviser en fichiers plus petits pour augmenter le taux de réussite.
Les paramètres par défaut fonctionnent dans la plupart des cas, mais vous pouvez modifier certains paramètres importants pour obtenir plus de fonctionnalités. Le fichier de configuration réside dans
~/ArchiveBox/etc/ArchiveBox.conf.default
Remarque : Ne modifiez pas ce fichier, car ils seront effacés chaque fois que vous mettrez à jour l'application. Pour créer un fichier de configuration persistant, saisissez
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf
Le cp créera une copie du fichier de configuration dans votre répertoire personnel. Par défaut, le fichier n'est pas visible dans votre répertoire. Pour afficher, appuyez sur Cmd + Maj + Point . Ouvrez le fichier de configuration dans TextEdit.
ArchiveBox vous offre de nombreuses options. En voici quelques-uns importants ;
Pour en savoir plus sur les détails de la configuration, visitez la configuration de l'ArchiveBox pour plus d'informations.
L'archive produite par ArchiveBox est compatible avec tout fournisseur pouvant héberger du HTML statique. Par exemple, les pages GitHub.
Vous pouvez également le servir à partir d'un serveur domestique ou d'un VPS en téléchargeant directement le dossier de sortie dans votre répertoire Web.
Assurez-vous que vous n'exécutez aucun contenu en tant que CGI ou PHP, vous souhaitez héberger uniquement des fichiers HTML statiques.
L'hébergement de vos archives présente des avantages et des inconvénients. Lorsque vous téléchargez des liens à partir de sites aléatoires, vous devez comprendre les dangers liés à l'hébergement de fichiers CSS et JS malveillants dans votre domaine partagé. Vous pouvez également mettre vos archives sur liste noire dans le fichier robots.txt pour rester privées.
L'archivage Web a attiré l'attention au cours des dernières années. Ils enregistrent l'intégralité du contenu d'une page Web, y compris le code HTML source, les images intégrées, les feuilles de style et le code JavaScript. ArchiveBox s'intègre parfaitement dans la vaste catégorie des outils et services d'archivage Web.
Si vous êtes frustré par Instapaper ou Pocket, alors ArchiveBox est une excellente alternative. Outre les articles Web, vous souhaiterez peut-être archiver des sites Web entiers pour y accéder hors ligne ou pour préserver leurs connaissances. Si cela vous intéresse, lisez cet article sur la façon de télécharger n'importe quel site Web pour une lecture hors ligne.