FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Comment créer votre propre application Read-It-Later auto-hébergée privée

Internet est un vaste trésor de connaissances. Mais c'est éphémère et il n'y a aucune garantie que le contenu que vous aimez sera là à l'avenir. Si vous ne pouvez pas vous permettre de perdre ce contenu, vous pouvez utiliser un outil d'archivage Web pour stocker une copie de la page Web.

De nombreuses personnes utilisent des services de lecture ultérieure pour enregistrer des articles Web. Ces applications fonctionnent mieux avec du contenu textuel et ne gèrent pas correctement les conceptions de pages Web ou les médias complexes. Vous voulez plus de contrôle ?

Voyons comment vous pouvez créer un clone d'Instapaper ou de Pocket sur votre ordinateur sans perdre aucun actif de page Web.

Présentation d'ArchiveBox

ArchiveBox est une solution Open Source qui peut vous aider à héberger votre propre alternative à un service d'archivage comme Wayback Machine. Vous ne renoncez pas à votre vie privée ou ne restez pas enfermé dans un service que vous ne pouvez pas contrôler.

Il prend la liste des URL que vous souhaitez archiver et crée un clone HTML local et navigable du contenu dans plusieurs formats. Il comprend des copies locales au format HTML, une capture d'écran de la page, un fichier PDF et WARC (Web ARCHive).

Ces copies restent avec vous même si la page Web d'origine disparaît à l'avenir.

ArchiveBox est écrit en Python 3. Il utilise également des dépendances telles que Wget, Headless Chrome, Youtube-dl et d'autres outils Unix pour enregistrer la page Web. Vous n'avez pas besoin d'un serveur backend fonctionnant en permanence. Exécutez-le simplement chaque fois que vous souhaitez importer de nouveaux liens et mettre à jour la sortie statique.

Une fois l'archivage terminé, vous pouvez ouvrir le fichier output/index.html généré dans votre navigateur pour afficher l'archive.

Comment créer votre propre application Read-It-Later auto-hébergée privée

Avantages d'ArchiveBox

  • Il archive les liens dans plusieurs formats de fichiers qui fonctionnent comme des sauvegardes.
  • Il essaie de conserver la page Web d'origine à l'aide de méthodes de capture sophistiquées.
  • A la capacité d'extraire automatiquement le contenu et de l'enregistrer dans un seul dossier.
  • Il fournit également une interface de ligne de commande simple pour gérer plusieurs liens, flux et signets. Vous devez le définir une fois et l'exécuter selon un calendrier pour archiver les nouveaux liens.

Inconvénients d'ArchiveBox

  • ArchiveBox extrait tous les actifs de la page Web. Il consomme beaucoup d'espace disque et est gourmand en CPU.
  • L'application nécessite au moins trois dépendances au-delà de Python 3.5. Il faut des essais et des erreurs pour que ces composants fonctionnent ensemble.
  • L'application ne prend pas entièrement en charge le système d'exploitation Windows. Vous devez installer Docker ou activer le sous-système Windows pour Linux (WSL). Même dans ce cas, certaines fonctionnalités peuvent ou non fonctionner.

Systèmes d'exploitation pris en charge

ArchiveBox prend officiellement en charge les systèmes d'exploitation suivants :

  • macOS : 10.12 Sierra avec Homebrew.
  • Linux : Ubuntu, Debian (avec APT). L'application peut (ou non) fonctionner dans des distributions telles que Fedora, CentOS, SUSE, Arch, etc.
  • BSD : FreeBSD, OpenBSD, NetBSD (avec pkg).

Dépendances

ArchiveBox est un outil d'archivage Web flexible. Vous devez installer les dépendances suivantes et respecter la configuration minimale requise.

  • Python 3. N'utilisez pas le Python 2.0 par défaut fourni avec macOS.
  • Wget 1.16
  • Chromium 59. Si vous utilisez déjà Google Chrome, n'installez pas Chromium.
  • Youtube-dl (facultatif) :les ressources multimédias nécessitent beaucoup d'espace de stockage. Réfléchissez bien avant d'archiver vos marque-pages.

Configurer ArchiveBox

Il existe deux manières de configurer ArchiveBox --- Automatique et Manuel .

Dans la méthode automatique, un script d'assistance installe l'application et ses dépendances. Mais vous ne pourrez pas résoudre le problème si une erreur survient. Il est préférable d'installer l'application manuellement.

À des fins de démonstration, nous utiliserons macOS 10.14.6.

Installation des dépendances

La meilleure façon d'installer des dépendances consiste à utiliser un gestionnaire de packages appelé Homebrew. Pour comprendre ses bases, consultez cet article sur la façon d'installer des applications Mac avec Homebrew.

Ouvrir le terminal et saisissez

brew install python3 git wget curl youtube-dl 
brew cask install chromium  

(Ignorez ceci si vous avez déjà installé Google Chrome/Chromium dans Applications)

Vérifier le numéro de version de toutes les dépendances

Pour vérifier le numéro de version de toutes les dépendances, saisissez

application de dépendance --version 

(Remplacez l'application de dépendance par python3, wget, youtube-dl, etc.)

Comment créer votre propre application Read-It-Later auto-hébergée privée

Télécharger votre fichier d'exportation de signets

Tous les services et navigateurs à lecture ultérieure peuvent exporter vos signets sous forme de fichier HTML. Suivez les instructions de cet article pour savoir comment exporter des favoris depuis votre navigateur. Vous pouvez également enregistrer un seul lien ou la liste des URL dans un fichier texte.

Installer ArchiveBox

Clonez le référentiel depuis le GitHub. Ouvrir le terminal , et saisissez

clone git https://github.com/pirate/ArchiveBox 

Ensuite,

cd ArchiveBox/ 

Lorsque vous clonez ce dépôt, le programme d'installation crée un dossier ArchiveBox dans votre répertoire d'accueil. Ce dossier contient tous les principaux fichiers d'application et de configuration.

Comment créer votre propre application Read-It-Later auto-hébergée privée

Ajouter votre URL à l'archive

Si vous souhaitez archiver un seul lien, saisissez

echo 'https://example.com'| ./archive 
Comment créer votre propre application Read-It-Later auto-hébergée privée

Accédez à votre dossier ArchiveBox pour voir la sortie nouvellement créée dossier. Ici, vous verrez un fichier index.html.

Comment créer votre propre application Read-It-Later auto-hébergée privée

Lorsque vous souhaitez enregistrer plusieurs liens (des dizaines ou plus), il est préférable d'ajouter vos liens dans un fichier texte. L'application analysera les URL à l'intérieur du fichier et les archivera. Ouvrir le terminal et saisissez

./archive [Chemin vers votre fichier.txt] 

Si votre fichier se trouve dans les Téléchargements dossier, votre chemin ressemblera à

./archive /Users/(nom du répertoire personnel)/Downloads/links.txt 

Attendez quelques minutes/heures pour terminer le processus. Pour accéder à votre archive, ouvrez le output/index.html dans votre navigateur. Vous pouvez trier par colonne, rechercher le titre à l'aide de la case dans la section supérieure droite et voir le nombre total de liens en bas.

Comment créer votre propre application Read-It-Later auto-hébergée privée

Cliquez sur le favicon sous les Fichiers colonne pour visiter la page de détails. Vous trouverez des liens vers le format de fichier individuel comme indiqué dans la capture d'écran. Le même lien est également téléchargé sur archive.org.

Comment créer votre propre application Read-It-Later auto-hébergée privée

De la même manière, exportez vos liens Instapaper ou Pocket sous forme de fichier HTML. Ensuite, saisissez

./archive ~/Downloads/instapaper-export.html 

Vous pouvez également importer une liste de liens à partir de l'URL du flux. Mais n'oubliez pas que vous pourriez rencontrer trop d'échecs ou d'expirations de session. S'il existe des milliers d'URL, il est préférable de les diviser en fichiers plus petits pour augmenter le taux de réussite.

Configurer ArchiveBox

Les paramètres par défaut fonctionnent dans la plupart des cas, mais vous pouvez modifier certains paramètres importants pour obtenir plus de fonctionnalités. Le fichier de configuration réside dans

~/ArchiveBox/etc/ArchiveBox.conf.default 

Remarque : Ne modifiez pas ce fichier, car ils seront effacés chaque fois que vous mettrez à jour l'application. Pour créer un fichier de configuration persistant, saisissez

cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

Le cp créera une copie du fichier de configuration dans votre répertoire personnel. Par défaut, le fichier n'est pas visible dans votre répertoire. Pour afficher, appuyez sur Cmd + Maj + Point . Ouvrez le fichier de configuration dans TextEdit.

Comment créer votre propre application Read-It-Later auto-hébergée privée

Paramètres

ArchiveBox vous offre de nombreuses options. En voici quelques-uns importants ;

  • ONLY_NEW  :Définissez ceci sur True pour télécharger l'archive des liens nouvellement ajoutés. Est utile si vous marquez régulièrement des liens.
  • TIMEOUT :Les valeurs possibles sont 60 ou 120 secondes. Si vous voyez des erreurs de délai d'attente fréquentes, augmentez-le à 120 secondes.
  • URL_BLACKLIST  :Vous pouvez utiliser une expression régulière pour exclure certains domaines, extensions ou modèles d'URL de l'archive.
  • FETCH_MEDIA :Récupérez tous les fichiers audio et vidéo à l'aide de youtube-dl. Définissez ceci sur True uniquement lorsque vous disposez de suffisamment d'espace de stockage.
  • WGET_USER_AGENT :Utilisez-le pour changer l'agent utilisateur pendant l'archivage. Si vous êtes bloqué par certains serveurs, cette option est utile.

Pour en savoir plus sur les détails de la configuration, visitez la configuration de l'ArchiveBox pour plus d'informations.

Publier votre archive

L'archive produite par ArchiveBox est compatible avec tout fournisseur pouvant héberger du HTML statique. Par exemple, les pages GitHub.

Vous pouvez également le servir à partir d'un serveur domestique ou d'un VPS en téléchargeant directement le dossier de sortie dans votre répertoire Web.

Assurez-vous que vous n'exécutez aucun contenu en tant que CGI ou PHP, vous souhaitez héberger uniquement des fichiers HTML statiques.

L'hébergement de vos archives présente des avantages et des inconvénients. Lorsque vous téléchargez des liens à partir de sites aléatoires, vous devez comprendre les dangers liés à l'hébergement de fichiers CSS et JS malveillants dans votre domaine partagé. Vous pouvez également mettre vos archives sur liste noire dans le fichier robots.txt pour rester privées.

Télécharger des sites Web entiers hors ligne

L'archivage Web a attiré l'attention au cours des dernières années. Ils enregistrent l'intégralité du contenu d'une page Web, y compris le code HTML source, les images intégrées, les feuilles de style et le code JavaScript. ArchiveBox s'intègre parfaitement dans la vaste catégorie des outils et services d'archivage Web.

Si vous êtes frustré par Instapaper ou Pocket, alors ArchiveBox est une excellente alternative. Outre les articles Web, vous souhaiterez peut-être archiver des sites Web entiers pour y accéder hors ligne ou pour préserver leurs connaissances. Si cela vous intéresse, lisez cet article sur la façon de télécharger n'importe quel site Web pour une lecture hors ligne.


[]