FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

L'Internet regorge de connaissances précieuses, mais leur disponibilité n'est jamais garantie. Pour préserver le contenu que vous appréciez, utilisez un outil d'archivage web qui stocke une copie fidèle de la page.

Les services de lecture ultérieure populaires comme Instapaper ou Pocket excellent pour les articles textuels, mais peinent avec les mises en page complexes ou les médias riches. Vous souhaitez un contrôle total ?

Découvrez comment créer un clone auto-hébergé d'Instapaper ou Pocket sur votre machine, sans perte d'éléments web.

Présentation d'ArchiveBox

ArchiveBox est une solution open source puissante pour héberger votre propre alternative à la Wayback Machine. Protégez votre vie privée et gardez le contrôle total de vos archives.

Il transforme une liste d'URL en clones HTML locaux navigables, disponibles en formats multiples : HTML, captures d'écran, PDF et WARC (Web ARChive). Ces copies restent accessibles même si les originaux disparaissent.

Écrit en Python 3, ArchiveBox s'appuie sur des outils comme Wget, Chrome headless, youtube-dl et divers utilitaires Unix. Pas besoin de serveur permanent : exécutez-le à la demande pour importer des liens et générer des sorties statiques.

Une fois l'archivage terminé, ouvrez output/index.html dans votre navigateur pour explorer vos archives.

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Avantages d'ArchiveBox

  • Archive en multiples formats pour des sauvegardes robustes.
  • Préserve fidèlement les pages via des méthodes avancées de capture.
  • Extrait et organise le contenu dans un dossier unique.
  • Interface en ligne de commande intuitive pour gérer liens, flux et signets. Configurez une fois, exécutez sur planning.

Inconvénients d'ArchiveBox

  • Extrait tous les assets : consommation élevée d'espace disque et CPU.
  • Nécessite plusieurs dépendances au-delà de Python 3.5 ; configuration parfois itérative.
  • Support Windows limité : préférez Docker ou WSL, avec possibles dysfonctionnements.

Systèmes d'exploitation supportés

ArchiveBox supporte officiellement :

  • macOS : 10.12 Sierra via Homebrew.
  • Linux : Ubuntu, Debian (APT). Fonctionne potentiellement sur Fedora, CentOS, etc.
  • BSD : FreeBSD, OpenBSD, NetBSD (pkg).

Dépendances

ArchiveBox requiert :

  • Python 3 (évitez Python 2 sur macOS).
  • Wget 1.16+.
  • Chromium 59+ (ou Google Chrome existant).
  • youtube-dl (optionnel, mais gourmand en stockage pour médias).

Configuration d'ArchiveBox

Deux méthodes : automatique (script) ou manuelle (recommandée pour debugging). Exemple sur macOS 10.14.6.

Installation des dépendances

Utilisez Homebrew (voir guide d'installation).

Ouvrez le Terminal :

brew install python3 git wget curl youtube-dl
brew install --cask chromium

(Ignorez si Chrome/Chromium déjà installé.)

Vérification des versions

Exécutez [outil] --version pour python3, wget, etc.

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Export de signets

Exportez depuis navigateurs/services en HTML, ou listez URL dans un fichier texte. Voir guide.

Installation d'ArchiveBox

Clonez le dépôt :

git clone https://github.com/ArchiveBox/ArchiveBox.git
cd ArchiveBox

Le dossier ~/ArchiveBox contient fichiers et configs.

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Ajouter une URL

Pour un lien unique :

echo 'https://example.com' | ./bin/archivebox add
Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Voyez le nouveau dossier dans output, avec index.html.

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Pour listes (fichier texte) :

./bin/archivebox add /path/to/links.txt

Ex. : ./bin/archivebox add ~/Downloads/links.txt

Patienter ; ouvrez output/index.html pour tri, recherche.

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Cliquez favicon sous "Fichiers" pour détails (HTML, PDF, etc.). Lien vers archive.org aussi.

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Pour Instapaper/Pocket : ./bin/archivebox add ~/Downloads/export.html

Pour flux RSS : divisez gros volumes pour succès maximal.

Configuration

Paramètres par défaut OK, mais personnalisez via :

cp ./ArchiveBox/ArchiveBox.conf ~/.ArchiveBox.conf

Éditez ~/.ArchiveBox.conf (Cmd+Maj+. pour voir fichiers cachés).

Créez votre propre service Read-It-Later privé et auto-hébergé avec ArchiveBox : Tutoriel complet

Paramètres clés

  • ONLY_NEW : True pour nouveaux liens seulement.
  • TIMEOUT : 60/120s pour timeouts.
  • URL_BLACKLIST : Regex pour exclusions.
  • FETCH_MEDIA : True pour médias (espace requis).
  • WGET_USER_AGENT : Personnalisez agent user.

Voir docs officielles pour plus.

Publier l'archive

Hébergez statiquement (GitHub Pages, serveur local/VPS). Attention : risques sécurité avec assets tiers ; utilisez robots.txt pour privé.

Télécharger sites entiers hors ligne

ArchiveBox complète outils d'archivage web. Alternative idéale à Instapaper/Pocket. Pour sites complets, voir tutoriel dédié.


[]