FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Nettoyez le formatage HTML avec des scripts shell Bash simples : tutoriel pratique

Si vous rédigez souvent du HTML dans un éditeur et le collez dans WordPress, vous avez probablement remarqué l'ajout de balises inutiles comme les <span>. Avec des scripts shell simples, nettoyez automatiquement ce formatage HTML grâce à quelques commandes basiques.

Pourquoi les scripts shell ? Pour les débutants en programmation, commencez modestement : moins de risques d'abandon et plus d'opportunités d'apprendre progressivement. Vos premiers scripts, même simples, s'avèrent très utiles au quotidien.

Les scripts shell sont idéaux pour débuter : quelques lignes de code suffisent à gagner un temps précieux. Voici des modèles réutilisables pour booster vos scripts.

Pourquoi les scripts shell ?

Le "shell scripting" désigne l'écriture de scripts exécutés dans le shell Bash. D'autres shells comme PowerShell existent, mais pourquoi privilégier Bash ?

  • Grâce au WSL (Windows Subsystem for Linux), Bash est disponible sur toutes les plateformes PC majeures, macOS, Linux et même Android via Termux (gratuit sur Google Play).
  • Les scripts shell se concentrent sur les fondamentaux de la programmation : les commandes intégrées gèrent le gros du travail. Exemple : comprimer des fichiers avec tar en une ligne, sans coder de bibliothèque.
  • Développez itérativement : testez les commandes interactivement avant de les intégrer au script.

Voici des scripts shell pratiques pour renforcer Pandoc, outil de conversion puissant.

1. Raccourcis pour commandes complexes

Créez un script comme alias pour des commandes longues. Exemple avec Pandoc pour convertir Markdown en ODT via un template :

pandoc -r markdown -w odt --reference-odt=/chemin/vers/template.odt -o manuscrit.odt manuscrit.md

Même avec Pandoc quotidien, on tape souvent mal les options. Script simple :

#!/bin/bash
pandoc -r markdown -w odt --reference-odt=/chemin/vers/template.odt -o "$1".odt "$1".md

Première ligne : shebang pour Bash. $1 est le premier argument. Stockez dans ~/bin, rendez exécutable (chmod +x). Avantage sur alias : portable et éditable.

2. Nettoyage HTML via pipe

Utilisez le pipe (|) pour chaîner les commandes : sortie de la première devient entrée de la seconde. Enveloppez dans un script pour simplicité.

Astuce Pandoc : nettoyez les styles inline du HTML exporté d'un traitement de texte.

Nettoyez le formatage HTML avec des scripts shell Bash simples : tutoriel pratique

Convertissez HTML → DocBook (sans styles inline) → HTML propre.

#!/bin/bash
pandoc -w docbook "$1" | pandoc -r docbook -w html -o "$1" -
Nettoyez le formatage HTML avec des scripts shell Bash simples : tutoriel pratique

Entrées/sorties standard

Sans sortie spécifiée, Pandoc utilise stdout (terminal). Le tiret (-) indique stdin. Le pipe redirige stdout vers stdin.

Renommez clean-html.sh : écrase le fichier original, sans temporaires.

3. Traitement batch sur plusieurs fichiers

Certains outils gèrent les wildcards (*), pas Pandoc. Utilisez une boucle for :

#!/bin/bash
for fichier in ./*.html; do
  pandoc -w docbook "$fichier" | pandoc -r docbook -w html -o "$fichier" -
  echo "Traitement de $fichier... HTML nettoyé !"
done

Nettoie tout un dossier en un clin d'œil.

Nettoyez le formatage HTML avec des scripts shell Bash simples : tutoriel pratique

Prochaines étapes

Améliorez ces modèles :

  • Support ODT/DOCX direct : ODT → DocBook → HTML.
  • Un script unifié : nettoie fichier ou dossier selon args.
  • Options export (PDF) via if ou case.

Les scripts shell grandissent itérativement : testez en ligne de commande, intégrez.

Les scripts shell vous semblent-ils accessibles ? Automatisez vos tâches ! Partagez vos expériences en commentaires.

[]