Comment sauvegarder des sites web entiers avec une seule commande en utilisant HTTrack
Vous avez déjà voulu sauvegarder un site web entier pour le consulter hors ligne ? Peut-être avez-vous besoin de conserver une documentation importante, de créer une sauvegarde de votre propre site web, ou de sauvegarder du contenu éducatif pour un accès hors ligne. HTTrack est un outil gratuit qui rend cela incroyablement simple, et je vais vous montrer comment le faire avec une seule commande.
Qu'est-ce que HTTrack ?
HTTrack est comme une machine à remonter le temps pour les sites web. Il crée une copie exacte d'un site web que vous pouvez consulter hors ligne sur votre ordinateur. Pensez-y comme à une capture d'écran d'un site web que vous pouvez consulter à tout moment, même sans connexion Internet.
La commande unique dont vous avez besoin
Voici la commande magique qui téléchargera un site web entier :
httrack "https://website-to-copy.com" -O "./website_backup" -%v
Décortiquons ce que cela signifie en termes simples :
- httrack : Ceci lance le programme
- "https://website-to-copy.com" : Remplacez ceci par le site web que vous souhaitez sauvegarder
- -O "./website_backup" : Ceci crée un nouveau dossier appelé 'website_backup' où tous les fichiers seront sauvegardés
- -%v : Ceci vous montre la progression pendant qu'il travaille
Comment commencer
Étape 1 : Installer HTTrack
Avant d'utiliser la commande, vous devrez installer HTTrack. Il est gratuit et disponible pour Windows, Mac et Linux :
- Windows : Téléchargez l'installateur depuis le site officiel de HTTrack
- Mac : Utilisez Homebrew et tapez :
brew install httrack
- Linux : Utilisez votre gestionnaire de paquets :
sudo apt-get install httrack
(Ubuntu/Debian)
Étape 2 : Exécuter la commande
Ouvrez votre terminal ou votre invite de commande, naviguez jusqu'à l'endroit où vous souhaitez sauvegarder le site web, et exécutez la commande ci-dessus (en remplaçant l'URL d'exemple par votre site web cible).
Que se passe-t-il ensuite ?
HTTrack commencera à télécharger le site web. Selon la taille du site web, cela peut prendre de quelques minutes à plusieurs heures. Vous verrez un indicateur de progression montrant :
- Combien de fichiers ont été téléchargés
- La vitesse de téléchargement actuelle
- Le temps restant estimé
Accéder à votre site web hors ligne
Une fois le téléchargement terminé, vous trouverez un nouveau dossier nommé 'website_backup' (ou le nom que vous avez choisi). À l'intérieur, recherchez 'index.html' et ouvrez-le dans votre navigateur web. Vous pouvez maintenant naviguer sur l'intégralité du site web comme vous le feriez en ligne !
Gérer les sites web protégés (Contournement WAF)
Certains sites web utilisent des pare-feux d'applications web (WAF) qui bloquent les robots d'exploration automatisés comme HTTrack. Si vous rencontrez des erreurs d'accès refusé ou si le téléchargement échoue, vous pouvez utiliser des en-têtes personnalisés pour faire apparaître HTTrack davantage comme un navigateur normal.
Que sont les en-têtes ? Les en-têtes sont des informations que votre navigateur envoie aux sites web à chaque requête, comme une carte d'identité qui dit « Je suis Firefox sur Mac, je parle français, et je peux gérer les fichiers HTML ». Les WAF vérifient cela pour repérer les robots.
httrack "https://website-to-copy.com" \
-O "./website_backup" \
-H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" \
-H "Accept-Language: fr-FR,fr;q=0.5" \
-H "Accept-Encoding: gzip, deflate, br, zstd" \
-H "Update-Insecure-Requests: 1" \
-H "DNT: 1" \
-H "Sec-Fetch-Dest: document" \
-H "Sec-Fetch-Mode: navigate" \
-H "Sec-Fetch-Site: none" \
-H "Sec-Fetch-User: ?1" \
-H "Sec-GPC: 1" \
--user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:142.0) Gecko/20100101 Firefox/142.0" \
-%v
Voici ce que fait chaque en-tête :
- Accept : Indique au serveur quels types de fichiers le navigateur peut gérer (HTML, XML, etc.)
- Accept-Language : Indique les langues préférées (français dans ce cas)
- Accept-Encoding : Indique les méthodes de compression prises en charge par le navigateur
- Update-Insecure-Requests : Signale que le navigateur préfère HTTPS à HTTP
- DNT : Préférence de confidentialité « Ne pas suivre »
- Sec-Fetch-Dest : Indique la destination de la requête (document dans ce cas)
- Sec-Fetch-Mode : Indique le mode de la requête (navigation pour la navigation de page)
- Sec-Fetch-Site : Indique la relation entre l'origine de la requête et la destination
- Sec-Fetch-User : Indique si la requête a été déclenchée par une activation utilisateur
- Sec-GPC : Signal Global Privacy Control
- User-agent : Identifie le navigateur comme Firefox auprès du site web
Ces en-têtes font ressembler HTTrack à un navigateur Firefox légitime plutôt qu'à un robot automatisé, aidant ainsi à contourner les systèmes de détection de robots de base.
Reprise des téléchargements interrompus
L'une des meilleures fonctionnalités de HTTrack est sa capacité à reprendre les téléchargements interrompus. Si votre connexion Internet tombe en panne ou si vous devez arrêter le téléchargement, HTTrack enregistre automatiquement sa progression dans des fichiers de cache.
Pour reprendre un téléchargement, exécutez simplement la même commande exacte à nouveau. HTTrack :
- Détectera les fichiers de projet existants dans votre répertoire de sortie
- Vérifiera quelles pages ont déjà été téléchargées
- Reprendra là où il s'est arrêté sans retélécharger les fichiers terminés
- Mettra à jour les pages qui ont pu changer depuis le dernier téléchargement
HTTrack crée plusieurs fichiers de suivi dans votre répertoire de projet :
- hts-cache/ : Contient le cache de téléchargement et les informations de progression
- hts-log.txt : Journal détaillé de toute l'activité de téléchargement
- fichiers *.ndx : Fichiers d'index qui suivent les URL traitées
Cela rend HTTrack parfait pour télécharger de grands sites web sur plusieurs sessions, particulièrement utile lorsqu'on traite avec des connexions Internet peu fiables ou des sites massifs qui prennent des heures à être complétés.
Conseils importants
- Vérifiez toujours si vous avez l'autorisation de télécharger un site web
- Soyez patient avec les grands sites web, ils prennent plus de temps à télécharger
- Assurez-vous d'avoir suffisamment d'espace de stockage sur votre ordinateur
- Certains sites web peuvent avoir des restrictions qui empêchent une copie complète
- Si la commande de base échoue, essayez la version de contournement WAF avec des en-têtes personnalisés
- Utilisez les en-têtes de manière responsable et respectez les limites de débit pour éviter de surcharger les serveurs
- Ne supprimez pas le dossier hts-cache si vous prévoyez de reprendre ou de mettre à jour le téléchargement plus tard
Utilisations courantes
Les gens utilisent HTTrack à de nombreuses fins :
- Sauvegarder leurs propres sites web
- Sauvegarder une documentation importante pour référence hors ligne
- Archiver des sites web qui pourraient disparaître
- Créer des copies hors ligne de ressources éducatives
N'oubliez pas de toujours respecter les droits des propriétaires de sites web et les conditions d'utilisation lorsque vous utilisez cet outil.