Come eseguire il backup di interi siti web con un solo comando usando HTTrack
Hai mai desiderato salvare un intero sito web per la visualizzazione offline? Forse hai bisogno di preservare documentazione importante, creare un backup del tuo sito web o salvare contenuti educativi per l'accesso offline. HTTrack è uno strumento gratuito che rende questo processo incredibilmente semplice, e ti mostrerò come farlo con un solo comando.
Cos'è HTTrack?
HTTrack è come una macchina del tempo per i siti web. Crea una copia esatta di un sito web che puoi navigare offline sul tuo computer. Pensala come uno snapshot di un sito web a cui puoi accedere in qualsiasi momento, anche senza connessione internet.
L'unico comando di cui hai bisogno
Ecco il comando magico che scaricherà un intero sito web:
httrack "https://sito-da-copiare.com" -O "./backup_sito" -%v
Analizziamo cosa significa in termini semplici:
- httrack: Avvia il programma
- "https://sito-da-copiare.com": Sostituisci questo con il sito web che vuoi salvare
- -O "./backup_sito": Crea una nuova cartella chiamata 'backup_sito' dove verranno salvati tutti i file
- -%v: Mostra il progresso mentre lavora
Come iniziare
Passaggio 1: Installa HTTrack
Prima di usare il comando, dovrai installare HTTrack. È gratuito e disponibile per Windows, Mac e Linux:
- Windows: Scarica l'installer dal sito ufficiale di HTTrack
- Mac: Usa Homebrew e digita:
brew install httrack
- Linux: Usa il tuo gestore di pacchetti:
sudo apt-get install httrack
(Ubuntu/Debian)
Passaggio 2: Esegui il comando
Apri il tuo terminale o prompt dei comandi, naviga nella directory dove vuoi salvare il sito web ed esegui il comando sopra (sostituendo l'URL di esempio con il tuo sito di destinazione).
Cosa succede dopo?
HTTrack inizierà a scaricare il sito web. A seconda delle dimensioni del sito, questo potrebbe richiedere da pochi minuti a diverse ore. Vedrai un indicatore di progresso che mostra:
- Quanti file sono stati scaricati
- La velocità di download attuale
- Tempo rimanente stimato
Accedere al tuo sito web offline
Una volta completato il download, troverai una nuova cartella chiamata 'backup_sito' (o qualsiasi nome tu abbia scelto). All'interno, cerca 'index.html' e aprilo nel tuo browser web. Ora puoi navigare l'intero sito web proprio come faresti online!
Gestire siti web protetti (Bypass WAF)
Alcuni siti web utilizzano Web Application Firewall (WAF) che bloccano i crawler automatizzati come HTTrack. Se incontri errori di accesso negato o il download fallisce, puoi usare header personalizzati per far sembrare HTTrack più simile a un browser normale.
Cosa sono gli header? Gli header sono informazioni che il tuo browser invia ai siti web con ogni richiesta, come una carta d'identità che dice "Sono Firefox su Mac, parlo italiano e posso gestire file HTML". I WAF controllano questi per individuare i bot.
httrack "https://sito-da-copiare.com" \
-O "./backup_sito" \
-H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" \
-H "Accept-Language: it-IT,it;q=0.7" \
-H "Accept-Encoding: gzip, deflate, br, zstd" \
-H "Update-Insecure-Requests: 1" \
-H "DNT: 1" \
-H "Sec-Fetch-Dest: document" \
-H "Sec-Fetch-Mode: navigate" \
-H "Sec-Fetch-Site: none" \
-H "Sec-Fetch-User: ?1" \
-H "Sec-GPC: 1" \
--user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:142.0) Gecko/20100101 Firefox/142.0" \
-%v
Ecco cosa fa ogni header:
- Accept: Indica al server quali tipi di file il browser può gestire (HTML, XML, ecc.)
- Accept-Language: Indica le lingue preferite (italiano in questo caso)
- Accept-Encoding: Mostra quali metodi di compressione il browser supporta
- Update-Insecure-Requests: Segnala che il browser preferisce HTTPS a HTTP
- DNT: Preferenza sulla privacy "Do Not Track"
- Sec-Fetch-Dest: Indica la destinazione della richiesta (documento in questo caso)
- Sec-Fetch-Mode: Mostra la modalità della richiesta (navigazione per la navigazione delle pagine)
- Sec-Fetch-Site: Indica la relazione tra l'origine della richiesta e la destinazione
- Sec-Fetch-User: Mostra se la richiesta è stata attivata dall'utente
- Sec-GPC: Segnale Global Privacy Control
- User-agent: Identifica il browser come Firefox al sito web
Questi header fanno sembrare HTTrack un browser Firefox legittimo invece di un crawler automatizzato, aiutando a bypassare i sistemi di rilevamento bot di base.
Riprendere download interrotti
Una delle migliori funzionalità di HTTrack è la sua capacità di riprendere download interrotti. Se la tua connessione internet cade o devi interrompere il download, HTTrack salva automaticamente i suoi progressi nei file di cache.
Per riprendere un download, esegui semplicemente lo stesso comando. HTTrack:
- Rileverà i file di progetto esistenti nella tua directory di output
- Controllerà quali pagine sono già state scaricate
- Continuerà da dove si era interrotto senza riscaricare i file completati
- Aggiornerà eventuali pagine che potrebbero essere cambiate dall'ultimo download
HTTrack crea diversi file di tracciamento nella tua directory di progetto:
- hts-cache/: Contiene la cache di download e le informazioni sul progresso
- hts-log.txt: Log dettagliato di tutte le attività di download
- file *.ndx: File di indice che tracciano quali URL sono stati elaborati
Questo rende HTTrack perfetto per scaricare siti web di grandi dimensioni in più sessioni, particolarmente utile quando si ha a che fare con connessioni internet inaffidabili o siti enormi che richiedono ore per essere completati.
Consigli importanti
- Verifica sempre se hai il permesso di scaricare un sito web
- Sii paziente con i siti web di grandi dimensioni, richiedono più tempo per il download
- Assicurati di avere abbastanza spazio di archiviazione sul tuo computer
- Alcuni siti web potrebbero avere restrizioni che impediscono la copia completa
- Se il comando base fallisce, prova la versione di bypass WAF con header personalizzati
- Usa gli header in modo responsabile e rispetta i limiti di velocità per evitare di sovraccaricare i server
- Non eliminare la cartella hts-cache se prevedi di riprendere o aggiornare il download in seguito
Usi comuni
Le persone usano HTTrack per molti scopi:
- Creare backup dei propri siti web
- Salvare documentazione importante per riferimento offline
- Archiviare siti web che potrebbero scomparire
- Creare copie offline di risorse educative
Ricorda di rispettare sempre i diritti dei proprietari dei siti web e i termini di servizio quando utilizzi questo strumento.