So sichern Sie ganze Websites mit einem einzigen Befehl mit HTTrack
Haben Sie jemals eine ganze Website für die Offline-Nutzung speichern wollen? Vielleicht müssen Sie wichtige Dokumentationen sichern, ein Backup Ihrer eigenen Website erstellen oder Lerninhalte für den Offline-Zugriff speichern. HTTrack ist ein kostenloses Tool, das dies unglaublich einfach macht, und ich zeige Ihnen, wie Sie es mit nur einem Befehl tun können.
Was ist HTTrack?
HTTrack ist wie eine Zeitmaschine für Websites. Es erstellt eine exakte Kopie einer Website, die Sie offline auf Ihrem Computer durchsuchen können. Stellen Sie es sich wie eine Momentaufnahme einer Website vor, auf die Sie jederzeit zugreifen können, auch ohne Internetverbindung.
Der einzige Befehl, den Sie brauchen
Hier ist der magische Befehl, der eine ganze Website herunterlädt:
httrack "https://website-zum-kopieren.com" -O "./website_backup" -%v
Lassen Sie uns auf einfache Weise aufschlüsseln, was das bedeutet:
- httrack: Dies startet das Programm
- "https://website-zum-kopieren.com": Ersetzen Sie dies durch die Website, die Sie sichern möchten
- -O "./website_backup": Dies erstellt einen neuen Ordner namens 'website_backup', in dem alle Dateien gespeichert werden
- -%v: Dies zeigt Ihnen den Fortschritt während der Ausführung an
Erste Schritte
Schritt 1: HTTrack installieren
Bevor Sie den Befehl verwenden, müssen Sie HTTrack installieren. Es ist kostenlos und für Windows, Mac und Linux verfügbar:
- Windows: Laden Sie das Installationsprogramm von der offiziellen HTTrack-Website herunter
- Mac: Verwenden Sie Homebrew und geben Sie ein:
brew install httrack
- Linux: Verwenden Sie Ihren Paketmanager:
sudo apt-get install httrack
(Ubuntu/Debian)
Schritt 2: Den Befehl ausführen
Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung, navigieren Sie zu dem Ort, an dem Sie die Website speichern möchten, und führen Sie den obigen Befehl aus (ersetzen Sie die Beispiel-URL durch Ihre Zielwebsite).
Was passiert als Nächstes?
HTTrack beginnt mit dem Herunterladen der Website. Je nach Größe der Website kann dies einige Minuten bis mehrere Stunden dauern. Sie sehen eine Fortschrittsanzeige, die Folgendes anzeigt:
- Wie viele Dateien heruntergeladen wurden
- Die aktuelle Download-Geschwindigkeit
- Verbleibende geschätzte Zeit
Zugriff auf Ihre Offline-Website
Sobald der Download abgeschlossen ist, finden Sie einen neuen Ordner namens 'website_backup' (oder wie auch immer Sie ihn genannt haben). Suchen Sie darin nach 'index.html' und öffnen Sie diese Datei in Ihrem Webbrowser. Sie können nun die gesamte Website durchsuchen, genau wie online!
Umgang mit geschützten Websites (WAF-Umgehung)
Einige Websites verwenden Web Application Firewalls (WAFs), die automatisierte Crawler wie HTTrack blockieren. Wenn Sie Zugriffsverweigerungsfehler erhalten oder der Download fehlschlägt, können Sie benutzerdefinierte Header verwenden, um HTTrack wie einen normalen Browser erscheinen zu lassen.
Was sind Header? Header sind Informationen, die Ihr Browser bei jeder Anfrage an Websites sendet, wie ein Ausweis, der besagt: „Ich bin Firefox auf Mac, ich spreche Deutsch und ich kann HTML-Dateien verarbeiten.“ WAFs überprüfen diese, um Bots zu erkennen.
httrack "https://website-zum-kopieren.com" \
-O "./website_backup" \
-H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" \
-H "Accept-Language: de-DE,de;q=0.5" \
-H "Accept-Encoding: gzip, deflate, br, zstd" \
-H "Update-Insecure-Requests: 1" \
-H "DNT: 1" \
-H "Sec-Fetch-Dest: document" \
-H "Sec-Fetch-Mode: navigate" \
-H "Sec-Fetch-Site: none" \
-H "Sec-Fetch-User: ?1" \
-H "Sec-GPC: 1" \
--user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:142.0) Gecko/20100101 Firefox/142.0" \
-%v
Hier ist, was jeder Header bewirkt:
- Accept: Teilt dem Server mit, welche Dateitypen der Browser verarbeiten kann (HTML, XML usw.)
- Accept-Language: Gibt die bevorzugten Sprachen an (in diesem Fall Deutsch)
- Accept-Encoding: Zeigt an, welche Komprimierungsmethoden der Browser unterstützt
- Update-Insecure-Requests: Signalisiert, dass der Browser HTTPS gegenüber HTTP bevorzugt
- DNT: „Do Not Track“-Datenschutzpräferenz
- Sec-Fetch-Dest: Gibt das Ziel der Anfrage an (in diesem Fall ein Dokument)
- Sec-Fetch-Mode: Zeigt den Anfragemodus an (navigate für Seiten-Navigation)
- Sec-Fetch-Site: Gibt die Beziehung zwischen dem Ursprung der Anfrage und dem Ziel an
- Sec-Fetch-User: Zeigt an, ob die Anfrage durch Benutzeraktivierung ausgelöst wurde
- Sec-GPC: Global Privacy Control-Signal
- User-agent: Identifiziert den Browser gegenüber der Website als Firefox
Diese Header lassen HTTrack wie einen legitimen Firefox-Browser aussehen und nicht wie einen automatisierten Crawler, was bei der Umgehung grundlegender Bot-Erkennungssysteme hilft.
Unterbrochene Downloads fortsetzen
Eine der besten Funktionen von HTTrack ist die Möglichkeit, unterbrochene Downloads fortzusetzen. Wenn Ihre Internetverbindung abbricht oder Sie den Download stoppen müssen, speichert HTTrack seinen Fortschritt automatisch in Cache-Dateien.
Um einen Download fortzusetzen, führen Sie einfach denselben Befehl erneut aus. HTTrack wird:
- Die vorhandenen Projektdateien in Ihrem Ausgabeordner erkennen
- Überprüfen, welche Seiten bereits heruntergeladen wurden
- Dort weitermachen, wo es aufgehört hat, ohne bereits heruntergeladene Dateien erneut herunterzuladen
- Seiten aktualisieren, die sich seit dem letzten Download geändert haben könnten
HTTrack erstellt mehrere Tracking-Dateien in Ihrem Projektverzeichnis:
- hts-cache/: Enthält den Download-Cache und Fortschrittsinformationen
- hts-log.txt: Detailliertes Protokoll aller Download-Aktivitäten
- *.ndx Dateien: Indexdateien, die verfolgen, welche URLs verarbeitet wurden
Dies macht HTTrack perfekt für den Download großer Websites über mehrere Sitzungen hinweg, was besonders nützlich ist, wenn Sie mit unzuverlässigen Internetverbindungen oder riesigen Websites zu tun haben, deren vollständiger Download Stunden dauert.
Wichtige Tipps
- Prüfen Sie immer, ob Sie die Erlaubnis haben, eine Website herunterzuladen
- Seien Sie geduldig bei großen Websites, sie dauern länger zum Herunterladen
- Stellen Sie sicher, dass Sie genügend Speicherplatz auf Ihrem Computer haben
- Einige Websites haben möglicherweise Einschränkungen, die eine vollständige Kopie verhindern
- Wenn der grundlegende Befehl fehlschlägt, versuchen Sie die WAF-Umgehungsversion mit benutzerdefinierten Headern
- Verwenden Sie Header verantwortungsbewusst und respektieren Sie Ratenbegrenzungen, um Server nicht zu überlasten
- Löschen Sie den hts-cache-Ordner nicht, wenn Sie den Download später fortsetzen oder aktualisieren möchten
Häufige Anwendungsfälle
Menschen nutzen HTTrack für viele Zwecke:
- Sicherung ihrer eigenen Websites
- Speichern wichtiger Dokumentationen für die Offline-Referenz
- Archivierung von Websites, die möglicherweise verschwinden
- Erstellung von Offline-Kopien von Lernressourcen
Denken Sie daran, immer die Rechte und Nutzungsbedingungen der Website-Besitzer zu respektieren, wenn Sie dieses Tool verwenden.