Cómo hacer una copia de seguridad de sitios web completos con un solo comando usando HTTrack
¿Alguna vez has querido guardar un sitio web completo para verlo sin conexión? Quizás necesites conservar documentación importante, crear una copia de seguridad de tu propio sitio web o guardar contenido educativo para acceder a él sin conexión. HTTrack es una herramienta gratuita que hace esto increíblemente simple, y te mostraré cómo hacerlo con un solo comando.
¿Qué es HTTrack?
HTTrack es como una máquina del tiempo para sitios web. Crea una copia exacta de un sitio web que puedes navegar sin conexión en tu ordenador. Piensa en ello como tomar una instantánea de un sitio web al que puedes acceder en cualquier momento, incluso sin conexión a internet.
El Comando Único Que Necesitas
Aquí está el comando mágico que descargará un sitio web completo:
httrack "https://website-to-copy.com" -O "./website_backup" -%v
Desglosemos lo que esto significa en términos sencillos:
- httrack: Esto inicia el programa
- "https://website-to-copy.com": Reemplaza esto con el sitio web que quieres respaldar
- -O "./website_backup": Esto crea una nueva carpeta llamada 'website_backup' donde se guardarán todos los archivos
- -%v: Esto te muestra el progreso mientras funciona
Cómo Empezar
Paso 1: Instalar HTTrack
Antes de usar el comando, necesitarás instalar HTTrack. Es gratuito y está disponible para Windows, Mac y Linux:
- Windows: Descarga el instalador desde el sitio web oficial de HTTrack
- Mac: Usa Homebrew y escribe:
brew install httrack
- Linux: Usa tu gestor de paquetes:
sudo apt-get install httrack
(Ubuntu/Debian)
Paso 2: Ejecutar el Comando
Abre tu terminal o símbolo del sistema, navega hasta donde quieres guardar el sitio web y ejecuta el comando anterior (reemplazando la URL de ejemplo con tu sitio web de destino).
¿Qué Sucede Después?
HTTrack comenzará a descargar el sitio web. Dependiendo del tamaño del sitio web, esto puede llevar desde unos pocos minutos hasta varias horas. Verás un indicador de progreso que muestra:
- Cuántos archivos se han descargado
- La velocidad de descarga actual
- Tiempo estimado restante
Acceder a Tu Sitio Web Sin Conexión
Una vez que la descarga esté completa, encontrarás una nueva carpeta llamada 'website_backup' (o el nombre que hayas elegido). Dentro, busca 'index.html' y ábrelo en tu navegador web. ¡Ahora puedes navegar por todo el sitio web como lo harías en línea!
Tratar con Sitios Web Protegidos (Bypass de WAF)
Algunos sitios web utilizan Firewalls de Aplicaciones Web (WAF) que bloquean rastreadores automatizados como HTTrack. Si encuentras errores de acceso denegado o la descarga falla, puedes usar encabezados personalizados para que HTTrack parezca más un navegador normal.
¿Qué son los encabezados? Los encabezados son fragmentos de información que tu navegador envía a los sitios web con cada solicitud, como una tarjeta de identificación que dice "Soy Firefox en Mac, hablo español y puedo manejar archivos HTML". Los WAF revisan esto para detectar bots.
httrack "https://website-to-copy.com" \
-O "./website_backup" \
-H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" \
-H "Accept-Language: es-ES,es;q=0.5" \
-H "Accept-Encoding: gzip, deflate, br, zstd" \
-H "Update-Insecure-Requests: 1" \
-H "DNT: 1" \
-H "Sec-Fetch-Dest: document" \
-H "Sec-Fetch-Mode: navigate" \
-H "Sec-Fetch-Site: none" \
-H "Sec-Fetch-User: ?1" \
-H "Sec-GPC: 1" \
--user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:142.0) Gecko/20100101 Firefox/142.0" \
-%v
Aquí está lo que hace cada encabezado:
- Accept: Indica al servidor qué tipos de archivo puede manejar el navegador (HTML, XML, etc.)
- Accept-Language: Indica los idiomas preferidos (español en este caso)
- Accept-Encoding: Muestra qué métodos de compresión soporta el navegador
- Update-Insecure-Requests: Señala que el navegador prefiere HTTPS sobre HTTP
- DNT: Preferencia de privacidad "No rastrear"
- Sec-Fetch-Dest: Indica el destino de la solicitud (documento en este caso)
- Sec-Fetch-Mode: Muestra el modo de la solicitud (navegar para la navegación de páginas)
- Sec-Fetch-Site: Indica la relación entre el origen de la solicitud y el destino
- Sec-Fetch-User: Muestra si la solicitud fue activada por el usuario
- Sec-GPC: Señal de Control Global de Privacidad
- User-agent: Identifica el navegador como Firefox al sitio web
Estos encabezados hacen que HTTrack parezca un navegador Firefox legítimo en lugar de un rastreador automatizado, ayudando a eludir los sistemas básicos de detección de bots.
Reanudar Descargas Interrumpidas
Una de las mejores características de HTTrack es su capacidad para reanudar descargas interrumpidas. Si tu conexión a internet se cae o necesitas detener la descarga, HTTrack guarda automáticamente su progreso en archivos de caché.
Para reanudar una descarga, simplemente ejecuta el mismo comando exacto de nuevo. HTTrack:
- Detectará los archivos del proyecto existentes en tu directorio de salida
- Comprobará qué páginas ya se han descargado
- Continuará desde donde lo dejó sin volver a descargar los archivos completados
- Actualizará cualquier página que pueda haber cambiado desde la última descarga
HTTrack crea varios archivos de seguimiento en tu directorio de proyecto:
- hts-cache/: Contiene la caché de descarga y la información de progreso
- hts-log.txt: Registro detallado de toda la actividad de descarga
- archivos *.ndx: Archivos de índice que rastrean qué URLs se han procesado
Esto hace que HTTrack sea perfecto para descargar sitios web grandes en múltiples sesiones, especialmente útil cuando se trata de conexiones a internet poco fiables o sitios masivos que tardan horas en completarse.
Consejos Importantes
- Siempre verifica si tienes permiso para descargar un sitio web
- Ten paciencia con los sitios web grandes, tardan más en descargarse
- Asegúrate de tener suficiente espacio de almacenamiento en tu ordenador
- Algunos sitios web pueden tener restricciones que impiden la copia completa
- Si el comando básico falla, prueba la versión de bypass de WAF con encabezados personalizados
- Usa los encabezados de forma responsable y respeta los límites de velocidad para evitar sobrecargar los servidores
- No elimines la carpeta hts-cache si planeas reanudar o actualizar la descarga más tarde
Usos Comunes
La gente usa HTTrack para muchos propósitos:
- Respaldar sus propios sitios web
- Guardar documentación importante para referencia sin conexión
- Archivar sitios web que podrían desaparecer
- Crear copias sin conexión de recursos educativos
Recuerda siempre respetar los derechos de los propietarios de los sitios web y los términos de servicio al usar esta herramienta.