Назад к блогу

Как сделать резервную копию всего веб-сайта одной командой с помощью HTTrack

2025-02-133 min read

Вы когда-нибудь хотели сохранить весь веб-сайт для просмотра в автономном режиме? Возможно, вам нужно сохранить важную документацию, создать резервную копию собственного веб-сайта или сохранить образовательный контент для доступа в автономном режиме. HTTrack — это бесплатный инструмент, который делает это невероятно простым, и я покажу вам, как это сделать всего одной командой.

Что такое HTTrack?

HTTrack — это как машина времени для веб-сайтов. Он создает точную копию веб-сайта, которую вы можете просматривать в автономном режиме на своем компьютере. Представьте, что вы делаете снимок веб-сайта, к которому можете получить доступ в любое время, даже без подключения к Интернету.

Единственная команда, которая вам нужна

Вот волшебная команда, которая загрузит весь веб-сайт:

httrack "https://website-to-copy.com" -O "./website_backup" -%v

Давайте разберем, что это означает простыми словами:

  • httrack: Это запускает программу
  • "https://website-to-copy.com": Замените это веб-сайтом, который вы хотите сохранить в резервную копию
  • -O "./website_backup": Это создает новую папку под названием 'website_backup', где будут сохранены все файлы
  • -%v: Это показывает вам прогресс во время работы

Как начать

Шаг 1: Установите HTTrack

Прежде чем использовать команду, вам нужно будет установить HTTrack. Он бесплатный и доступен для Windows, Mac и Linux:

  • Windows: Загрузите установщик с официального сайта HTTrack
  • Mac: Используйте Homebrew и введите: brew install httrack
  • Linux: Используйте ваш менеджер пакетов: sudo apt-get install httrack (Ubuntu/Debian)

Шаг 2: Выполните команду

Откройте терминал или командную строку, перейдите в каталог, где вы хотите сохранить веб-сайт, и выполните приведенную выше команду (заменив пример URL на ваш целевой веб-сайт).

Что произойдет дальше?

HTTrack начнет загрузку веб-сайта. В зависимости от размера веб-сайта это может занять от нескольких минут до нескольких часов. Вы увидите индикатор прогресса, показывающий:

  • Сколько файлов было загружено
  • Текущая скорость загрузки
  • Оставшееся расчетное время

Доступ к вашему автономному веб-сайту

После завершения загрузки вы найдете новую папку с именем 'website_backup' (или любым другим именем, которое вы выбрали). Внутри найдите 'index.html' и откройте его в своем веб-браузере. Теперь вы можете просматривать весь веб-сайт так же, как и онлайн!

Работа с защищенными веб-сайтами (обход WAF)

Некоторые веб-сайты используют межсетевые экраны веб-приложений (WAF), которые блокируют автоматические сканеры, такие как HTTrack. Если вы столкнетесь с ошибками отказа в доступе или загрузка не удастся, вы можете использовать пользовательские заголовки, чтобы HTTrack выглядел более похожим на обычный браузер.

Что такое заголовки? Заголовки — это фрагменты информации, которые ваш браузер отправляет веб-сайтам с каждым запросом, подобно удостоверению личности, которое говорит: «Я Firefox на Mac, я говорю по-русски и могу обрабатывать HTML-файлы». WAF проверяют их, чтобы обнаружить ботов.

httrack "https://website-to-copy.com" \
-O "./website_backup" \
-H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" \
-H "Accept-Language: ru-RU,ru;q=0.5" \
-H "Accept-Encoding: gzip, deflate, br, zstd" \
-H "Update-Insecure-Requests: 1" \
-H "DNT: 1" \
-H "Sec-Fetch-Dest: document" \
-H "Sec-Fetch-Mode: navigate" \
-H "Sec-Fetch-Site: none" \
-H "Sec-Fetch-User: ?1" \
-H "Sec-GPC: 1" \
--user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:142.0) Gecko/20100101 Firefox/142.0" \
-%v

Вот что делает каждый заголовок:

  • Accept: Сообщает серверу, какие типы файлов может обрабатывать браузер (HTML, XML и т. д.)
  • Accept-Language: Указывает предпочтительные языки (в данном случае русский)
  • Accept-Encoding: Показывает, какие методы сжатия поддерживает браузер
  • Update-Insecure-Requests: Сигнализирует браузеру о предпочтении HTTPS вместо HTTP
  • DNT: Настройка конфиденциальности «Не отслеживать»
  • Sec-Fetch-Dest: Указывает назначение запроса (в данном случае документ)
  • Sec-Fetch-Mode: Показывает режим запроса (навигация для перехода по страницам)
  • Sec-Fetch-Site: Указывает взаимосвязь между источником запроса и назначением
  • Sec-Fetch-User: Показывает, был ли запрос инициирован действием пользователя
  • Sec-GPC: Сигнал Global Privacy Control
  • User-agent: Идентифицирует браузер как Firefox для веб-сайта

Эти заголовки заставляют HTTrack выглядеть как легитимный браузер Firefox, а не как автоматический сканер, помогая обойти базовые системы обнаружения ботов.

Возобновление прерванных загрузок

Одной из лучших функций HTTrack является его способность возобновлять прерванные загрузки. Если ваше интернет-соединение прервется или вам нужно остановить загрузку, HTTrack автоматически сохранит свой прогресс в кэш-файлах.

Чтобы возобновить загрузку, просто снова выполните ту же команду. HTTrack:

  • Обнаружит существующие файлы проекта в вашем выходном каталоге
  • Проверит, какие страницы уже были загружены
  • Продолжит с того места, где остановился, без повторной загрузки завершенных файлов
  • Обновит любые страницы, которые могли измениться с момента последней загрузки

HTTrack создает несколько файлов отслеживания в вашем каталоге проекта:

  • hts-cache/: Содержит кэш загрузки и информацию о прогрессе
  • hts-log.txt: Подробный журнал всей активности загрузки
  • *.ndx файлы: Индексные файлы, отслеживающие, какие URL были обработаны

Это делает HTTrack идеальным для загрузки больших веб-сайтов в течение нескольких сессий, что особенно полезно при работе с ненадежными интернет-соединениями или огромными сайтами, загрузка которых занимает часы.

Важные советы

  • Всегда проверяйте, есть ли у вас разрешение на загрузку веб-сайта
  • Будьте терпеливы с большими веб-сайтами, их загрузка занимает больше времени
  • Убедитесь, что у вас достаточно места на диске вашего компьютера
  • Некоторые веб-сайты могут иметь ограничения, препятствующие полному копированию
  • Если базовая команда не удалась, попробуйте версию для обхода WAF с пользовательскими заголовками
  • Используйте заголовки ответственно и соблюдайте ограничения скорости, чтобы избежать перегрузки серверов
  • Не удаляйте папку hts-cache, если вы планируете возобновить или обновить загрузку позже

Распространенные случаи использования

Люди используют HTTrack для многих целей:

  • Создание резервных копий собственных веб-сайтов
  • Сохранение важной документации для автономного использования
  • Архивирование веб-сайтов, которые могут исчезнуть
  • Создание автономных копий образовательных ресурсов

Помните, что всегда уважайте права владельцев веб-сайтов и условия обслуживания при использовании этого инструмента.

Оставайтесь в курсе

Получайте последние статьи и идеи в свой почтовый ящик.

Unsubscribe anytime. No spam, ever.