Назад к блогу

Как создать резервную копию всего веб-сайта одной командой с помощью HTTrack

2025-02-133 минуты чтения

Вы когда-нибудь хотели сохранить весь веб-сайт для просмотра в автономном режиме? Возможно, вам нужно сохранить важную документацию, создать резервную копию собственного веб-сайта или сохранить образовательный контент для доступа в автономном режиме. HTTrack — это бесплатный инструмент, который делает это невероятно простым, и я покажу вам, как это сделать всего одной командой.

Что такое HTTrack?

HTTrack — это как машина времени для веб-сайтов. Он создает точную копию веб-сайта, которую вы можете просматривать в автономном режиме на своем компьютере. Представьте, что вы делаете снимок веб-сайта, к которому можете получить доступ в любое время, даже без подключения к Интернету.

Единственная команда, которая вам нужна

Вот волшебная команда, которая загрузит весь веб-сайт:

httrack "https://website-to-copy.com" -O "./website_backup" -%v

Давайте разберем, что это означает простыми словами:

  • httrack: Это запускает программу
  • "https://website-to-copy.com": Замените это веб-сайтом, который вы хотите сохранить в резервную копию
  • -O "./website_backup": Это создает новую папку под названием 'website_backup', где будут сохранены все файлы
  • -%v: Это показывает вам прогресс во время работы

Как начать

Шаг 1: Установите HTTrack

Прежде чем использовать команду, вам нужно будет установить HTTrack. Он бесплатный и доступен для Windows, Mac и Linux:

  • Windows: Загрузите установщик с официального сайта HTTrack
  • Mac: Используйте Homebrew и введите: brew install httrack
  • Linux: Используйте ваш менеджер пакетов: sudo apt-get install httrack (Ubuntu/Debian)

Шаг 2: Выполните команду

Откройте терминал или командную строку, перейдите в каталог, где вы хотите сохранить веб-сайт, и выполните приведенную выше команду (заменив пример URL на ваш целевой веб-сайт).

Что произойдет дальше?

HTTrack начнет загрузку веб-сайта. В зависимости от размера веб-сайта это может занять от нескольких минут до нескольких часов. Вы увидите индикатор прогресса, показывающий:

  • Сколько файлов было загружено
  • Текущая скорость загрузки
  • Оставшееся расчетное время

Доступ к вашему автономному веб-сайту

После завершения загрузки вы найдете новую папку с именем 'website_backup' (или любым другим именем, которое вы выбрали). Внутри найдите 'index.html' и откройте его в своем веб-браузере. Теперь вы можете просматривать весь веб-сайт так же, как и онлайн!

Работа с защищенными веб-сайтами (обход WAF)

Некоторые веб-сайты используют межсетевые экраны веб-приложений (WAF), которые блокируют автоматизированные сканеры, такие как HTTrack. Если вы столкнулись с ошибками отказа в доступе или загрузка не удалась, вы можете использовать пользовательские заголовки, чтобы HTTrack выглядел более похожим на обычный браузер.

Что такое заголовки? Заголовки — это фрагменты информации, которые ваш браузер отправляет веб-сайтам с каждым запросом, подобно удостоверению личности, которое говорит: «Я Firefox на Mac, я говорю по-русски и могу обрабатывать HTML-файлы». WAF проверяют их, чтобы обнаруживать ботов.

httrack "https://website-to-copy.com" \
-O "./website_backup" \
-H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" \
-H "Accept-Language: ru-RU,ru;q=0.5" \
-H "Accept-Encoding: gzip, deflate, br, zstd" \
-H "Update-Insecure-Requests: 1" \
-H "DNT: 1" \
-H "Sec-Fetch-Dest: document" \
-H "Sec-Fetch-Mode: navigate" \
-H "Sec-Fetch-Site: none" \
-H "Sec-Fetch-User: ?1" \
-H "Sec-GPC: 1" \
--user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:142.0) Gecko/20100101 Firefox/142.0" \
-%v

Вот что делает каждый заголовок:

  • Accept: Сообщает серверу, какие типы файлов может обрабатывать браузер (HTML, XML и т. д.)
  • Accept-Language: Указывает предпочтительные языки (в данном случае русский)
  • Accept-Encoding: Показывает, какие методы сжатия поддерживает браузер
  • Update-Insecure-Requests: Сигнализирует браузеру, что он предпочитает HTTPS вместо HTTP
  • DNT: Настройка конфиденциальности «Не отслеживать»
  • Sec-Fetch-Dest: Указывает назначение запроса (в данном случае документ)
  • Sec-Fetch-Mode: Показывает режим запроса (навигация для перехода по страницам)
  • Sec-Fetch-Site: Указывает взаимосвязь между источником запроса и назначением
  • Sec-Fetch-User: Показывает, был ли запрос инициирован действием пользователя
  • Sec-GPC: Сигнал Global Privacy Control
  • User-agent: Идентифицирует браузер как Firefox для веб-сайта

Эти заголовки заставляют HTTrack выглядеть как обычный браузер Firefox, а не как автоматизированный сканер, помогая обойти базовые системы обнаружения ботов.

Важные советы

  • Всегда проверяйте, есть ли у вас разрешение на загрузку веб-сайта
  • Будьте терпеливы с большими веб-сайтами, их загрузка занимает больше времени
  • Убедитесь, что на вашем компьютере достаточно места для хранения
  • Некоторые веб-сайты могут иметь ограничения, препятствующие полному копированию
  • Если базовая команда не работает, попробуйте версию с обходом WAF и пользовательскими заголовками
  • Используйте заголовки ответственно и соблюдайте ограничения скорости, чтобы не перегружать серверы

Распространенные случаи использования

Люди используют HTTrack для многих целей:

  • Создание резервных копий собственных веб-сайтов
  • Сохранение важной документации для автономного использования
  • Архивирование веб-сайтов, которые могут исчезнуть
  • Создание автономных копий образовательных ресурсов

Помните, что всегда следует уважать права владельцев веб-сайтов и условия обслуживания при использовании этого инструмента.