wget-k не преобразовывает все ссылки

Если файлы находятся в единственном каталоге, и их имя не содержат пространство, вкладку, новую строку, *, ? ни [ символы и не запускаются с - ни ., это получит список файлов, содержащих ME, затем сузит это к тем, которые также содержат, НАХОДЯТ.

grep -l FIND `grep -l ME *`
4
06.02.2015, 16:01
3 ответа

Это из Wget Manpage, которое, вероятно, объясняет, что вы видите:

-k - Конвертировать-ссылки

после завершения загрузки конвертировать ссылки в документ в сделать их подходящими для местного просмотра. Это влияет не только видимые гиперссылки, но любая часть документа, которая ссылается на Внешний контент, такой как встроенные изображения, ссылки на стильные листы, Гиперссылки к не-HTML-контенту и т. Д.

Каждая ссылка будет изменена одним из двух способов:

  • Ссылки на файлы , которые были загружены Wget изменилось, чтобы обратиться к файлу, который они указывают на относительную ссылку.

Пример: если загруженный файл /foo/doc.html ссылки на /bar/img.gif, Также скачал, затем ссылка в doc.html будет изменена в точку на ../bar/img.gif. Этот вид трансформации надежно работает для произвольные комбинации каталогов.

  • Ссылки на файлы , которые не были загружены Wget , будут изменено, чтобы включить имя хоста и абсолютный путь к тому, что они указать на.

Пример: если загруженный файл /foo/doc.html ссылки на /bar/img.gif (или ... /bar/img.gif), то ссылка в doc.html будет изменена в Укажите на http: //hostname/bar/img.gif .

Без дополнительных деталей трудно быть более точным.

1
27.01.2020, 21:00

Возможно, на сервере есть файл robots.txt. В этом случае поможет опция -e robots=off. (Это помогло мне в аналогичной ситуации)

.
1
27.01.2020, 21:00

Если зеркальный сайт защищен HTTP-аутентификацией, необходимо использовать параметры командной строки для ввода имени пользователя и пароля. Кажется, что-то вроде --http-user=someoneи --http-password=secretработает. Указание учетных данных как части URL-адреса https://someone:secret@somewhere/приводит к неожиданной ситуации, когда загружаются только некоторые файлы, в то время как wget пытается получить другие файлы без аутентификации. Я уверен, что для этого есть закономерность и веская причина, но я не стал исследовать различия между доступными и недоступными ссылками.

0
10.05.2020, 20:41

Теги

Похожие вопросы