Действительно ли возможно добавить своего рода рычаг к wget, чтобы предварительно обработать возвращенный HTML?

locate abcde | egrep "(dirA|dirB|dirC)" 

для набора каталогов dirA, dirB, dirC.

Или 3 находить-команды.

0
11.11.2011, 05:06
1 ответ

Ваш вопрос не очень ясен. То, что я понимаю, то, что:

  • Вы получаете веб-страницы рекурсивно;
  • Ваши страницы содержат внутренние ссылки;
  • переходить по этим ссылкам приводит к несуществующей странице, и требуется переписать каждую ссылку для добавления дополнительного параметра к Запросу HTTP.

Я не думаю, что можно сделать это с wget. Я предлагаю использовать LWP вместо этого. Это идет с названным сценарием lwp-rget это выполняет рекурсивные извлечения. Существует строка

my $req = HTTP::Request->new(GET => $url);

Незадолго до этой строки добавьте некоторый код для искажения URL как соответствующего, что-то как

$url->query_form($url->query_form, "show_preview" => "yes");
1
28.01.2020, 02:53

Теги

Похожие вопросы