Как извлечь все ссылки из заданного URL-адреса за приличное время

Я пытаюсь извлечь ссылки из указанного URL и перенаправить их в файл.

Сначала я попробовал использовать - spider , это мой код:

wget --spider --force-html -m http://file/path 2>&1 | grep '^--' | awk '{ print $3 }'| grep -v '\.\(css\|js\|png\|gif\|jpg\|ico\|txt\)$'| sort | uniq > links.txt

Он отлично работает, если я передаю URL-адрес, в котором не слишком много веб-страниц, но с учетом гораздо более сложного URL-адреса. застревает на несколько действительно хороших минут.

Я провел небольшое исследование, я попытался найти способ каким-либо образом распечатать обработанный вывод до того, как сам процесс будет уничтожен, используя timeout -s KILL 30 , но не смог найти ни одного.

Я спрашиваю вас, есть ли способ получить ссылки в нужное время? или хотя бы распечатать результат, который он получил, прежде чем прервать процесс?

Спасибо.

0
22.12.2015, 14:37
0 ответов

Теги

Похожие вопросы