как получить список используемых изображений на странице веб-сайта с помощью curl

Как получить все доступные изображения страницы веб-сайта.

Здесь я получаю весь html-код веб-страницы с помощью curl:

curl http://www.xyztest.com

Как я могу получить список используемых изображений на этой веб-странице?

0
21.03.2017, 09:58
1 ответ

Я могу показать пример с wget. Попробуем получить список со всеми изображениями, а затем (при необходимости) скачать все изображения с этого сайта

1) Скачиваем индексную страницу с помощью wget

wget -k https://www.pexels.com/

k Опция (очень важная) используется для преобразования локальных ссылок в глобальные.

2) Теперь мы будем добывать необходимую информацию. Во-первых, отбрасываем фильтр grep img, чтобы получить только строки с тегом . Второй grep использует regexp для получения адресов ссылок. sed вырезает аргументы в ссылках после символа ?. Наконец, сохраните наши ссылки в файл links.txt

cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt

3) Теперь мы можем легко загрузить все изображения с помощью

wget -i links.txt

Вы можете загрузить и обработать ссылки с помощью одного набора труб, используя curl вместо этого, как запрошено:

curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt
1
28.01.2020, 02:46

Теги

Похожие вопросы