Как получить все доступные изображения страницы веб-сайта.
Здесь я получаю весь html-код веб-страницы с помощью curl:
curl http://www.xyztest.com
Как я могу получить список используемых изображений на этой веб-странице?
Я могу показать пример с wget
. Попробуем получить список со всеми изображениями, а затем (при необходимости) скачать все изображения с этого сайта
1) Скачиваем индексную страницу с помощью wget
wget -k https://www.pexels.com/
k
Опция (очень важная) используется для преобразования локальных ссылок в глобальные.
2) Теперь мы будем добывать необходимую информацию. Во-первых, отбрасываем фильтр grep img
, чтобы получить только строки с тегом . Второй grep использует regexp для получения адресов ссылок.
sed
вырезает аргументы в ссылках после символа ?
. Наконец, сохраните наши ссылки в файл links.txt
cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt
3) Теперь мы можем легко загрузить все изображения с помощью
wget -i links.txt
Вы можете загрузить и обработать ссылки с помощью одного набора труб, используя curl
вместо этого, как запрошено:
curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt