Как получить все пути с веб-сайта с помощью cURL

GParted не учитывает список плохих блоков ext2/3/4; Я проверил это, создав файловую систему ext4 с принудительно поврежденным блоком, а затем переместив ее с помощью GParted. Выполнение dumpe2fs -bна перемещенном разделе показывает плохой блок с тем же смещением.

Результат равен 2, поэтому сбойный блок, игнорируемый файловой системой, больше не соответствует реальному сбойному блоку на носителе. Это означает, что файловая система игнорирует блок, который она могла бы безопасно использовать, и может использовать плохой блок, которого следует избегать.

На каком-то уровне это имеет смысл. Когда GParted (или любой другой инструмент)перемещает раздел, он не использует специальный инструмент файловой системы -, он перемещает контейнер. В целом это работает, потому что данные файловой системы относятся к своему контейнеру; обычно структуры данных файловой системы не нуждаются в обновлении в результате перемещения. Однако списки плохих блоков описывают функции, которые не перемещаются вместе со своим контейнером... Сделать так, чтобы GParted обрабатывал это, было бы довольно сложно :мало того, что он должен был бы обновить сам список плохих блоков, он также должен был бы переместить данные из таким образом, чтобы новая позиция сбойного блока в перемещенной файловой системе не использовалась.

3
06.12.2020, 12:45
3 ответа

Вот что я придумал:

 curl https://www.inlanefreight.com/ | grep -Po 'https://www.inlanefreight.com/\K[^"\x27]+' | sort -u  | wc -l

Я не знаю, предназначено ли это для решения с помощью жестких регулярных выражений.

2
18.03.2021, 22:45

TL;DR; :Вы не можете.

со страницы руководства wget:

“ -p Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения данной HTML-страницы. Сюда входят такие вещи, как встроенные изображения, звуки и таблицы стилей, на которые ссылаются».

это особенность wget. curl— это программное обеспечение/библиотека для выполнения одиночных http -команд (упрощенных ). wgetимеет некоторые функции, такие как загрузка целых веб-сайтов и прочее, что требует интерпретации контента. Хотя это работало во времена Web 1.0, эта функция уже не очень полезна, потому что веб-сайты загружают дополнительные файлы через javascript, который даже не интерпретируется wget. Веб-сайтhttps://www.inlanefreight.com— это сайт wordpress -с темой из https://themeansar.com/, поэтому вы можете купить его там, интерпретировать, написать сценарий и надеяться, что вы сделали это правильно.

Но ладно,https://www.inlanefreight.comимеет 6 страниц и один pdf; вы можете посчитать это быстрее, щелкнув, чем мне нужно было понять, что это WordPress.

0
18.03.2021, 22:45

Я использовал этот метод, и он как-то сработал

$ wget --spider --recursive https://www.inlanefreight.com

это покажет-

Found 10 broken links.

https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.svg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/testimonial-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/css/grabbing.png
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff2
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/subscriber-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot?
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/fun-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.ttf

FINISHED --2020-12-06 05:34:58--
Total wall clock time: 2.5s
Downloaded: 23 files, 794K in 0.1s (5.36 MB/s)

-внизу. Теперь, предполагая, что 23 загрузки и 10 неработающих ссылок составляют уникальный путь, я получил 33, и это был правильный ответ.

3
18.03.2021, 22:45

Теги

Похожие вопросы