как сохранить содержание веб-страницы в файле с помощью сценария оболочки

find | perl -ne 'print if(m!^\./(\d+)! and $1 > 126 and $1 <363)'

... возможно, добавив некоторые хорошие идеи, представленные в других ответах.

Регекс может потребовать некоторой настройки (например: ^\./(\d+)\w*.po$).

0
27.02.2015, 11:14
2 ответа

Другая опция для простых веб-страниц - 'lynx', которая имеет опцию -dump. Она сохраняет в файл "читаемый" вид содержимого веб-страниц. lynx сейчас немного старый и волосатый и не поддерживает ни javascript, ни фреймы. Но если вы пытаетесь удалить "читаемое человеком" содержимое с плоской низко/неинтерактивной веб-страницы, то работать с ней немного проще, чем со скручиванием.

Большинство дистрибутивов Linux имеют lynx в качестве дополнительного пакета, так что вам, вероятно, придется установить его с помощью менеджера пакетов версий.

0
28.01.2020, 02:51

Вам необходимо quote URL, в противном случае знаки & будут интерпретировать как разделители команд. Тем не менее, вы можете либо перенаправить вывод Curl в файл ( Curl [...]> index.html ) или использовать wget , который сохраняет Файл по умолчанию.

1
28.01.2020, 02:51

Теги

Похожие вопросы