wget - как отклонить строку при загрузке html-страниц

Я бы не стал использовать grep для этого, но с awk:

$ a="11111  1  11  1111111    1 1  1  1 1 1 1  111 1  1 1  1  11 11111111   1    11 1 11 11  1 11111   1 1"

$ awk '{for (i=1;i<=NF;i++) ++seen[$i]}END{for (k in seen) print k,"found:"seen[k]}' <<<"$a"
1 found:17
11 found:5
111 found:1
11111 found:2
1111111 found:1
11111111 found:1

Эта однострочная демонстрация должна работать со всем вашим файлом (замените <<<"$a" на yourfile )

1
20.06.2016, 04:27
2 ответа

Попробуйте использовать переключатель --reject-regex в wget. Вероятно, вы могли бы сделать что-то вроде:

wget --recursive --no-parent --reject-regex '[^?]' url
1
28.01.2020, 01:15

Что бы я сделал, прагматичный подход впереди:

wget....
rename 's/\.html\?.*/.html/' *.html*

Это команда переименования Perl

0
21.07.2020, 21:46

Теги

Похожие вопросы