Используя Wget, я не могу загрузить весь веб-сайт

awk '
    {samples[$1] = samples[$1] OFS $NF} 
    END {
        # print the header first
        print "Geneid", samples["Geneid"] 
        delete samples["Geneid"]
        # and then the rest of the data
        for (geneid in samples) print geneid, samples[geneid]
    }
' Tab*

Направьте вывод в | column -t, если вы хотите выровнять столбцы

0
09.01.2021, 23:17
2 ответа

Ребят, сегодня разобрался, проблема была не в варианте рекурсии или продолжения, а в ответе 301 назад. Я до сих пор не понимаю, почему это следует в первый раз, но теперь все работает хорошо. Я могу остановить задание и возобновить его, и после проверки каждого файла wget загрузит что-то новое или продолжит загрузку ранее. Как всегда бывает, у кого-то была такая же проблема, и это ссылкаhttps://lists.gnu.org/archive/html/bug-wget/2019-11/msg00036.html

Если кому-то может помочь, я сейчас использую команду wget -r --зеркало -N -l инф --нет -родитель -R --доверие -сервер -имена --содержимое -расположение --продолжить --домены сайт https ://сайт

Как вы можете видеть и читать в прошлом вопросе, опция, позволяющая следовать перенаправлению, — --доверять -именам серверов -. Затем я объединил с --содержание -расположение, и все работает нормально.

Спасибо всем за помощь

0
18.03.2021, 22:37

Вам нужна опция --timestamping(-N, сокращенно ), которая извлекает только файлы более новые, чем существующие.

Для справки, я иногда использовал команду:

wget -c -N -mirror -pc --convert-links -P./mirror $SITE_URL
0
18.03.2021, 22:37

Теги

Похожие вопросы