wget - паук: как сказать, куда неработающие ссылки прибывают из

Не уверенный в полностью свободной форме, но можно испытать PySol

PySol является захватывающим набором больше чем 200 карточных игр пасьянса. Его функции включают поддержку большого количества отличных игр, очень хорошего стиля, нескольких cardsets и мозаик таблицы, звуковой и фоновой музыки, неограниченной отмены и восстановления, загружают и сохраняют игры, файлы статистики плеера и файлы журнала, систему подсказки, демонстрационные игры, поддержка написанных пользователем плагинов, интегрировали браузер справки HTML и много документации.

Среди поддерживаемых игр классика как Тузы, Игра Пекаря, Кэнфилд, FreeCell, Сорок Воров, Гольф, Клондайк, Пирамида, Скорпион, Паук, Юкон, и многое другое...

7
29.06.2012, 19:49
2 ответа

Необходимо смочь наблюдать журналы веб-сервера, в сочетании с выполненным wget. Ищите 404в файле журнала и получении по запросу referrer поле. Это скажет Вам страницу, которая содержит неработающую ссылку.

Это должен затем просто быть вопрос исследования той страницы для предлагаемого канала.

3
27.01.2020, 20:18
  • 1
    Хорошая идея. Я забыл, что спросил это относительно здесь на самом деле! То, что я закончил тем, что делал, использовало его в сочетании с grep на моей локальной копии сайта (особенно использующий-n опцию получить номера строки). –   10.07.2012, 22:52
  • 2
    Это хорошо для разорванных внутренних связей, но не для ссылок на внешние сайты. –  Screenack 10.01.2018, 22:15

Хороший способ (не связанный с логами веб-сервера) - использовать флаг --debug и grep для ^Referer:

В командной строке:

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

Вы можете сделать аналогичный grepping в вашем логе. Предупреждение: некоторые wget не компилируются с поддержкой --debug

3
27.01.2020, 20:18

Теги

Похожие вопросы