Поиск PDF-файлов без текста

Вы скомпилировали его с включенной оптимизацией, и компилятор удалил ваши циклы , clang преобразует всю вашу программу в:

int main() {
  while(1);
}

4
15.01.2021, 09:08
1 ответ

Да, использование pdfgrepзвучит как хорошая идея. Что-то вроде:

find. -name '*.[Pp][Dd][Ff]' -type f \
  ! -exec pdfgrep -q '\w' {} ';' -print

Сообщит список pdf-файлов, в которых pdfgrepне может найти ни одного символа слова (alnums или символа подчеркивания ).

(с некоторыми реализациями find, вы можете использовать -iname '*.pdf'вместо -name '*.[Pp][Dd][Ff]'выше. Остерегайтесь, это предполагает, что имена файлов являются допустимым текстом в текущей локали)

Для поиска файлов, содержащих менее 1000 словесных символов:

find. -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
  for file do
    [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
      printf "%s\n" "$file"
  done' sh {} +
6
18.03.2021, 22:36

Теги

Похожие вопросы