Код / инструмент для извлечения метаданных из вредоносных PDF-файлов

Задача может быть выполнена одним awk :

awk -F'|' 'FNR==NR{host[$2]=$3;next}{$3=host[$2] $3}1' OFS='|' file2 file1
0
02.03.2018, 12:05
1 ответ

Самый простой способ проверить поврежденные PDF-файлы — просто открыть их в редакторе, который может работать с большими файлами. (Я использую emacs ). Сначала попробуйте это с хорошим PDF-файлом. Вы увидите объектную структуру файла PDF, но некоторые или все потоки контента будут сжаты. Таким образом вы также сможете увидеть, что делает «вредоносный» PDF-файл, чтобы сбить с толку ваш синтаксический анализатор, и вы сможете соответствующим образом исправить синтаксический анализатор. (Не зная, что делает «вредоносный» PDF-файл, мы, очевидно, не сможем сделать это за вас ).

Вы также можете использовать mutool clean -dдля распаковки потоков, но mutoolможет или не может быть сбита с толку тем, что делает ваш сломанный PDF. Опять же, попробуйте это сначала на действительном PDF.

0
28.01.2020, 04:30

Теги

Похожие вопросы