Как удалить все метаданные, идентифицировать объекты, встроенные данные, не-pdf/встроенные двоичные файлы, идентификационные данные (идентификаторы), встроенные символы и т. д. в файле PDF?

Я хочу преобразовать PDF только в PDF на основе ТЕКСТА (как Unicode) и ИЗОБРАЖЕНИЯ.

Таким образом, документ в формате pdf должен состоять только из изображений и текста. Я хочу сделать это в среде GNU/Linux, для меня будет лучше, если есть утилита, которую я могу сделать из командной строки.

0
28.06.2020, 01:02
1 ответ

Формат файла PDF представляет собой сложную оболочку с ядром файла PostScript. Если вам нужен правильно -сформированный PDF-файл, чтобы выполнить поиск -и -индексировать его и извлечь данные в удобочитаемом виде, вы можете сделать очень мало, если PDF-файл был создан генератором PDF, который просто упаковывает данные. без оптимизации. В Linux есть инструменты для управления и оптимизации PDF-файлов, но ни один из них не решает всех проблем PDF-файлов. Например, pdftools, pdftk и другие.

1
18.03.2021, 23:23

Теги

Похожие вопросы