Я хочу преобразовать PDF только в PDF на основе ТЕКСТА (как Unicode) и ИЗОБРАЖЕНИЯ.
Таким образом, документ в формате pdf должен состоять только из изображений и текста. Я хочу сделать это в среде GNU/Linux, для меня будет лучше, если есть утилита, которую я могу сделать из командной строки.
Формат файла PDF представляет собой сложную оболочку с ядром файла PostScript. Если вам нужен правильно -сформированный PDF-файл, чтобы выполнить поиск -и -индексировать его и извлечь данные в удобочитаемом виде, вы можете сделать очень мало, если PDF-файл был создан генератором PDF, который просто упаковывает данные. без оптимизации. В Linux есть инструменты для управления и оптимизации PDF-файлов, но ни один из них не решает всех проблем PDF-файлов. Например, pdftools, pdftk и другие.