QPDF оказывает потоки в виде гибберов

Как правило, старые программы имеют больше известных ошибок, и их риск можно оценить. Обычно избранные исправления переносятся в стабильные версии программ. Более новые релизы имеют больше неизвестных ошибок, и их риск не так легко оценить.

1
16.09.2018, 19:07
1 ответ

Я не могу много сказать, не видя этот PDF, но некоторые основы:

PDF-файл содержит объекты, а некоторые объекты содержат потоки упрощенного варианта Postscript, который размещает глифы на странице. (Вы можете увидеть объекты, открыв PDF-файл в текстовом редакторе и распаковав потоки, например. с помощью mutoolвы также можете просматривать потоки в текстовом редакторе ).

Очень сложно преобразовать это обратно в исходный текст. (Я предполагаю, что это то, что вы имеете в виду под «машиночитаемым» ), потому что любая такая попытка должна делать предположения о том, как работает приложение рендеринга.Если приложение рендеринга просто размещает глифы в том порядке, в котором они находятся в исходном тексте, вы можете попробовать переназначить глифы на символы и просто вывести символы в этом порядке.

Если программа рендеринга сделала что-то более сложное, например, из-за того, что у вас два языка с разными направлениями чтения, такие попытки не увенчаются успехом.

Поэтому, если вам это действительно нужно, вам придется внимательно изучить, как работает ваш PDF-файл, и написать специальную программу для преобразования его обратно в текст.

0
28.01.2020, 00:29

Теги

Похожие вопросы