Как правило, старые программы имеют больше известных ошибок, и их риск можно оценить. Обычно избранные исправления переносятся в стабильные версии программ. Более новые релизы имеют больше неизвестных ошибок, и их риск не так легко оценить.
Я не могу много сказать, не видя этот PDF, но некоторые основы:
PDF-файл содержит объекты, а некоторые объекты содержат потоки упрощенного варианта Postscript, который размещает глифы на странице. (Вы можете увидеть объекты, открыв PDF-файл в текстовом редакторе и распаковав потоки, например. с помощью mutool
вы также можете просматривать потоки в текстовом редакторе ).
Очень сложно преобразовать это обратно в исходный текст. (Я предполагаю, что это то, что вы имеете в виду под «машиночитаемым» ), потому что любая такая попытка должна делать предположения о том, как работает приложение рендеринга.Если приложение рендеринга просто размещает глифы в том порядке, в котором они находятся в исходном тексте, вы можете попробовать переназначить глифы на символы и просто вывести символы в этом порядке.
Если программа рендеринга сделала что-то более сложное, например, из-за того, что у вас два языка с разными направлениями чтения, такие попытки не увенчаются успехом.
Поэтому, если вам это действительно нужно, вам придется внимательно изучить, как работает ваш PDF-файл, и написать специальную программу для преобразования его обратно в текст.