Как распознать PDF-файл и получить текст, хранящийся в нем?

Согласно вики vim , вы можете сделать это с помощью Ctrl + ^ , однако в моей системе он не работает, он будет только переключаться между файлами. Вы можете открыть новый проводник с помощью : Explore или : e.

26
23.01.2020, 14:22
2 ответа

В Ubuntu доступен простой инструмент ocrfeeder, который позволяет создавать PDF-файлы с текстом OCR, наложенным на исходные документы. Он использует Tesseract плюс другие механизмы OCR (, не уверен, какие ), а также обеспечивает вращение изображения/«небумагу» и т. д., а также.

7
27.01.2020, 19:40

У меня была такая же проблема, поэтому я написал об этом на выходных. Дать ему шанс; это отлично работает! Это простая оболочка вокруг tesseract. Он использует pdftoppmдля преобразования PDF в набор файлов TIFF, затем он использует tesseractдля выполнения OCR (оптического распознавания символов )на них и создания PDF с возможностью поиска в качестве вывода. Все промежуточные временные файлы автоматически удаляются после завершения скрипта.

Исходный код:https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Инструкции по установке и использованиюpdf2searchablepdf:

Протестировано на Ubuntu 18.04 11 ноября 2019 г. и на Ubuntu 20.04 ноября 2020 г.

Установить:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

Используйте:

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

Теперь у вас есть PDF-файл с именем mypdf _searchable.pdf , который содержит текст с возможностью поиска!

Готово. У него нет зависимостей от Python, так как в настоящее время он полностью написан на bash.

См. pdf2searchablepdf -hдля получения информации о меню справки и дополнительных параметрах и примерах.

Ссылки или связанные ресурсы:

  1. PDF2SearchablePDF:https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
  4. https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich:Альтернативная программная оболочка, которую я только что обнаружил, которую тоже стоит проверить!http://www.tobias-elze.de/pdfsandwich/
6
27.01.2020, 19:40

Теги

Похожие вопросы