Как распознать PDF-файл и получить текст, хранящийся в нем?

Question

Как распознать PDF-файл и получить текст, хранящийся в нем?

Согласно вики vim , вы можете сделать это с помощью Ctrl + ^ , однако в моей системе он не работает, он будет только переключаться между файлами. Вы можете открыть новый проводник с помощью : Explore или : e.

26

ingli 23.01.2020, 14:22

Ссылка

2 ответа

Похожие вопросы

jdpipe · Answer 1 · 27.01.2020, 19:40

В Ubuntu доступен простой инструмент ocrfeeder, который позволяет создавать PDF-файлы с текстом OCR, наложенным на исходные документы. Он использует Tesseract плюс другие механизмы OCR (, не уверен, какие ), а также обеспечивает вращение изображения/«небумагу» и т. д., а также.

Gabriel Staples · Answer 2 · 27.01.2020, 19:40

У меня была такая же проблема, поэтому я написал об этом на выходных. Дать ему шанс; это отлично работает! Это простая оболочка вокруг tesseract. Он использует pdftoppmдля преобразования PDF в набор файлов TIFF, затем он использует tesseractдля выполнения OCR (оптического распознавания символов )на них и создания PDF с возможностью поиска в качестве вывода. Все промежуточные временные файлы автоматически удаляются после завершения скрипта.

Исходный код:https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Инструкции по установке и использованию`pdf2searchablepdf`:

Протестировано на Ubuntu 18.04 11 ноября 2019 г. и на Ubuntu 20.04 ноября 2020 г.

Установить:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

Используйте:

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

Теперь у вас есть PDF-файл с именем mypdf _searchable.pdf , который содержит текст с возможностью поиска!

Готово. У него нет зависимостей от Python, так как в настоящее время он полностью написан на bash.

См. pdf2searchablepdf -hдля получения информации о меню справки и дополнительных параметрах и примерах.

Ссылки или связанные ресурсы:

PDF2SearchablePDF:https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
pdfsandwich:Альтернативная программная оболочка, которую я только что обнаружил, которую тоже стоит проверить!http://www.tobias-elze.de/pdfsandwich/

Как распознать PDF-файл и получить текст, хранящийся в нем?

Инструкции по установке и использованиюpdf2searchablepdf:

Установить:

Используйте:

Ссылки или связанные ресурсы:

Теги

Похожие вопросы

Инструкции по установке и использованию`pdf2searchablepdf`: