Согласно вики vim , вы можете сделать это с помощью Ctrl + ^ , однако в моей системе он не работает, он будет только переключаться между файлами. Вы можете открыть новый проводник с помощью : Explore
или : e.
В Ubuntu доступен простой инструмент ocrfeeder, который позволяет создавать PDF-файлы с текстом OCR, наложенным на исходные документы. Он использует Tesseract плюс другие механизмы OCR (, не уверен, какие ), а также обеспечивает вращение изображения/«небумагу» и т. д., а также.
У меня была такая же проблема, поэтому я написал об этом на выходных. Дать ему шанс; это отлично работает! Это простая оболочка вокруг tesseract
. Он использует pdftoppm
для преобразования PDF в набор файлов TIFF, затем он использует tesseract
для выполнения OCR (оптического распознавания символов )на них и создания PDF с возможностью поиска в качестве вывода. Все промежуточные временные файлы автоматически удаляются после завершения скрипта.
Исходный код:https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
pdf2searchablepdf
:Протестировано на Ubuntu 18.04 11 ноября 2019 г. и на Ubuntu 20.04 ноября 2020 г.
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
sudo apt update
sudo apt install tesseract-ocr
# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]
# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf
# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs
Теперь у вас есть PDF-файл с именем mypdf _searchable.pdf , который содержит текст с возможностью поиска!
Готово. У него нет зависимостей от Python, так как в настоящее время он полностью написан на bash.
См. pdf2searchablepdf -h
для получения информации о меню справки и дополнительных параметрах и примерах.