Установите imagemagick
, pdftotext
(, найденные в пакете с именем poppler-utils
в некоторых менеджерах пакетов )и ocrmypdf . Последнее — это быстрое (распознавание, которое потребляет много ресурсов процессора и настроено на использование всех ваших ядер ), с открытым -исходным кодом и часто обновляемым программным обеспечением для распознавания текста. Этот подход, возможно, является излишним, поскольку он фактически пытается назначить строку каждому слову, а не просто пометить слово, но у меня было много проблем с поиском хорошего и простого в использовании программного обеспечения OCR с открытым исходным кодом в целом. Затем в каталоге, где вы сохранили все свои файлы JPG:
$ convert *.jpg pictures.pdf
$ ocrmypdf pictures.pdf scanned.pdf
$ pdftotext scanned.pdf scanned.txt
$ wc -w scanned.txt
Ndis лучше всего работает с драйверами XP (, на самом деле он был разработан в соответствии с XP ), и чтобы заставить его работать, вам нужно внести "черный список" драйверов Linux, чтобы избежать путаницы.
Этот файл предназначен для настройки параметров. Вы можете ввести «options» и сказать, отключите энергосбережение, чтобы избежать разрывов соединения или около того.