ocr - лучшие вопросы о Unix / linux операционная система (юникс)

OCR (Оптическое распознавание символов) является преобразованием изображения символов в машиночитаемый закодированный текст. Используйте этот тег для указания на вопросы, включающие этот тип преобразования или программного обеспечения, которое выполняет OCR. Когда возможно укажите на источник и цель преобразования.

Инструменты использовали для OCR:

tesseract
pdfsandwich
gocr
ocrad
ocrfeeder
ocropus
клинообразный знак
clara
Linux-Intelligent-Ocr-Solution

ответа

Как использовать OCR из командной строки в Linux?

У меня несколько тысяч страниц отсканированных книжных страниц. Каждая страница сохраняется отдельно в формате JPG. Написание четкое, но шрифты различаются, а на страницах есть изображения и иллюстрации. Мне нужно ...

command-line ocr

10.07.2017

ответа

Tesseract: Высокая загрузка ЦП и низкая скорость, только при параллельном запуске нескольких процессов

Проблема pytesseract.image_to_string() занимает слишком много времени, когда я запускаю скрипт через supervisordd, но выполняется почти мгновенно при запуске непосредственно в оболочке (на том же сервере и ...

ocr tesseract

09.08.2019

ответа

Как я могу обновить этот поиск этого рекурсивного файла каталога для выходов ввода и имени, чтобы обрабатывать случай ниже

Я обновляю скрипт, который рекурсивно проходит через каталог и OCRS PDF и обновляет PDF. В его простой версии он работает. ocrmypdf -l vie --deskew --clean --force-ocr --sidecar ...

find alias ocr

16.12.2018

ответа

Как я могу растеризировать весь текст в PDF?

Вы знаете, когда у Вас есть PDF, который является сканированием документа, и это - действительно огромный файл, потому что это просто хранит изображение отсканированного документа? И существуют инструменты OCR, которые могут помочь Вам к...

linux pdf pdftk ocr

26.04.2015

ответа

Создайте пользовательский список слов

Я хочу создать пользовательский список (научных) слов в целях как проверка правописания и OCR на основе моего набора научных бумаг в формате PDF. Используя pdftotext я могу легко создать текстовый файл...

spell-checking ocr linux

18.05.2013

ответ

Поиск PDF-файлов без текста

У меня есть много папок с большим количеством PDF-файлов, и я хочу, чтобы оптическое распознавание символов происходило в тех, у которых нет текстового слоя. Итак, сначала я хочу найти их. Я подумал, что может и пайп с pdfgrep подойдет...

find ocr pdf

15.01.2021

ответ

методы сжатия PDF

Проблема У меня много старых книг, которые я хочу отсканировать и оцифровать. Для этого я использую планшетный сканер, xsane и GImageReader, который отлично работает. Еще несколько лет назад, когда я еще пользовался...

ghostscript ocr pdf pdftk

03.01.2021

ответ

Удалить OCR из PDF

У меня есть PDF-файл, содержащий поврежденный OCR. Это набор рукописных страниц с множеством символов и аббревиатур, и я получил этот файл с автоматически сгенерированным OCR. Как я могу удалить ...

ocr pdf

12.06.2017

ответ

Где я могу получить двоичные файлы Tesseract для Debian 6 64 бита?

Я использовал склонный - добираются для установки Tesseract, но он действительно не работает. Возможно, я мог просто загрузить двоичные файлы где-нибудь, вставить dir и использовать этот путь? Что случилось с моим Tesseract теперь: tesseract - справка...

debian ocr tesseract

28.08.2016

ответ

Запись в изображение, которое является отсканированным документом

У меня есть просканированный контракт, и я должен изменить только несколько имен и дат в контракте. Легко отсканировать документ, но невозможный к ocr документ и открытый в *.doc формате. Есть ли...

ocr image-manipulation image-editor text-processing

19.04.2011

ответов

Как найти слово на картинке и поставить другое слово в нужное место?

Я специалист по информационным технологиям, но много работаю финансовым клерком! Я должен поставить центры затрат в счетах (отдела ИТ) - вручную! Может быть, в Linux есть технология или решение для автоматизации ...

linux ocr open-source pdf

29.05.2020