OCR (Оптическое распознавание символов) является преобразованием изображения символов в машиночитаемый закодированный текст. Используйте этот тег для указания на вопросы, включающие этот тип преобразования или программного обеспечения, которое выполняет OCR. Когда возможно укажите на источник и цель преобразования.

Инструменты использовали для OCR:

  • tesseract
  • pdfsandwich
  • gocr
  • ocrad
  • ocrfeeder
  • ocropus
  • клинообразный знак
  • clara
  • Linux-Intelligent-Ocr-Solution
4
ответа

Как использовать OCR из командной строки в Linux?

У меня несколько тысяч страниц отсканированных книжных страниц. Каждая страница сохраняется отдельно в формате JPG. Написание четкое, но шрифты различаются, а на страницах есть изображения и иллюстрации. Мне нужно ...
10.07.2017
2
ответа

Tesseract: Высокая загрузка ЦП и низкая скорость, только при параллельном запуске нескольких процессов

Проблема pytesseract.image_to_string() занимает слишком много времени, когда я запускаю скрипт через supervisordd, но выполняется почти мгновенно при запуске непосредственно в оболочке (на том же сервере и ...
09.08.2019
2
ответа

Как я могу обновить этот поиск этого рекурсивного файла каталога для выходов ввода и имени, чтобы обрабатывать случай ниже

Я обновляю скрипт, который рекурсивно проходит через каталог и OCRS PDF и обновляет PDF. В его простой версии он работает. ocrmypdf -l vie --deskew --clean --force-ocr --sidecar ...
16.12.2018
2
ответа

Как я могу растеризировать весь текст в PDF?

Вы знаете, когда у Вас есть PDF, который является сканированием документа, и это - действительно огромный файл, потому что это просто хранит изображение отсканированного документа? И существуют инструменты OCR, которые могут помочь Вам к...
26.04.2015
2
ответа

Создайте пользовательский список слов

Я хочу создать пользовательский список (научных) слов в целях как проверка правописания и OCR на основе моего набора научных бумаг в формате PDF. Используя pdftotext я могу легко создать текстовый файл...
18.05.2013
1
ответ

Поиск PDF-файлов без текста

У меня есть много папок с большим количеством PDF-файлов, и я хочу, чтобы оптическое распознавание символов происходило в тех, у которых нет текстового слоя. Итак, сначала я хочу найти их. Я подумал, что может и пайп с pdfgrep подойдет...
15.01.2021
1
ответ

методы сжатия PDF

Проблема У меня много старых книг, которые я хочу отсканировать и оцифровать. Для этого я использую планшетный сканер, xsane и GImageReader, который отлично работает. Еще несколько лет назад, когда я еще пользовался...
03.01.2021
1
ответ

Удалить OCR из PDF

У меня есть PDF-файл, содержащий поврежденный OCR. Это набор рукописных страниц с множеством символов и аббревиатур, и я получил этот файл с автоматически сгенерированным OCR. Как я могу удалить ...
12.06.2017
1
ответ

Где я могу получить двоичные файлы Tesseract для Debian 6 64 бита?

Я использовал склонный - добираются для установки Tesseract, но он действительно не работает. Возможно, я мог просто загрузить двоичные файлы где-нибудь, вставить dir и использовать этот путь? Что случилось с моим Tesseract теперь: tesseract - справка...
28.08.2016
1
ответ

Запись в изображение, которое является отсканированным документом

У меня есть просканированный контракт, и я должен изменить только несколько имен и дат в контракте. Легко отсканировать документ, но невозможный к ocr документ и открытый в *.doc формате. Есть ли...
19.04.2011
0
ответов

Как найти слово на картинке и поставить другое слово в нужное место?

Я специалист по информационным технологиям, но много работаю финансовым клерком! Я должен поставить центры затрат в счетах (отдела ИТ) - вручную! Может быть, в Linux есть технология или решение для автоматизации ...
29.05.2020