OCR (Оптическое распознавание символов) является преобразованием изображения символов в машиночитаемый закодированный текст. Используйте этот тег для указания на вопросы, включающие этот тип преобразования или программного обеспечения, которое выполняет OCR. Когда возможно укажите на источник и цель преобразования.
Инструменты использовали для OCR:
- tesseract
- pdfsandwich
- gocr
- ocrad
- ocrfeeder
- ocropus
- клинообразный знак
- clara
- Linux-Intelligent-Ocr-Solution
У меня несколько тысяч страниц отсканированных книжных страниц. Каждая страница сохраняется отдельно в формате JPG. Написание четкое, но шрифты различаются, а на страницах есть изображения и иллюстрации. Мне нужно ...
10.07.2017
Проблема pytesseract.image_to_string() занимает слишком много времени, когда я запускаю скрипт через supervisordd, но выполняется почти мгновенно при запуске непосредственно в оболочке (на том же сервере и ...
09.08.2019
Я обновляю скрипт, который рекурсивно проходит через каталог и OCRS PDF и обновляет PDF. В его простой версии он работает. ocrmypdf -l vie --deskew --clean --force-ocr --sidecar ...
16.12.2018
Вы знаете, когда у Вас есть PDF, который является сканированием документа, и это - действительно огромный файл, потому что это просто хранит изображение отсканированного документа? И существуют инструменты OCR, которые могут помочь Вам к...
26.04.2015
Я хочу создать пользовательский список (научных) слов в целях как проверка правописания и OCR на основе моего набора научных бумаг в формате PDF. Используя pdftotext я могу легко создать текстовый файл...
18.05.2013
У меня есть много папок с большим количеством PDF-файлов, и я хочу, чтобы оптическое распознавание символов происходило в тех, у которых нет текстового слоя. Итак, сначала я хочу найти их. Я подумал, что может и пайп с pdfgrep подойдет...
15.01.2021
Проблема У меня много старых книг, которые я хочу отсканировать и оцифровать. Для этого я использую планшетный сканер, xsane и GImageReader, который отлично работает. Еще несколько лет назад, когда я еще пользовался...
03.01.2021
У меня есть PDF-файл, содержащий поврежденный OCR. Это набор рукописных страниц с множеством символов и аббревиатур, и я получил этот файл с автоматически сгенерированным OCR. Как я могу удалить ...
12.06.2017
Я использовал склонный - добираются для установки Tesseract, но он действительно не работает. Возможно, я мог просто загрузить двоичные файлы где-нибудь, вставить dir и использовать этот путь? Что случилось с моим Tesseract теперь: tesseract - справка...
28.08.2016
У меня есть просканированный контракт, и я должен изменить только несколько имен и дат в контракте. Легко отсканировать документ, но невозможный к ocr документ и открытый в *.doc формате. Есть ли...
19.04.2011
Я специалист по информационным технологиям, но много работаю финансовым клерком! Я должен поставить центры затрат в счетах (отдела ИТ) - вручную! Может быть, в Linux есть технология или решение для автоматизации ...
29.05.2020