Удалить OCR из PDF

Question

Удалить OCR из PDF

Como comenté, no puede simplemente generar ese archivo txt, porque no es un script de shell válido.

Para obtener ese valor particular , intente

config=/home/$USER/git_projects/cfhookbash/config.txt
token=$( grep -oP 'www.example.com_token="\K[^"]+' "$config" )

4

ocr pdf

Seninha 12.06.2017, 01:46

Ссылка

1 ответ

Похожие вопросы

harshit · Answer 1 · 01.12.2020, 16:33

Команда, данная @dirkt, у меня не сработала, и на самом деле она уменьшила размер файла с 560 МБ до 300 и несколько МБ, но я не проверял с помощью diffpdf, поэтому не знаю, что изменилось между файлами.

Мне помогло Apache Pdfbox и разработчики Pdfbox предоставили в примерах небольшую приятную программу для удаления текста и других вещей, но поскольку у меня нет опыта работы с java (или все, кроме bash в этом отношении ), что я сделал, так это установил openjdk -11 -jdk -headless и libpdfbox -java.

Шаги:

Скопируйте pdfbox2.jar, fontbox2.jar, commons -logging.jar (, необходимые некоторым классам в pdfbox2 ), в папку.
Извлеките файлы Jar, например. jar xf pdfbox2.jar.
Получите исходный код Pdfbox той же версии, что и установленная.
Скопируйте RemoveAllText.java в папку org/apache/pdfbox/examples/util .
Скомпилируйте RemoveAllText.java javac org/apache/pdfbox/examples/util/RemoveAllText.java.
Теперь вы можете запустить его, это покажет использование java org.apache.pdfbox.examples.util.RemoveAllText.

Если кто-то наткнется на этот ответ и знает лучший способ сделать это, прокомментируйте.

Удалить OCR из PDF

Теги

Похожие вопросы