Удалить OCR из PDF

Como comenté, no puede simplemente generar ese archivo txt, porque no es un script de shell válido.

Para obtener ese valor particular , intente

config=/home/$USER/git_projects/cfhookbash/config.txt
token=$( grep -oP 'www.example.com_token="\K[^"]+' "$config" )
4
12.06.2017, 01:46
1 ответ

Команда, данная @dirkt, у меня не сработала, и на самом деле она уменьшила размер файла с 560 МБ до 300 и несколько МБ, но я не проверял с помощью diffpdf, поэтому не знаю, что изменилось между файлами.

Мне помогло Apache Pdfbox и разработчики Pdfbox предоставили в примерах небольшую приятную программу для удаления текста и других вещей, но поскольку у меня нет опыта работы с java (или все, кроме bash в этом отношении ), что я сделал, так это установил openjdk -11 -jdk -headless и libpdfbox -java.

Шаги:

  1. Скопируйте pdfbox2.jar, fontbox2.jar, commons -logging.jar (, необходимые некоторым классам в pdfbox2 ), в папку.
  2. Извлеките файлы Jar, например. jar xf pdfbox2.jar.
  3. Получите исходный код Pdfbox той же версии, что и установленная.
  4. Скопируйте RemoveAllText.java в папку org/apache/pdfbox/examples/util .
  5. Скомпилируйте RemoveAllText.java javac org/apache/pdfbox/examples/util/RemoveAllText.java.
  6. Теперь вы можете запустить его, это покажет использование java org.apache.pdfbox.examples.util.RemoveAllText.

Если кто-то наткнется на этот ответ и знает лучший способ сделать это, прокомментируйте.

0
01.12.2020, 16:33

Теги

Похожие вопросы