Как получить 'pdftotext' к синтезируемому тексту в читаемом кодировании?

Было бы странным из этого, было возможно в OS X, но не с Linux. Это - точно то же:

cd /cifs/dir
dd if=/dev/zero of=encbackup.img bs=1M count=100 # 100 MiB size
sudo losetup /dev/loop0 /cifs/dir/encbackup.img # assuming loop0 is free
sudo cryptsetup luksFormat /dev/loop0
sudo cryptsetup luksOpen /dev/loop0 cr_cifs_backup
sudo mke2fs -j /dev/mapper/cr_cifs_backup
sudo mount -t ext3 /dev/mapper/cr_cifs_backup /where/ever

Вероятно, имеет смысл с точки зрения производительности создавать второе (значительно уменьшенное) изображение, локально (незашифрованное) и помещать журнал там (см. man tune2fs, опции -j и -J).

Редактирование 1:

Существующее устройство смонтировано тот же путь (просто игнорирование dd, luksFormat, и mke2fs):

sudo losetup /dev/loop0 /cifs/dir/encbackup.img # assuming loop0 is free
sudo cryptsetup luksOpen /dev/loop0 cr_cifs_backup
sudo mount -t ext3 /dev/mapper/cr_cifs_backup /where/ever

Редактирование 2:

Размонтироваться:

sudo umount /where/ever
sudo cryptsetup luksClose cr_cifs_backup
sudo losetup -d /dev/loop0
4
26.02.2019, 16:01
2 ответа

Соблюдайте, что в тексте вы вставляли, «Fi» в «первом» и «FFI» в «Аффинность» - это лигатуры (несколько символов в сочетании в одном глиф). Предположительно, PDFTOTEXT печатает каждую из этих лигаций как Один символ, который используемый вами инструменты для чтения текста не поддерживают.

как Super User Results предлагает, попробуйте это:

pdftotext -enc ASCII7 input.pdf output.txt

Это должно предотвратить PDFTOTEXT из печатных лигаций Verbatim, заставляя его расширить их в символы ASCII.

5
27.01.2020, 20:52

Поскольку я уже преобразовывал pdf-файлы в текст на Python, я публикую -обработку pdf-текста с помощью простой команды Python:

# efficient -> 
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)  
1
27.01.2020, 20:52

Теги

Похожие вопросы