egrep для указанных строк и новой строки

Соблюдайте, что в тексте вы вставляли, «Fi» в «первом» и «FFI» в «Аффинность» - это лигатуры (несколько символов в сочетании в одном глиф). Предположительно, PDFTOTEXT печатает каждую из этих лигаций как Один символ, который используемый вами инструменты для чтения текста не поддерживают.

как Super User Results предлагает, попробуйте это:

pdftotext -enc ASCII7 input.pdf output.txt

Это должно предотвратить PDFTOTEXT из печатных лигаций Verbatim, заставляя его расширить их в символы ASCII.

0
12.01.2015, 00:31
1 ответ

Просто добавьте | ^ $ в конец вашего регулярного выражения:

egrep -rvn "^($TRANSFORMED_ENTRY_LIST):|^\$"

Это отклонит пустые строки во входных данных.

0
28.01.2020, 04:57

Теги

Похожие вопросы