Соблюдайте, что в тексте вы вставляли, «Fi» в «первом» и «FFI» в
«Аффинность» - это лигатуры (несколько символов в сочетании в одном
глиф). Предположительно, PDFTOTEXT
печатает каждую из этих лигаций как
Один символ, который используемый вами инструменты для чтения текста не поддерживают.
как Super User Results предлагает, попробуйте это:
pdftotext -enc ASCII7 input.pdf output.txt
Это должно предотвратить PDFTOTEXT
из печатных лигаций Verbatim, заставляя его расширить их в символы ASCII.
Просто добавьте | ^ $
в конец вашего регулярного выражения:
egrep -rvn "^($TRANSFORMED_ENTRY_LIST):|^\$"
Это отклонит пустые строки во входных данных.