Как скопировать текст с изображения в файле PDF?

Можно запустить yum для удаления elfutils-libelf в зависимые пакеты, которые необходимо удалить, чтобы удалить elfutils-libelf.

-121--186819-

Перед передачей содержимого файла в sed можно развернуть оболочку:

sed -e "s/$(cat needle.txt)/replace/" subject.txt

Обратите внимание на использование двойных кавычек.

Это сделает sed интерпретировать любые метасимволы regex из needle.txt как метасимволы regex, а не обычные символы. Если needle.txt содержит /, он будет прерван.

Если вы хотите, чтобы строки needle.txt интерпретировались буквально (даже если они содержат метасимволы regex, как в вашем примере), вы можете сделать что-то вроде:

perl -pe '
    BEGIN{ local $/; 
           open $IN,"<","needle.txt";
           $needle = <$IN>
    }
    s/\Q$needle/replace/
'  subject.txt

Объяснение

  • Переключатели -pe означают применение кода, следующего за строкой, к строкам файла subsect.txt и печати каждой строки
  • Сегмент BEGIN {} выполняется только один раз. Он открывает файл needle.txt и сохраняет все его содержимое в переменной $ eigle .
  • s/\Q $ eigle/replace/ - это тот же синтаксис, который вы ожидали от sed , за исключением того, что \Q заставляет регексный движок Perl рассматривать всё после него как фиксированную строку, а не как регекс.
-121--102906-

По умолчанию Fedora 20 устанавливает для этой цели gnome-software . Не уверен, что это именно то, что вы ищете. Это графический интерфейс пользователя для управления и установки пакетов, но выглядит больше (или лучше сказать, хочет выглядеть как...) Приложение MacOSX. Это может быть или не быть вашим вкусом, но позволяет просматривать установленные и удаленные пакеты, а также идентифицирует доступные в настоящее время обновления для установленных пакетов.

Edit: gnome-software ориентирован на приложения (а не на пакеты), поэтому он может не показывать отдельные пакеты для веб-серверов, библиотек и т. д.

Apper , с другой стороны, делает. Чтобы установить Apper, просто запустите yum install apper в качестве корня на терминале.

0
20.09.2014, 02:18
2 ответа

Вам нужно OCR (оптическое распознавание символов) , чтобы иметь возможность извлекать текст из изображений. Если вы Google OCR найдете множество онлайн OCR программного обеспечения , которое пытается извлечь текст из изображений. Лично я никогда не использовал один так сложно сказать, насколько они успешны. Вы заметите, что некоторые из них берут файлы изображений в качестве входных данных, и в этом случае вам придется конвертировать PDF в формат изображения (инструменты для этого также доступны в Интернете).

Если вы более технически склонны, то существует Python библиотека pytesser , которая может оказаться полезной.

Capture2Text - это инструмент с открытым исходным кодом, который выполняет OCR на скриншоте и выводит результат в буфер обмена, так что создается ощущение, будто вы копируете текст с изображения. Вероятно, это лучший вариант.

4
28.01.2020, 02:20

Если только вы не можете получить какой-нибудь OCR для работы, как предлагает Harvinder, вам не повезло. Если это изображение в PDF, то оно ничем не отличается от изображения в JPEG или PNG или любом другом изображении.

Даже если вы найдете OCR-пакет, который работает на вас, вы можете получить очень плохие результаты. Я потратил больше времени на редактирование OCR'd PDF, чем это заняло бы просто перепечатать текст.

0
28.01.2020, 02:20

Теги

Похожие вопросы