Установите сертификат SSL в Iceweasel

Если файл удобно помещается в память, можно также использовать ed .
Команды очень похожи на приведенную выше sed с одной заметной разницей : необходимо передать список номеров строк/диапазонов для удаления в порядке убывания (от самого высокого номера строки/диапазона до самого низкого). Причина состоит в том, что при удалении/вставке/разделении/соединении строк с помощью ed текстовый буфер обновляется после каждой подкоманды, поэтому при удалении некоторых строк остальные следующие строки больше не будут находиться в той же позиции в буфере при выполнении следующей подкоманды. Таким образом, вы должны начать назад 1 .
Контекстное редактирование:

ed -s in_file <

или

ed -s in_file <<< $'45d\n20,37d\nw\nq\n'

или

printf '%s\n' 45d 20,37d w q | ed -s in_file

Замените w обрядом , p , если вы хотите напечатать результат вместо записи в файл. Если требуется сохранить исходный файл нетронутым и записать в другой файл, можно передать новое имя файла в подкоманду w rite:

ed -s in_file <

1 Если вы не хотите вычислять новые номера строк после каждого d удаления, что является довольно тривиальным для этого конкретного случая (после удаления строк 20-37, т.е. 18 строк, 45 строк становится 27 строк), так что вы можете выполнить:

ed -s in_file <

Однако, если вам придется удалить несколько номеров строк/диапазонов, работа назад не является мозгом.

-121--16602-

Посмотрите на Стандарт Иерахии файловой системы , который также является основой для макета файловой системы Debian .

.csv и сценарии оболочки, вероятно, переходят в /usr/share/ , если они выходят из пакета, или /var/lib/ , если они являются данными, изменяющимися с течением времени.

Файлы Python - довольно особый случай, подробнее см. Политику Python Debian .

-121--166891-

Вот как я бы удалил текст в формате OCR, если бы мне пришлось...

Во-первых, необходимо знать, что текст в формате PDF в формате OCR является не слоем , а специальным методом визуализации текста . На следующем снимке экрана из официальной спецификации PDF перечислены все доступные режимы визуализации текста:

Для получения дополнительной информации см. мои ответы на странице StackOverflow:


Теперь для процедуры я предполагаю:

0 Создайте резервную копию оригинального PDF-файла

, говорится...

1. Используйте qpdf для распаковки большинства PDF-объектов

qpdf - это прекрасный инструмент командной строки для преобразования большинства PDF-файлов в форму, облегчающую управление с помощью текстового редактора (или с помощью sed ):

qpdf                       \
  --qdf                    \
  --object-streams=disable \
    input.pdf              \
    editable.pdf

2. Поиск мест, где PDF-код содержит 3 Tr

Все места в editable.pdf , где есть «невидимые» (а.k.a. не заполнен и не обводен )текст помечен начальным определением

3 Tr

Измените их на теперь прочитанное

1 Tr

Это должно сделать ранее скрытый текст видимым. Глифы будут отображаться в толстых контурах, накладывая исходные отсканированные изображения страницы.

Это будет выглядеть очень некрасиво.

Сохраните отредактированный PDF.

3. Изменить Tj и TJ операторы обводки текста на «no-ops»

Всякий раз, когда текстовый ряд готовится к рендерингу, фактический оператор, ответственный за это, называется Tj или TJ .

Обратите внимание на все это. Замените их на tJ и tj . Это изменит их на «no-ops»: они вообще не имеют значения в исходном коде PDF; ни одно средство просмотра PDF, ни процессор не «поймут» их. (Будьте осторожны, чтобы не изменять количество байт при замене материала в исходном коде PDF, поскольку в противном случае он может стать «поврежденным».)

Сохраните файл PDF.

4. Проверьте, как теперь выглядит PDF-файл

Теперь PDF должен выглядеть «чистым» снова. Переименованные текстовые операторы больше не имеют значения ни для просмотра PDF, ни для какого-либо интерпретатора PDF.

5. Используйте Ghostscript для создания окончательного PDF-файла

Эта команда должна обеспечить желаемое:

gs                        \
  -o final.pdf            \
  -sDEVICE=pdfwrite       \
  -dPDFSETTINGS=/prepress \
   editable.pdf

На этом заключительном шаге в качестве входных данных используется editable.pdf . Выводится файл final.pdf . В результате будут удалены все следы текста. Ввод по-прежнему содержал текста, хотя и в «непригодной» форме, потому что оператор переименовывается. Поскольку Ghostscript не «понимает» переименованных операторов, он просто пропустит их по умолчанию.

0
22.04.2014, 02:33
1 ответ

У вас есть файл на вашем рабочем столе, но у него нет расширения, и вы выполняете фильтрацию по расширению («Файлы сертификатов» выбираются в раскрывающемся списке типа файла, и это, вероятно, отфильтровывает общие расширения сертификатов). Либо переименуйте файл, чтобы он имел правильное расширение (возможно, .pem ), либо измените раскрывающийся список, чтобы он сказал «Все файлы» или подобное.

1
28.01.2020, 02:52

Теги

Похожие вопросы