Что происходит когда я кошка нетекстовый файл?

Question

Что происходит когда я кошка нетекстовый файл?

[1180898] Если ваша версия grep поддерживает PCRE (Perl Compatible Regular Expressions), вы можете использовать возможности Perl lookbehind и lookahead

или с помощью [1181206]pcregrep[1181207] (если доступно)
Имейте в виду, что если ваш паттерн действительно разбит по линиям, тогда возвращаемый текст сохранит новую строку - перед использованием результата его можно удалить с помощью [1181208]tr[1181209] или [1181210]sed[1181211].
Если сам текст нельзя разделить на строки (только маркеры [1181212]\HF[1181213] и [1181214]\[1181215]), то можно заменить [1181216](.|\n)+?[1181217] на более простой [1181218].+?[1181219], то есть.

Если даже маркер [1181220]\HF=[1181221] может быть разбит в любой точке на новую строку (как указано в вашем комментарии к первоначальному посту), то требуется несколько иной подход, так как PCRE в настоящее время не поддерживает lookbehinds переменной длины. В этом случае вы можете попробовать

, где lookbehind заменяется псевдо-якорным выражением, используя [1181222] \K

1

Theodcyning 11.03.2015, 01:45
Ссылка

2 ответа

Большая часть данных в не текстовом файле не может быть представлена с использованием символов из любого из доступных наборов символов. Когда эти данные обрабатываются кошкой и показаны на экране, он отображается как �� или другие бессмысленные символы, так как их нет другого способа отображения.

3

27.01.2020, 23:17
Ссылка

На самом деле � не "бессмысленный персонаж". Это символ замены Unicode . Он отображается в терминале с использованием кодировки UTF-8 при попытке отобразить байт, который не является допустимым кодом UTF-8. Он может отображаться (но с меньшей вероятностью), если шрифты, доступные для терминала, не предоставляют конкретное допустимое значение Unicode, но в этом случае более вероятно, что отображается пустой .

Обычно можно распечатать коды 32–126 (US-ASCII, переносимый набор символов POSIX). Коды 160–255 можно распечатать в кодировке ISO-8859-1, но не как UTF-8, потому что они могут быть одним из двух или более байтов, составляющих значение Unicode в кодировке UTF-8. Точно так же коды 128-159 являются управляющими символами в ISO-8859-1 (и непечатаемыми), но в UTF-8 это один из двух или более байтов и т. Д.

Если вы cat нетекстовый файл, вероятно, он будет содержать байты из диапазона 128–255, и они вряд ли будут формировать допустимые значения UTF-8. Так что вы увидите �.

Дополнительная литература:

Возможности декодера UTF-8 и стресс-тест

2

27.01.2020, 23:17
Ссылка

Теги

Похожие вопросы

2
Редактирование файла свойств Java с Bash 09.04.2014
У меня есть следующий файл свойств Java, который сохраняется людьми. # file.input =/very/old/name # file.input =/old/name file.input =/current/name file.input.default =/default/name other.file....

10
IPTables управляют, чтобы позволить поступать соединения SSH 09.06.2014
Цель этого сценария состоит в том, чтобы только позволить трафик по VPN, за исключением localhost <-> localhost и поступающий трафик SSH. Но когда я запускаю скрипт по SSH, я разъединен и вынужден перезапустить...

41
Grep от конца файла к началу 28.02.2016
У меня есть файл приблизительно с 30 000 000 строк (Учет Радиуса), и я должен найти последнее соответствие данного шаблона. Команда: accounting.log tac | grep $pattern дает то, в чем я нуждаюсь, но это также...

4
Как узнать эфемерный порт для службы? 11.02.2018
В Cent OS 7 я использую netstat -an для проверки сетевой службы: [root@localhost etc]# netstat -an | grep ESTABLISHED udp 0 0 192.168.1.25:41136 61.216.153.106:123 ...

-1
подстановка имени файла 28.02.2020
Я хотел бы знать, почему эти два выражения подстановки имен файлов [bru][abru]* и [br]* вернут мне имя файла, вызывающее brutus, но не вернут меня это имя файла abruti, спасибо

2
Как указать путь к исполняемому набору, если сценарий находится в PATH [дубликат] 24.01.2017
Предположим, у меня есть файл my. sh, который находится внутри / var / www, и я добавил этот каталог в переменную env PATH. Теперь я могу запускать ./my.sh в любом месте системы. Внутри скрипта $ 0 равно / var / ...

24
Как я могу перенаправить вывод 'времени' и управлять выводом к тому же каналу? 09.02.2016
Предположим, что у меня есть двоичный файл, названный нечто. Если я хочу перенаправить вывод нечто к некоторой другой панели процесса, я мог бы записать./нечто | панель. С другой стороны, если я хотел к нечто времени, и перенаправьте вывод...

4
Выполните команду в переменной 22.12.2014
Я пытаюсь выполнить команду, сохраненную в переменной: cmd = "grep-i \"word1 \" имя файла | grep-i \"word2 \"" $cmd оценки, Но когда я выполняю сценарий, я получаю ошибки: grep: |: Никакой такой файл или...

0
Обычный пользователь может удалять важные файлы. 18.02.2018
Меня беспокоит возможность того, что обычный пользователь может удалить важные файлы из / etc / passwd или файлы из / boot. Они могут это сделать, потому что разрешения для / etc и / boot - drwxr-xr-x. ...

1
Передать значение переменной в curl JSON 05.05.2021
Я пытаюсь создать тикет JIRA, используя метод curl POST, но подстановка переменной не происходит должным образом в переменной TODAY _DATE. Если я удалю это, он работает нормально. ЛЮБОЙ намек на то, как это...

score 3 · Accepted Answer · 27.01.2020, 23:17

Большая часть данных в не текстовом файле не может быть представлена с использованием символов из любого из доступных наборов символов. Когда эти данные обрабатываются кошкой и показаны на экране, он отображается как �� или другие бессмысленные символы, так как их нет другого способа отображения.