Преобразование набора символов Unix

если Ваше дальнейшее намерение состоит в том, чтобы управлять modulefiles на на основание контекста, я предлагаю, чтобы Вы проверили EasyBuild и некоторую связанную логику, живущую в формате Python:

4
13.09.2016, 14:16
2 ответа

Выпуск № 1: Greping 'Flyers: Видеоцентр "... Я не вижу результата :

в шестнадцатеричном дампке файла обратите внимание на два байта C2A0 между словами листовки: и видео . Это кодировка UTF8 для невыполненного пространства . SHEPPING NBSP, как известно, не проходит для получения дополнительной информации, прочитал Как удалить специальный символ M-BM- 'с SED и и используют SED для замены ... Hex C2A0 . Краткий ответ:

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

Выпуск № 2 «Америки» показывает как «Америки» (??) :

здесь, дамп, содержит три байта E28099, известный как правый кавычка ('). На самом деле, здесь не должно быть проблем! Вы, вероятно, отвлекались на проблему выше (могли бы вы подтвердить?)

Если вы используете GREP , SED и другие инструменты с выражением, которые уважают ваш локаль (UTF8!), Затем Он будет работать:

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

Если вы хотите избавиться от всех этих UTF-8 " Special « Персонажи », использование может использовать подсказки выше или ICONV (но в наши дни, есть Несколько оправданий не поддерживают UTF8).

Упали все не-Ascii Chars:

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

или для сохранения символов из одной локали:

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8
1
27.01.2020, 21:00

В отличие от XML, который должен содержать тег кодировки, описывающий исходную кодировку содержимого, вы должны получить эту часть информации для csv другими средствами.

Хотя type довольно хорошо работает с двоичными данными, он не очень хорошо работает с текстовыми данными.

Это связано с тем, как работает команда. см. man text. Грубо: Он смотрит на первые пару байтов и пытается угадать содержимое, ища то, что было найдено в таблице подстановки.

Поэтому обычно лучше всего спросить создателя контента, какая кодировка была использована.

Если это невозможно - по какой-то причине, iconv ваш лучший друг здесь.

1
27.01.2020, 21:00

Теги

Похожие вопросы