6
ответов

Фильтрация недопустимого utf8

У меня есть текстовый файл в неизвестном или смешанном кодировании. Я хочу видеть строки, которые содержат последовательность байта, которая не является допустимым UTF-8 (путем передачи по каналу текстового файла в некоторую программу). Эквивалентно, я хо
27.01.2011
5
ответов

Как я переименовываю файлы со странными символами

У меня есть файл с греческими или символами кириллицы. Это не принадлежит мне, но пользователю веб-сервера (www). Я не могу использовать оболочку в качестве пользователя веб-сервера (www) или в качестве корня, но я использовал сценарий (...
02.10.2015
5
ответов

Преобразование файла UTF-8 к ASCII (максимальные усилия)

У меня есть файл в UTF-8, который содержит тексты на нескольких языках. Многое из него является именами людей. Я должен преобразовать его в ASCII, и мне нужен результат для взгляда максимально достойным. Существуют многие...
07.12.2014
5
ответов

Удаление всех файлов, который начинается с круглой скобки

У меня есть много файлов в каталоге, который начинается с круглой скобки. Они сгенерированы Dropbox, должным конфликтовать. Любая комбинация выхода, кажется, не помогает: комната-rf" (*" комната-rf "\(*" комната-rf \(*...
30.10.2013
5
ответов

Как преобразовать в HTML-код?

Есть ли любые сценарии, которые могут преобразовать между текстом (например, <привет>) и версией объектов HTML (&lt; hi&gt;) как этот веб-сайт делает? Или по крайней мере файл PHP?
07.06.2011
4
ответа

Несколько вопросов о кодировке символов файловой системы на Linux

Из-за большого обмена файлами работает между Windows (GBK, кодирующий) и Linux (кодировка UTF-8), это встретится с проблемами кодировки символов легко, такими как: файлы zip/tar, имя которых содержит китайский язык...
07.07.2019
4
ответа

Как я могу протестировать кодирование текстового файла …, действительно ли это допустимо, и что это?

У меня есть несколько .htm файлов, которые открываются в Gedit без любого предупреждения/ошибки, но когда я открываю эти те же файлы в Jedit, это предупреждает меня о недопустимой кодировке UTF-8... Метатег HTML указывает "charset=ISO-8859-...
27.01.2019
4
ответа

Как узнать странного персонажа?

Я пытаюсь идентифицировать странный символ, который я обнаружил в файле, с которым работаю: $ cat file � $од файла 0000000 005353 0000002 $od -c файл 0000000 353 \n 0000002 $od -x файл 0000000 0aeb ...
08.03.2018
4
ответа

отождествите файлы с неASCII или непечатаемыми символами в имени файла

В размере каталога 80 ГБ приблизительно с 700 000 файлов существуют некоторые имена файлов с неанглийскими символами в имени файла. Кроме траления через список файлов старательно там:...
28.01.2018
4
ответа

Печатая десятичное число к символу ASCII, моя команда не производит, как предназначено

Я хотел произвести строку всех символов ASCII со следующей командой поскольку я в 'seq 32 127'; сделайте printf "%c" $i; сделанный вывод вышеупомянутой команды:...
13.04.2017
4
ответа

байты эха в файл

Я пытаюсь подключить своего rasberry Pi к некоторому дисплею с помощью шины i2c. Для начала работы я хотел вручную записать материал, байты в особенности в файл. Как Вы пишете определенные байты в файл? Я...
13.04.2017
4
ответа

Препятствуйте тому, чтобы хвост изменил набор символов терминала

В терминале Linux (CentOS) я использую хвост команды - follow=name my-rolling-file.log для наблюдения журналов моего приложения. Иногда в журнале, существуют некоторые выведенные двоичные данные (я вывожу...
01.02.2017
4
ответа

Как указать символы с помощью шестнадцатеричных кодов в 'grep'?

Я использую следующую команду для grep диапазона набора символов для шестнадцатеричного кода 0900 (вместо अ) к 097F (вместо व). Как я могу использовать шестнадцатеричный код вместо अ и व? bzcat архивируют bz2 | grep-...
27.11.2016
4
ответа

Как установить резервную кодировку UTF-8 в Firefox?

Я написал норвежский документ по уценке: $ file brukerveiledning.md brukerveiledning.md: текст Unicode UTF-8 Я преобразовал его в HTML с помощью команды markdown: $ markdown> brukerveiledning ....
08.09.2016
4
ответа

Чем называют символ ^M?

TexPad создает его. Я знаю, что это находится под некоторой мертвой клавишей. Я просто не могу помнить, что это - имя. Синий символ: Я просто хочу к массе, удаляют их из моего документа. Как можно ввести его?
06.06.2014
4
ответа

Как я повторно кодирую смешанный закодированный текстовый файл

У меня есть файл журнала, который является ASCII, за исключением нескольких символов UTF-8 (который я могу зафиксировать для будущей версии). В настоящий момент я должен выяснить, как получить этот файл к viewable/searchable/...
25.10.2011
3
ответа

Создание/использование собственного символа

Можно ли создать свой собственный символ ascii, который можно использовать? Если да, то как это сделать? Теперь мой вариант использования будет примерно таким: Допустим, я создал символ #12345, и я...
26.07.2019
3
ответа

Как найти расположение символов строки в файле?

Мне нужно найти строку (последовательность символов) в файле с определенной кодировкой, обычно utf8, но вернуть смещения символов (не байтов) результатов. Итак, это поиск...
22.07.2019
3
ответа

Сгенерировать порядок сортировки списка отдельных символов

В некоторых случаях необходимо знать (чтобы использовать) порядок сортировки каждого отдельного символа. Обычно это выражается в классе символов регулярного выражения, например [b-d]. Этот класс символов будет соответствовать ...
27.06.2019
3
ответа

Удалить папку с недопустимым символом (-encoding)

При установке Linux Mint 18.3 у меня были проблемы с настройкой локали, что привело к созданию папки с недопустимой кодировкой в ​​имени. Теперь я хотел бы удалить указанную папку, но я ...
24.02.2018
3
ответа

Понимание кодирования имени файла Unix

Мне нелегко понимать, как кодирование имени файла работает. На Unix. SE я нахожу объяснения противоречия. Имена файлов хранятся как символы Для заключения в кавычки другого ответа: Несколько вопросов о...
13.04.2017
3
ответа

Как определить кодировку символов, которую терминал использует в программе C / C ++?

Я заметил, что SyncTERM использует другую кодировку символов, чем эмулятор терминала MacOS по умолчанию, и они несовместимы друг с другом. Например, вы хотите напечатать блок ...
12.11.2016
3
ответа

Не может использовать 'сокращение-c' (' - символы) с UTF-8?

Сокращение команды имеет опцию-c для работы над символами вместо байтов с опцией-b. Но это, кажется, не работает в en_US.UTF-8 локали: второй байт дает второй символ ASCII (...
23.10.2014
3
ответа

Как отобразить китайские символы правильно на удаленной машине Redhat?

Я использую Ubuntu14.04 для соединения с удаленным хостом. Который его версия: 2.6.32-431.11.5.el6.yyyzzz.x86_64 версия Linux (gcc версия 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC)) № 1 SMP четверг 3 июля 09:42:...
10.08.2014
3
ответа

Обработайте файл, который запускается с BOM (FE FF)

Я получил .csv файл с FE FF BOM: $ возглавляют-n1 dotan.csv | HD 00000000 и следующие fe 41 00 64 00 20 00 67 00 72 00 6f 00 75 00 |.. Н. э. .g.r.o.u. | При использовании awk для парсинга его я получаю набор...
16.06.2014
3
ответа

Кодировка символов, поддерживаемая больше, кошка и меньше

Мне закодировали текстовый файл после согласно файлу: текст ISO 8859, с разделителями строки CRLF Этот файл содержит текст французов с диакритическими знаками. Моя оболочка может отобразить диакритический знак и emacs в...
10.06.2013
3
ответа

Как заменить все закодированные процентом подстроки UTF-8 простым текстом UTF-8?

У меня есть файл HTML с большим количеством % - закодировал текст UTF-8 в URL. Например, "%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B" обозначает "ресурсы" ("ресурсы" на русском языке). Задача состоит в том, чтобы заменить все
05.12.2012
3
ответа

Как зафиксировать российские буквы в Винном приложении, когда корректирующийся ЛЕНГ не помогает?

Приложение с российским UI показывает вопросительным знакам вместо этого большую часть своего текста (некоторые элементы представляются хорошо хотя). Системная локаль является английской (en_US, en_IE), я попробовал муравья Ubuntu XUbuntu...
17.05.2012
3
ответа

российские буквы в хинду консоли как'?'

Мне удалось получить русский язык, работающий в моих приложениях Gnome, но ни один в консоли (Alt-Shift-F2 и такой), ни в локали Терминала Gnome LANG=ru_RU.UTF-8 LC_CTYPE valyagentoo va1en0k # = "ru_RU....
02.03.2011
3
ответа

Какое кодирование набора символов используется для имен файлов и путей на Linux?

Это зависит, на какой файловой системе я использую? Например, ext2/ext3/ext4, но также и что происходит, когда я вставляю один из тех "joliet" CD-ROM с ISO 9660? Я услышал, что POSIX содержит своего рода спецификацию...
12.02.2011

Еще нет никакого руководства использования этим тегом …!

Руководство использования, также известное как тег выборка Wiki, является короткой аннотацией, которая описывает, когда и почему тег должен использоваться на этом сайте конкретно.

Еще нет никакого тега Wiki для этого тега …!

Справка wikis тега представляет вновь прибывших тегу. Они содержат обзор темы, определенной тегом, наряду с инструкциями по его использованию.

Все зарегистрированные пользователи могут предложить новый тег wikis.

(Обратите внимание, что, если у Вас есть меньше чем 20 000 репутаций, Ваш тег, Wiki будет одноранговым узлом, рассмотренным, прежде чем это будет опубликовано.)

---------121 вопрос--------322----, которые имеют дело с различными представлениями символов и наборов символов, таких как: ASCII, UTF-8, EBCDIC, среди других. Часто встречаемый, когда движущиеся файлы между операционными системами, которые кодируют новые строки возвратами каретки и/или символами новой строки.

Вопросы, которые имеют дело с различными представлениями символов и наборов символов, таких как: ASCII, UTF-8, EBCDIC, среди других. Часто встречаемый, когда движущиеся файлы между операционными системами, которые кодируют новые строки возвратами каретки и/или символами новой строки.

Используйте этот тег, когда Вы знаете, что имеете дело с символами или наборами символов, которые представлены по-другому.

Частая проблема - когда файл (особенно один означал выполняться как ) сохранен на платформе Microsoft Windows, затем передал платформе Unix:

Другие полезные вопросы на сайте:

Для дальнейшего объяснения вокруг кодировок символов см. статью в Википедии.