Как выполнить поиск символов по их значению в Юникоде?

Simplemente ordene ambos archivos antes de compararlos

sort f1 > f1s
sort f2 > f2s
diff f1s f2s
1
06.06.2019, 17:25
2 ответа

Вы можете использовать ANSI -C, заключенный в кавычки , для замены экранированных символов обратной косой черты -, как указано в стандарте ANSI C.

grep $'\u16A0'

Более сложные примеры можно найти в этом связанном вопросе и ответах на него.

14
27.01.2020, 23:41

Вы можете использовать ugrep в качестве сокращения -вместо grep для соответствия кодовой точке Unicode U+16A0:

ugrep '\x{16A0}' test.txt

Он принимает те же параметры, что и grep, но предлагает гораздо больше возможностей, например:

ugrep searches UTF-8/16/32 input and other formats. Option -Q permits many other file formats to be searched, such as ISO-8859-1 to 16, EBCDIC, code pages 437, 850, 858, 1250 to 1258, MacRoman, and KIO8.

ugrep matches Unicode patterns by default (disabled with option -U). The regular expression pattern syntax is POSIX ERE compliant extended with PCRE-like syntax. Option -P may also be used for Perl matching with Unicode patterns.

Подробнее см. ugrep на GitHub .

2
27.01.2020, 23:41

Теги

Похожие вопросы