www_world
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору El Sanchez Цитата: стандарт не знает такого определения как суррогатные символы, есть суррогатные пары. | это игрища в слова, никак не меняющие сути сказаного выше Цитата: "UTF-16 — кодировка, позволяющая записывать символы Юникода в диапазонах U+0000…U+D7FF и U+E000…U+10FFFF (общим количеством 1 112 064). При этом каждый символ записывается одним или двумя словами (суррогатная пара)." | И да, я заметил, что тут не все (а точнее, мало кто) понимает, чем отличаются юникод программы (включая оси) от не-юникод программ (включая оси). Но в данном случае важны практические следствия из этих различий. Какой интервал символов соответствует интервалу, выраженному регэкспом? [x00-\xff] (чтобы не растекаться по джунглям программ, будем говорить применительно к TC (как вариант, TC + упомянутый контентный плагин). Отталкиваясь от ответа, попробуйте развить мысль "про не-юникод символы на юникод осях" (про utf8 не стоит вспоминать, поскольку он работает (там где он поддерживается) только через разные ухищрения (типа конвертирования, трансляцию и тд). Желающих писать программы с прямой поддержкой юникода в utf8, полагаю, уже нет). Цитата: Только вот в примере их нет, как и ANSI, кодовых страниц или UTF-8. | То есть вы утверждаете, что в юникоде (мы говорим про юникод-программы) символы могут записываться двумя словамм (составлять юникодную пару) и при этом не быть суррогатными (то есть, их пара вовсе не суррогатная, а некоего другого типа? Цитата: [^\p{Cyrillic}]\p{Cyrillic}|\p{Cyrillic}[^\p{Cyrillic}] | Выражение - не очень. Поскольку диапазон \p{Cyrillic} - вовсе не только русский алфавит, а много больше, а диапазон [^\p{Cyrillic}] вообще включает почти все за исключением примерно 1% всех существующих символов, и например, для американца или китайца практически эквивалентен выражению .* | Всего записей: 625 | Зарегистр. 04-11-2018 | Отправлено: 18:55 30-08-2025 | Исправлено: www_world, 19:05 30-08-2025 |
|