Как char умещает utf-8 символы?

2

1

Если я помню, то char - 1 байт перманентно. Как он умудряется хранить такое? Не допёр.

Ссылка

←	Ubuntu прекращает поддержку 32-разрядной архитектуры PowerPC

ARM vs x86 — изменение ЦП под заказчика.

→

← 1 2 →

Ответ на: комментарий от upcFrost 23.12.16 15:26:34 MSK

Всё началось с ссылки на Википедию про C memory model. Я пояснил, что в стандарте C и C++ понимают под basic character set.

utf8nowhere ★★★★
(23.12.16 15:30:00 MSK)

Ответ на: комментарий от Stahl 23.12.16 14:50:03 MSK

Ну так, может, это чтобы после смерти UTF-8 меньше пришлось править. Тем более, что никто не знает когда помрёт UTF-8.

saahriktu ★★★★★
(23.12.16 15:35:36 MSK)

Ответ на: комментарий от utf8nowhere 23.12.16 15:24:19 MSK

кодировка utf-8 рассчитана на 6 байт, но в контексте юникода, да, 4

invy ★★★★★
(23.12.16 15:46:19 MSK)

Ответ на: комментарий от utf8nowhere 23.12.16 15:30:00 MSK

Я пояснил, что в стандарте C и C++ понимают под basic character set

а, не, ну это понятно. я имею ввиду общий случай, «тип char вообще» так сказать. ТС же не указал про какой язык/платформу он говорит

upcFrost ★★★★★
(23.12.16 15:48:37 MSK)

Ссылка

Ответ на: комментарий от invy 23.12.16 15:46:19 MSK

кодировка utf-8 рассчитана на

сколько угодно байт

utf8nowhere ★★★★
(23.12.16 16:18:24 MSK)

Самолично ковырял платформу, где char 32-битный.

Zenom ★★★
(23.12.16 17:00:34 MSK)

Ссылка

Ответ на: комментарий от saahriktu 23.12.16 15:35:36 MSK

Оставь свои влажные мечты при себе. Если UTF-8 умрёт, то на его смену придёт что-либо гораздо более несовместимое с ASCII.

~~te111011010~~ ★
(23.12.16 17:42:34 MSK)

Ответ на: комментарий от utf8nowhere 23.12.16 16:18:24 MSK

сколько угодно байт

https://tools.ietf.org/html/rfc3629

i-rinat ★★★★★
(23.12.16 20:19:27 MSK)

Ответ на: комментарий от te111011010 23.12.16 17:42:34 MSK

Если UTF-8 умрёт, то на его смену придёт что-либо гораздо более несовместимое с ASCII

Так я про это и говорю. Если бы не так, то, действительно, можно было бы сразу прописать в стандарте, что char совместим с ASCII и потому всегда 1 байт. Но, это, по ходу, не прописано явно чтобы после смерти UTF-8 можно было спокойно сделать char хоть 4 байта, и при этом пришлось меньше править стандарт. А не так, что при текущих формулировках они уже сейчас должны сделать char 3 байта минимум, поскольку, видите ли, «basic character set» - это слишком много символов.

saahriktu ★★★★★
(23.12.16 20:40:54 MSK)

Ссылка

Если я помню, то char - 1 байт перманентно. Как он умудряется хранить такое? Не допёр.

Элементарно, Ватсон. Во первых, char могут быть разными, а во вторых, есть строки и массивы. Передаёшь такую строку состоящую из однобайтовых элементов, в которой внутри всё что угодно храниться может, на вывод в консоль с кодировкой утф-8 и либы ОС этот массив байтов парсят, конвертируют на лету в набор утф-8 символов, которые и выводят на экран. Перекодировки на лету, много перекодировок, вот и весь секрет как массивы из однобайтовых элементов вдруг превращаются в утф-8 текст.

~~Napilnik~~ ★★★★★
(23.12.16 22:41:43 MSK)

Ссылка

Ответ на: комментарий от i-rinat 23.12.16 20:19:27 MSK

Что вы, уважаемый, хотите этим сказать?

utf8nowhere ★★★★
(24.12.16 01:03:56 MSK)

Ответ на: комментарий от utf8nowhere 24.12.16 01:03:56 MSK

Ты ж сам уже ссылку давал (но почему-то удалал). Многие, и ты в том числе, расчитывают на 4 байта, а это опасно, ибо может быть 6. Переполнение буфера, всё такое.

i-rinat ★★★★★
(24.12.16 01:22:50 MSK)
Последнее исправление: i-rinat 24.12.16 01:23:42 MSK (всего исправлений: 1)

Ответ на: комментарий от i-rinat 24.12.16 01:22:50 MSK

Необходимости проверок на валидность никто не отрицал. Там одной проверкой на «не более 4 байт» не ограничишься.

utf8nowhere ★★★★
(24.12.16 01:24:58 MSK)

Ссылка

Ответ на: комментарий от i-rinat 24.12.16 01:22:50 MSK

Разговор о том, что считать валидным: 6 или 4. И сколько можно закодировать, если не париться о валидности. Ответ: сколько угодно: 6, 8, 48...

utf8nowhere ★★★★
(24.12.16 01:27:04 MSK)

Ответ на: комментарий от utf8nowhere 24.12.16 01:27:04 MSK

Приведи пример 48-байтной последовательности в рамках формата UTF-8, пожалуйста. Или 8-байтной, хотя бы.

i-rinat ★★★★★
(24.12.16 01:32:42 MSK)

Ответ на: комментарий от i-rinat 24.12.16 01:32:42 MSK

https://ru.wikipedia.org/wiki/UTF-8#.D0.9A.D0.BE.D0.B4.D0.B8.D1.80.D0.BE.D0.B...

utf8nowhere ★★★★
(24.12.16 01:34:15 MSK)

Ответ на: комментарий от utf8nowhere 24.12.16 01:34:15 MSK

Это творчество некого Vadim Romanko: https://ru.wikipedia.org/w/index.php?title=UTF-8&type=revision&diff=5... Ему и не место в википедии, по-хорошему. Ссылок нет. Наверное, это вполне себе кодировка, я не проверял непротиворечивость. Только вот это уже совсем не UTF-8.

В ISO/IEC 10646:2003 UTF-8 определялась для максимум 6 байт. В более новых версиях решили ограничиться 4. Мне неизвестны стандарты, которые бы расширяли определение UTF-8 так, как написано в русской википедии.

i-rinat ★★★★★
(24.12.16 02:28:45 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Ubuntu прекращает поддержку 32-разрядной архитектуры PowerPC

Talks

ARM vs x86 — изменение ЦП под заказчика.

→

Похожие темы