Как char умещает utf-8 символы?

в Java char 2 байта

r0ck3r ★★★★★
(23.12.16 11:16:04 MSK)

Ссылка

А он и не хранит.
/thread

~~redgremlin~~ ★★★★★
(23.12.16 11:20:45 MSK)

Ссылка

о, у эдика новый аккаунт

~~darkenshvein~~ ★★★★★
(23.12.16 11:20:46 MSK)

Ссылка

Во-первых char по определению не 1 байт, а столько, сколько нужно для хранения символа.
Во-вторых char не хранит utf символы, а приходится выёживаться с массивами.
Так в Си.
В более современных языках, скорее всего, char это довольно сложный тип.

~~Stahl~~ ★★☆
(23.12.16 11:22:26 MSK)

Ответ на: комментарий от Stahl 23.12.16 11:22:26 MSK

Во-первых char по определению не 1 байт, а столько, сколько нужно для хранения символа.

Нет. Символы тут вообще непричём. char - это минимально адресуемая процессором единица памяти.

lenin386 ★★★★
(23.12.16 11:26:38 MSK)

Как он умудряется хранить такое?

В языке Си - через приведение типов. Строка символов хранится как массив байт (или char'ов). С массивом байт и работаешь последовательно, если хочешь UTF-8. Например, современный русский алфавит по 2 байта на символ (таблица 0x04** юникода).

pacify ★★★★★
(23.12.16 11:27:37 MSK)
Последнее исправление: pacify 23.12.16 11:29:45 MSK (всего исправлений: 1)

Ссылка

С чего ты взял что char = utf-8?

mbivanyuk ★★★★★
(23.12.16 11:36:50 MSK)

Ответ на: комментарий от mbivanyuk 23.12.16 11:36:50 MSK

мне одному кажется, что ТС не уточнил о каком ЯП идет речь?

r0ck3r ★★★★★
(23.12.16 11:38:41 MSK)

Ответ на: комментарий от lenin386 23.12.16 11:26:38 MSK

char - это минимально адресуемая процессором единица памяти.

https://en.wikipedia.org/wiki/C_data_types
Smallest addressable unit of the machine that can contain basic character set.
char - это минимально адресуемая процессором единица памяти, достаточная для хранения символа.

~~Stahl~~ ★★☆
(23.12.16 11:39:34 MSK)

Один символ =одна или более кодовых точек. Кодовая точка = один или несколько байт(char).

atrus ★★★★★
(23.12.16 11:40:57 MSK)

Ссылка

Один utf8 кодированый символ - последовательно несколько char'ов - вплоть до 6.

invy ★★★★★
(23.12.16 11:50:59 MSK)
Последнее исправление: invy 23.12.16 11:53:09 MSK (всего исправлений: 1)

Не везде char 1 байт.

~~FIL~~ ★★★★
(23.12.16 11:52:22 MSK)

Ссылка

Ответ на: комментарий от Stahl 23.12.16 11:39:34 MSK

Значит если я включаю LC_ALL=ru_RU.utf8, то char становится размером в символ?! То ради русских буковок я трачу в два раза больше байт, ах! Однако если я включу koi8-r, то всё будет 1 байт?

~~coyotl~~
(23.12.16 11:52:55 MSK) автор топика

Ответ на: комментарий от coyotl 23.12.16 11:52:55 MSK

Нет, изменение локали в рантайме не приводит магическим образом к перекомпиляции программы. Более того, тебе ясно сказали, что "... can contain basic character set".

С другой стороны, если ты включишь UTF-8, то «русские буковки» будут попросту занимать больше одного char'а.

intelfx ★★★★★
(23.12.16 11:55:17 MSK)
Последнее исправление: intelfx 23.12.16 11:56:52 MSK (всего исправлений: 1)

Ссылка

char таки байт. Есть еще Char, но это класс, а не примитив.

~~unt1tled~~ ★★★★
(23.12.16 11:58:21 MSK)

Ссылка

Ответ на: комментарий от r0ck3r 23.12.16 11:38:41 MSK

А это неважно.

mbivanyuk ★★★★★
(23.12.16 12:00:56 MSK)

Ответ на: комментарий от mbivanyuk 23.12.16 12:00:56 MSK

Почему? Java же выделяет под char 16 бит

r0ck3r ★★★★★
(23.12.16 12:02:24 MSK)

char - 1 байт

И byte и char даже «теореХтически» не обязаны быть октетом.

quickquest ★★★★★
(23.12.16 12:02:49 MSK)

Ссылка

ТОЛСТО.

~~dormeur86~~ ★★★★
(23.12.16 12:07:13 MSK)

Ссылка

Язабан.

Xellos ★★★★★
(23.12.16 12:09:29 MSK)

Ссылка

Ответ на: комментарий от r0ck3r 23.12.16 12:02:24 MSK

Да хоть 3. При чем тут utf-8?

mbivanyuk ★★★★★
(23.12.16 12:26:12 MSK)

Ответ на: комментарий от mbivanyuk 23.12.16 12:26:12 MSK

Как это причем? Это же для совместимости с ним и сделано - он использует 2 байта для кодирования данных

r0ck3r ★★★★★
(23.12.16 12:46:24 MSK)

Никак. Один символ может состоять из нескольких code point-ов, а каждый code point может состоять из нескольких char-ов.
Поэтому для нормальной работы с юникодом нужны специальные библиотеки (или языки со встроенной поддержкой юникода).

h31 ★★★★
(23.12.16 12:52:01 MSK)

Ссылка

Ответ на: комментарий от r0ck3r 23.12.16 12:46:24 MSK

он использует 2 байта для кодирования данных

Я понимаю, что норки милые и забавные животные, но зачем так по ним фанатеть? utf-8 использует разное количество байт на символ, а не фиксированное.

~~redgremlin~~ ★★★★★
(23.12.16 12:54:04 MSK)

Ответ на: комментарий от redgremlin 23.12.16 12:54:04 MSK

ок, может использовать 2 байта для кодирования данных

r0ck3r ★★★★★
(23.12.16 12:54:42 MSK)

Ответ на: комментарий от r0ck3r 23.12.16 12:54:42 MSK

А может один или три. И при чём здесь 16битный чар?

~~redgremlin~~ ★★★★★
(23.12.16 12:55:59 MSK)

Ответ на: комментарий от redgremlin 23.12.16 12:55:59 MSK

а при том, что там ограничили поддержку UTF-8 в char этой его частью:

00000000 — 0000007F 	1 байт 	        ASCII, в том числе латинский алфавит, простейшие знаки препинания и арабские цифры
00000080 — 000007FF 	2 байта 	кириллица, расширенная латиница, арабский, армянский, греческий, еврейский и коптский алфавит; сирийское письмо, тана, нко; МФА; некоторые знаки препинания
00000800 — 0000FFFF 	3 байта 	все другие современные формы письменности, в том числе грузинский алфавит, индийское, китайское, корейское и японское письмо; сложные знаки препинания; математические и другие специальные символы
00010000 — 001FFFFF 	4 байта 	музыкальные символы, смайлы, редкие китайские иероглифы, вымершие формы письменности, 00110000 — 001FFFFF не используется в Unicode

r0ck3r ★★★★★
(23.12.16 12:58:46 MSK)

Ссылка

Как он умудряется хранить такое?

Побайтово. Т.е. только ASCII символы занимают одну переменную. Остальные занимают больше. А вмещается оно в массивы. Массиву байт всё равно к чему какие байты относятся.

saahriktu ★★★★★
(23.12.16 13:37:07 MSK)

Ссылка

Ответ на: комментарий от Stahl 23.12.16 11:39:34 MSK

Smallest addressable unit of the machine that can contain basic character set

basic

То есть, разноцветные принцессы сюда не относятся.

buddhist ★★★★★
(23.12.16 13:53:12 MSK)

Ответ на: комментарий от buddhist 23.12.16 13:53:12 MSK

Не, не относятся. Но если завтра саакрихту и Эдди-М сыграют в ящик, захватив с собой однобайтные кодировки, то char в Си быстро станет 2 байтным (или сколько там получится)

~~Stahl~~ ★★☆
(23.12.16 13:55:08 MSK)

Ответ на: комментарий от Stahl 23.12.16 11:39:34 MSK

Smallest addressable unit of the machine that can contain basic character set.
char - это минимально адресуемая процессором единица памяти, достаточная для хранения символа базовой кодировки.

поправил. это кстати имхо важно, т.к. что есть basic character set это вопрос

upcFrost ★★★★★
(23.12.16 14:10:08 MSK)

Ответ на: комментарий от upcFrost 23.12.16 14:10:08 MSK

что есть basic character set это вопрос

который не имеет платформонезависимого ответа. Впрочем, ТСу такие тонкости вряд ли интересны.

~~Stahl~~ ★★☆
(23.12.16 14:13:21 MSK)

Ответ на: комментарий от Stahl 23.12.16 13:55:08 MSK

то char в Си быстро станет 2 байтным

А всё это сишное говно с (char*)(p+i) ты лично переписывать будешь?

~~redgremlin~~ ★★★★★
(23.12.16 14:13:54 MSK)

Ответ на: комментарий от redgremlin 23.12.16 14:13:54 MSK

Нет, это будешь делать ты если тебе так хочется. Есть стандарт. И давай его будем придерживаться.

~~Stahl~~ ★★☆
(23.12.16 14:15:10 MSK)

Ссылка

Ответ на: комментарий от Stahl 23.12.16 14:13:21 MSK

который не имеет платформонезависимого ответа

да тут не только платформа, тут вплоть до реализации, особенно в интерпретируемых/VM-образных языках

upcFrost ★★★★★
(23.12.16 14:15:40 MSK)

Ответ на: комментарий от upcFrost 23.12.16 14:15:40 MSK

тут вплоть до реализации

Разумеется, но ведь компиляторы Си на каждой платформе (как аппаратной, так и программной) разные и учитывают особенности этой платформы.

~~Stahl~~ ★★☆
(23.12.16 14:17:32 MSK)

Ответ на: комментарий от Stahl 23.12.16 13:55:08 MSK

char в Си быстро станет 2 байтным (или сколько там получится)

Уже есть wchar_t, char16_t и char32_t, которые реализовали чтобы не ломать совместимость с классическим char. И так оно и будет дальше.

saahriktu ★★★★★
(23.12.16 14:18:48 MSK)

Ответ на: комментарий от Stahl 23.12.16 14:17:32 MSK

Разумеется, но ведь компиляторы Си на каждой платформе (как аппаратной, так и программной) разные и учитывают особенности этой платформы

да это понятно. но если чуть отойти от С и посмотреть на понятие «тип char» в целом (ТС же спросил вообще, он язык не указывал), то становится куда веселее

скажем, судя по ответам на стеке та же нода вообще меняет размер базового char в зависимости от кодировки строки

upcFrost ★★★★★
(23.12.16 14:19:31 MSK)

Ответ на: комментарий от saahriktu 23.12.16 14:18:48 MSK

Возможно проще будет изменить текст стандарта. Но если его не изменять, то будет так, как я сказал. А для одного байта введут какой-то short char или вообще новый byte. Просто пока такой проблемы не было.

~~Stahl~~ ★★☆
(23.12.16 14:20:41 MSK)

Ответ на: комментарий от upcFrost 23.12.16 14:19:31 MSK

вообще меняет размер базового char

За пределами Си я не силён, но, предполагаю, что в других языках char не базовый тип, описываемый лишь размером памяти, а целый класс. И в терминах класса всё становится удобно и прозрачно.

~~Stahl~~ ★★☆
(23.12.16 14:22:20 MSK)

Ссылка

utf-8 это кодировка с переменной длинной символа. То есть 1 символ может на самом деле представляться в виде последовательности char длинной от 1 до 6. Программа понимает, что нужно посмотреть не только в текущий, но и в следующие несколько байтов с помощью проверки специальных битиков в первом байте. Подробнее о схеме кодирования - см. википедию.

Разумеется, это значит что 1 char никак не может уместить символ UTF-8. Имеет смысл говорить лишь о массиве char'ов.

Это если речь идёт о C, C++ и прочих языках, где char это 1 байт. В какой-нибудь Java char это 2 байта. Однако при этом уже используется кодировка UTF-16, а не UTF-8 и данный вопрос некорректен.

KivApple ★★★★★
(23.12.16 14:27:55 MSK)

Ссылка

Ответ на: комментарий от Stahl 23.12.16 14:20:41 MSK

А кто сказал, что «basic character set» должно относиться к чему-то ещё кроме ASCII? Всё-таки, юникод совсем не «basic character set», а скорее «universal character set». И не мне ли тут много раз говорили, что UTF-8 будет жить ещё многие десятилетия? А пока жив UTF-8 «Smallest addressable unit of the machine», который может содержать «basic character set» - это один байт. Вот когда и UTF-8 совсем помрёт, а в ходу из этих UTF-8/UTF-16/UTF-32 останутся только UTF-16 и UTF-32 - вот тогда и можно будет говорить о ресайзе типа char.

saahriktu ★★★★★
(23.12.16 14:29:05 MSK)

Ответ на: комментарий от r0ck3r 23.12.16 12:46:24 MSK

Как это причем? Это же для совместимости с ним и сделано - он использует 2 байта для кодирования данных

Ну совместимость и char=utf-8 это же не одно и то же? Может там завтра для совместимости 3 или 1,5 байта сделают, вот я и спрашиваю при чем тут это?

mbivanyuk ★★★★★
(23.12.16 14:30:22 MSK)

Ответ на: комментарий от mbivanyuk 23.12.16 14:30:22 MSK

Насколько я знаю - Java именно исходит из того, что char это символ в UTF-8

r0ck3r ★★★★★
(23.12.16 14:48:37 MSK)

Ссылка

Ответ на: комментарий от saahriktu 23.12.16 14:29:05 MSK

А кто сказал, что «basic character set» должно относиться к чему-то ещё кроме ASCII?

А кто сказал, что «basic character set» должно относится именно к ASCII? Если бы «basic character set» относился лишь к ASCII, то почему бы сразу и не написать ASCII? Более того, если ASCII, то на кой чёрт вообще городить огород и не написать «1 байт».
Вот тебе несколько игрушек и не плачь: http://asciigames.tk/

~~Stahl~~ ★★☆
(23.12.16 14:50:03 MSK)

Ответ на: комментарий от lenin386 23.12.16 11:26:38 MSK

The fundamental storage unit in the C ++ memory model is the byte. A byte is at least large enough to contain any member of the basic execution character set (2.3) and the eight-bit code units of the Unicode UTF-8 encoding form

utf8nowhere ★★★★
(23.12.16 15:14:13 MSK)

Ссылка

Ответ на: комментарий от upcFrost 23.12.16 14:10:08 MSK

что есть basic character set это вопрос

Ответ:
The basic source character set consists of 96 characters: the space character, the control characters repre- senting horizontal tab, vertical tab, form feed, and new-line, plus the following 91 graphical characters:

a b c d e f g h i j k l m n o p q r s t u v w x y z
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9
_ { } [ ] # ( ) < > % : ; . ? * + - / ^ & | ∼ ! = , \ " ’

utf8nowhere ★★★★
(23.12.16 15:18:38 MSK)

Как он умудряется хранить такое? Не допёр.

Не стоит вскрывать эту тему.

utf8nowhere ★★★★
(23.12.16 15:22:29 MSK)

Ссылка

Ответ на: комментарий от invy 23.12.16 11:50:59 MSK

вплоть до

4

utf8nowhere ★★★★
(23.12.16 15:24:19 MSK)

Ответ на: комментарий от utf8nowhere 23.12.16 15:18:38 MSK

ок, спасибо, не знал. но чую я что это все-таки от языка и платформы может сильно зависеть. или это некое общее определение для всех сразу?

upcFrost ★★★★★
(23.12.16 15:26:34 MSK)

Похожие темы