Unicode 8.0

unicode, кодировка, программирование, шрифты

3

3

Unicode Consortium выпустил новую версию стандарта кодирования текстов Unicode — 8.0.

Самым нашумевшим изменением в новой версии стал стандарт для обозначения цвета кожи для символов эмодзи. Эти символы, появившиеся изначально в японской индустрии сотовых телефонов, на многих устройствах отображаются цветными, причём в виде человеческих лиц со светлым цветом кожи, а не в виде более или менее абстрактных «смайликов». Стандарт это разрешает и даже в некоторой степени регламентирует. Однако многие пользователи были недовольны тем фактом, что эти смайлики всегда отображаются с одним и тем же цветом кожи, чаще всего светлым, так что невозможно было, скажем, вставить символ U+1F478 PRINCESS 👸 так, чтобы эта принцесса была негритянкой.

Теперь такая возможность есть. Символы с U+1F3FB по U+1F3FF будут сделаны модификаторами для эмодзи, обозначающими шесть тонов кожи по шкале Фитцпатрика (первый — самый светлый, шестой — самый тёмный, но первый и второй тона не различаются). Символ эмодзи, за которым следует один из этих модификаторов, должен будет отображаться соответствующим цветом. Таким образом U+1F478 + U+1F3FB = 👸🏻 (белая принцесса), U+1F478 + U+1F3FD = 👸🏽 (смуглая принцесса), а U+1F478 + U+1F3FF = 👸🏿 (чёрная принцесса). Эмодзи без указания цвета кожи следует отображать в нейтральном, неестественном цвете, например, жёлто-оранжевом.

Возможность вставки в текст «разноцветных» эмодзи уже появилась в последних версиях ПО от Apple — основного лоббиста нововведения. Вероятно, пользователи Mac OS X и iOS увидят эффект даже в этом тексте, если только в этой новости показ эмодзи картинками не будет отключён настройками сайта или браузера.

Консорциум отмечает, что хотя добавленных функций не хватит, чтобы отразить всё разнообразие вида Homo Sapiens (например, нельзя сделать «азиатское лицо» или U+1F46A FAMILY 👪 с несколькими разными цветами кожи), всё же основная задача Юникода — кодирование текстов, поэтому сложные изображения следует пересылать в виде изображений.

Не обошлось без курьёзов. Например, некоторые азиатские пользователи техники Apple не поняли, что «дефолтный» жёлтый — это нейтральный цвет, и решили, что это крайне оскорбительная расистская выходка.

Из менее забавных нововведений:

Знаки слогового письма Чероки в нижнем регистре в дополнение к уже имевшимся знакам Чероки.
Много новых унифицированных иероглифов CJK.
Добавлен символ грузинской валюты лари.
Добавлены символы языков ик, куланго и некоторых другх африканских языков.
Письменность ахом для одноимённого индийского языка.
Новые арабские буквы для арви — тамильского языка, записанного арабскими буквами.
В общей сложности 6 новых письменностей и 7716 новых символов.

Стоит отметить, что консорциум Unicode перешёл на новую схему выпусков. Теперь выпуск новых версий стандарта будет происходить в июне-июле каждого года. Увеличиваться будет старшая цифра версии (предыдущий выпуск был 7.0, следующий, предположительно, будет 9.0), кроме промежуточных выпусков, которые если и будут делаться, то только при острой необходимости. Это позволит тем, кому надо постоянно следить за стандартом, знать, когда готовиться к новому выпуску. Кардинальных изменений в структуре стандарта, вроде того, что произошло при переходе от Unicode 1.1 к 2.0 больше, предположительно, не будет никогда.

>>> Сообщение о выпуске

Ссылка

← Mageia 5

Anonymous запустили новую социальную сеть на основе блокчейна →

← 1 2 3 4 5 →

почему нет чёрного властелина

cawa ★
(22.06.15 11:20:39 MSK)

Ссылка

Таким образом U+1F478 + U+1F3FB = 👸🏻 (арийская принцесса), U+1F478 + U+1F3FD = 👸🏽 (принцесса-грязнокровка), а U+1F478 + U+1F3FF = 👸🏿 (расово неполноценная принцесса).

Fixed.

~~vurdalak~~ ★★★★★
(22.06.15 11:21:09 MSK)

Ссылка

хочу цветных принцесс

~~buratino~~ ★★★★★
(22.06.15 11:23:11 MSK)

Зачем включать в кодировку то, что делается форматированием? <span style=«color:#040»> и будет вам пьяная негритянская принцесса.

Klymedy ★★★★★
(22.06.15 11:30:03 MSK)

А что нужно поставить в gentoo чтобы увидеть это мракобесие? Firefox - не кажет, Konqueror - тоже

yaruna
(22.06.15 11:31:30 MSK)

Ссылка

А вообще лучше бы сделали плоские цвета, чтобы можно было делать эквестрийских бабонек.

olibjerd ★★★★★
(22.06.15 11:36:40 MSK)

Ссылка

Ответ на: комментарий от Hazowskey 22.06.15 10:52:18 MSK

И даже говно с глазами, упоролись на отличненько.

ptah_alexs ★★★★★
(22.06.15 11:51:00 MSK)

7716 новых символов

какая жесть... всё же, видимо, 8битное кодирование было не таким и плохим.

anonymous
(22.06.15 11:53:41 MSK)

Ссылка

Ответ на: комментарий от olibjerd 22.06.15 11:05:35 MSK

У Петра Алексеевича спроси.

Чайковского? О_о

Kompilainenn ★★★★★
(22.06.15 11:56:09 MSK)

Ответ на: комментарий от asaw 22.06.15 11:07:44 MSK

А как же facepalm???

Пиши в консорциум, может к версии 9.0 и фейспалм добавят. Хотя сначала надо убедиться, что его уже не добавили

Harald ★★★★★
(22.06.15 11:59:33 MSK)

Ссылка

Самым нашумевшим изменением в новой версии стал стандарт для обозначения цвета кожи для символов эмодзи.

А символы для обозначения 100500 гендеров как же?

enso ★★★★★
(22.06.15 12:04:07 MSK)

Ссылка

Ujccgjlb? ну были же нормальные текстовые смайлы так и тут пришел гейский аппле и все зассралл...

~~AVL2~~ ★★★★★
(22.06.15 12:04:22 MSK)

Ссылка

Ответ на: комментарий от buratino 22.06.15 11:23:11 MSK

а поней цветных ты не хочешь?

~~msgascii~~
(22.06.15 12:09:24 MSK)

Ссылка

Консорциум отмечает, что хотя добавленных функций не хватит, чтобы отразить всё разнообразие вида Homo Sapiens (например, нельзя сделать «азиатское лицо» или U+1F46A FAMILY 👪 с несколькими разными цветами кожи)

Это явный фошызм и расизм! И почему FAMILY - традиционная семья? Это явная дискриминация прав ЛГБТ!

Nedis ★
(22.06.15 12:10:29 MSK)

Ответ на: комментарий от Klymedy 22.06.15 11:30:03 MSK

У вас html головного мозга

~~FIL~~ ★★★★
(22.06.15 12:25:18 MSK)

Ответ на: комментарий от olibjerd 22.06.15 10:50:02 MSK

Знаки слогового письма Чероки в нижнем регистре в дополнение к уже имевшимся знакам Чероки.
Но зачем?

Очевидно же: для пользователей, говорящих на языке Чероки.

Dmitry_Sokolowsky ★★★★★
(22.06.15 12:44:32 MSK)

А героев My Little Pony в юникод когда добавят? :)

AP ★★★★★
(22.06.15 12:45:38 MSK)

Ответ на: комментарий от Psych218 22.06.15 10:21:09 MSK

Смайлы сегодня это часть текста. Они выражают эмоции. Я думаю, это одно из самых кардинальных нововведений в язык за последние столетия.

То, что пестрят, мне тоже не нравится. По крайней мере дефолтные должны бы быть цветом текста, а не жёлтым. Но видимо у консорциума были свои соображения по этому поводу.

~~Legioner~~ ★★★★★
(22.06.15 12:48:15 MSK)

Это уже не символьный набор, это какие-то пиктограммы.

anonymous
(22.06.15 12:49:53 MSK)

Ссылка

А тенгвар всё еще в статусе пропозал? Вроде пока в роадмапе значится. 18 лет уже. http://std.dkuug.dk/JTC1/SC2/WG2/docs/n1641/n1641.htm

northerner ★★★
(22.06.15 12:51:43 MSK)

Ссылка

Ответ на: комментарий от AP 22.06.15 12:45:38 MSK

сначала Смешариков

~~buratino~~ ★★★★★
(22.06.15 12:54:44 MSK)

Ссылка

Ответ на: комментарий от Legioner 22.06.15 12:48:15 MSK

Смайлы сегодня это часть текста. Они выражают эмоции. Я думаю, это одно из самых кардинальных нововведений в язык за последние столетия.

то есть, Пушкина ты читал с постной рожей, не понимая, где смешно, где грустно, и вообще, где что происходит?

1912 год:
- Дорогой мой, я в неописуемом восторге! Ваше литературное творение меня поразило; оно умно, тонко, изящно, многогранно, и, уверен, при повторном прочтении оно заиграет ещё более яркими красками, не говоря уже о том, что вам и ему уготована удивительная, длинная и счастливая судьба!

2012 год:
- Гы :) +1! Пешы исчо!

~~buratino~~ ★★★★★
(22.06.15 12:57:38 MSK)

Для документиков хотимылок сойдёт. Но зачем тащат это в систему? Проблему с кодировками нужно было решать давно и железом, увеличив кол-во битов в байте. Заодно ряд других проблем можно было бы решить.

anonymous
(22.06.15 12:58:53 MSK)

Ответ на: комментарий от makoven 22.06.15 10:01:49 MSK

модификатор, позволяющий сделать смайлик православным, масульманским или буддийстким

☺☦☪仏☯☮☭

~~KRoN73~~ ★★★★★
(22.06.15 13:00:56 MSK)

Ссылка

Ответ на: комментарий от Deleted 22.06.15 10:18:48 MSK

Что то не отображается половина символов. Хром, винда.

Все символы, кроме модификаторов отображаются. Хром, винда :)

~~KRoN73~~ ★★★★★
(22.06.15 13:01:46 MSK)

Ссылка

Ответ на: комментарий от robert_foster 22.06.15 10:39:15 MSK

новые виды письменности
А вот это реальное уважение к людям.

Самое смешное, при всех этих мёртвых языках и политкорректных принцессах, некоторые люди сегодня не могут своё имя на родном языке записать: http://habrahabr.ru/post/253381/

~~KRoN73~~ ★★★★★
(22.06.15 13:03:53 MSK)

Ответ на: комментарий от Kompilainenn 22.06.15 11:56:09 MSK

Чайковского? О_о

Он Пётр Ильич.

pS ★
(22.06.15 13:04:19 MSK)

Ссылка

Safari на макси — и правда есть разноцветные рожи.

Они уже закодировали все иероглифы и просто маются дурью?

staseg ★★★★★
(22.06.15 13:09:13 MSK)

Ссылка

Ответ на: комментарий от olibjerd 22.06.15 11:06:02 MSK

Секрет :)

CYB3R ★★★★★
(22.06.15 13:14:35 MSK)

Ссылка

Ответ на: комментарий от FIL 22.06.15 12:25:18 MSK

Вы так говорите, как будто это что-то плохое.

Klymedy ★★★★★
(22.06.15 13:29:58 MSK)

Ссылка

Ответ на: комментарий от asaw 22.06.15 11:07:44 MSK

А как же facepalm???

Планируется в 9.0:
http://blog.unicode.org/2015/05/unicode-90-candidate-emoji.html (also @ Harald)

proud_anon ★★★★★
(22.06.15 13:31:08 MSK) автор топика

Ссылка

Ответ на: комментарий от KRoN73 22.06.15 13:03:53 MSK

некоторые люди сегодня не могут своё имя на родном языке записать

Этого бенгалийца много где обсуждали. На Hackersnews даже пришёл другой бенгалиец, который якобы участвовал в стандартизации бенгали в Юникоде. Всё там можно записать. Просто автору статьи кажется неочевидным, что одна из букв — составная графема.

proud_anon ★★★★★
(22.06.15 13:34:38 MSK) автор топика

Ответ на: комментарий от anonymous 22.06.15 12:58:53 MSK

Ну как бы размер машинного слова (то есть объём данных, который обрабатывается за раз) и так больше 8 бит везде кроме 8-битных микроконтроллеров. А если рассматривать современные десктопные/серверные/мобильные процессоры, то вообще как минимум 32 бита, а то и 64. Ты вполне можешь описывать строки как массив uint32_t и не получишь никаких потерь производительности на подавляющем большинстве систем (то есть всех, кроме некоторых микроконтроллеров и древних компьютеров). Байт это всего лишь термин, точно также как и бит. Менять устоявшиеся термины - вносить лишнюю путаницу. К тому же аппаратно этот термин мало, что значит, на уровне железа имеет значение лишь размер машинного слова.

В том же UTF-16 это вполне используется (строка является массивом uint16_t), UTF-8 обеспечивает обратную совместимость и часто позволяет оптимизировать занимаемое текстом место в памяти или на диске. Только вот стандарт Unicode одинаково касается, что UTF-8, что UTF-16, что UTF-32.

KivApple ★★★★★
(22.06.15 13:41:23 MSK)
Последнее исправление: KivApple 22.06.15 13:46:14 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Klymedy 22.06.15 11:30:03 MSK

Зачем включать в кодировку то, что делается форматированием? <span style=«color:#040»> и будет вам пьяная негритянская принцесса.

И как форматированием раскрасить морду, волосы и глаза разным цветом?

andreyu ★★★★★
(22.06.15 13:43:49 MSK)

Ответ на: комментарий от buratino 22.06.15 12:57:38 MSK

то есть, Пушкина ты читал с постной рожей, не понимая, где смешно, где грустно, и вообще, где что происходит?

Это пять! Спасибо.

andreyu ★★★★★
(22.06.15 13:45:31 MSK)

Ссылка

для обозначения цвета кожи

Раньше негры обижались на черную морду ☻/☺?

anonymous
(22.06.15 13:47:31 MSK)

Ссылка

Ответ на: комментарий от reprimand 22.06.15 10:11:37 MSK

куда катится этот мир? вот объясните мне, КУДА?!

http://marv.livejournal.com/1047508.html?thread=13060564#t13060564
См. первый комментарий.

Stage1 ★★
(22.06.15 13:48:37 MSK)

Ссылка

Ответ на: комментарий от makoven 22.06.15 10:01:49 MSK

И модификатор, позволяющий сделать смайлик православным, масульманским или буддийстким

Всё еще впереди.

~~dodevich~~ ★
(22.06.15 13:50:12 MSK)

Ссылка

Когда они уже клингонский добавят?

RiseOfDeath ★★★★
(22.06.15 13:52:50 MSK)

Ответ на: комментарий от proud_anon 22.06.15 13:34:38 MSK

Просто автору статьи кажется неочевидным, что одна из букв — составная графема.

Ну мне тоже кажется, что нормой для русского — использование буквы «ё», а не «е» и модификатора :)

~~KRoN73~~ ★★★★★
(22.06.15 13:53:56 MSK)

Ответ на: комментарий от andreyu 22.06.15 13:43:49 MSK

Для этого есть картинки.

Klymedy ★★★★★
(22.06.15 13:56:54 MSK)

Ссылка

Ответ на: комментарий от RiseOfDeath 22.06.15 13:52:50 MSK

Когда они уже клингонский добавят?

  !

~~KRoN73~~ ★★★★★
(22.06.15 13:58:23 MSK)

Ответ на: комментарий от KRoN73 22.06.15 13:53:56 MSK

буквы «ё»

Мертворожденное поделие.

anonymous
(22.06.15 13:59:51 MSK)

Ответ на: комментарий от KRoN73 22.06.15 13:58:23 MSK

Кстати, прикольно — ещё один пунктик, где http://www.bing.com/translator/ превосходит Гуглотранслятор :)

~~KRoN73~~ ★★★★★
(22.06.15 13:59:54 MSK)

Ответ на: комментарий от buratino 22.06.15 12:57:38 MSK

то есть, Пушкина ты читал с постной рожей, не понимая, где смешно, где грустно, и вообще, где что происходит?

Нет, я у обычных людей ни разу не читал пушкинских оборотов. Всё больше смайлами обходятся. Литературный язык к разговорному отношения не имеет.

~~Legioner~~ ★★★★★
(22.06.15 14:01:10 MSK)

Ответ на: комментарий от anonymous 22.06.15 13:59:51 MSK

Мертворожденное поделие.

Ришельё, Рёрих, Монтескьё, Депардьё, Пастёр, Рёнтген, Чёрчилль, Гёббельс, Гёринг, Фёт, Лёв Толстой, Фрёйд и ещё великое множество иных жертв деёфикации на тебя смотрят с недоумением.

~~KRoN73~~ ★★★★★
(22.06.15 14:02:24 MSK)

Ответ на: комментарий от KRoN73 22.06.15 13:58:23 MSK

Хм... http://unicode-table.com/ утверждает E000—F8FF «Область для частного использования», т.е. ничто.

RiseOfDeath ★★★★
(22.06.15 14:02:49 MSK)

Ответ на: комментарий от Legioner 22.06.15 14:01:10 MSK

Литературный язык к разговорному отношения не имеет.

А Вам, сударь, какая печаль?

~~KRoN73~~ ★★★★★
(22.06.15 14:02:56 MSK)

Ссылка

Ответ на: комментарий от RiseOfDeath 22.06.15 14:02:49 MSK

Хм... http://unicode-table.com/ утверждает E000—F8FF «Область для частного использования», т.е. ничто.

Х.з. По кодам не знаю. Но клингонский народ в Интернете использует :) И на Бинге перевод есть.

Wiki, вот, говорит:

pIqaD
Type: Alphabet
Languages: tlhIngan Hol (Klingon)
Unicode range: CSUR U+F8D0..U+F8FF

~~KRoN73~~ ★★★★★
(22.06.15 14:04:41 MSK)

Ответ на: комментарий от KRoN73 22.06.15 14:04:41 MSK

https://en.wikipedia.org/wiki/ConScript_Unicode_Registry

The ConScript Unicode Registry is a volunteer project to coordinate the assignment of code points in the Unicode Private Use Area for the encoding of artificial scripts for constructed languages.[1] It was founded by [John Cowan and is maintained by him and Michael Everson. It has no formal connection with the Unicode Consortium.

Tengwar (E000–E07F) [2]
Cirth (E080–E0FF) [3]
Engsvanyáli (E100–E14F) [4]
Kinya (E150–E1AF) [5]
Ilianore (E1B0–E1CF) [6]
Syai (E1D0–E1FF) [7]
Verdurian (E200–E26F) [8]
aUI (E270–E28F) [9]
Amman-Iar (E290–E2BF) [10]
Streich (E2C0–E2CF) [11]
Xaîni (E2D0–E2FF) [12]
Mizarian (E300–E33F) [13]
Zírí:nka (E340–E35F) [14]
Sarkai (E360–E37F) [15]
Thelwik (E380–E3AF) [16]
Olaetyan (E3B0–E3FF) [17]
Nísklôz (E400–E42F) [18]
Kazat ?Akkorou (E430–E44F) [19]
Kazvarad (E450–E46F) [20]
Zarkhánd (E470–E48F) [21]
Røzhxh (E490–E4BF) [22]
Serivelna (E4C0–E4EF) [23]
Kelwathi (E4F0–E4FF) [24]
Saklor (E500–E51F) [25]
Rynnan (E520–E54F) [26]
Alzetjan (E550–E57F) [27]
Telarasso (E580–E59F) [28]
Ssûraki (E5A0–E5BF) [29]
Gargoyle (E5C0–E5DF) [30]
Ophidian (E5E0–E5FF) [31]
Ferengi (E600–E62F) [32]
Seussian Latin Extensions (E630–E64F) [33]
Ewellic (E680–E6CF) [34]
Unifon (E740–E76F) [35]
Solresol (E770–E77F) [36]
Visible Speech (E780–E7FF) [37]
Monofon (E800–E82F) [38]
Aiha (F8A0–F8CF) [39]
Klingon (F8D0–F8FF) [40]
Kinya syllables (F0000–F0E69) [41]
Pikto (F0E70–F16AF) [42]

~~KRoN73~~ ★★★★★
(22.06.15 14:06:16 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 →

← Mageia 5

Документация

Anonymous запустили новую социальную сеть на основе блокчейна →

Похожие темы