LINUX.ORG.RU

Unicode 8.0

 , , ,


3

3

Unicode Consortium выпустил новую версию стандарта кодирования текстов Unicode — 8.0.

Самым нашумевшим изменением в новой версии стал стандарт для обозначения цвета кожи для символов эмодзи. Эти символы, появившиеся изначально в японской индустрии сотовых телефонов, на многих устройствах отображаются цветными, причём в виде человеческих лиц со светлым цветом кожи, а не в виде более или менее абстрактных «смайликов». Стандарт это разрешает и даже в некоторой степени регламентирует. Однако многие пользователи были недовольны тем фактом, что эти смайлики всегда отображаются с одним и тем же цветом кожи, чаще всего светлым, так что невозможно было, скажем, вставить символ U+1F478 PRINCESS 👸 так, чтобы эта принцесса была негритянкой.

Теперь такая возможность есть. Символы с U+1F3FB по U+1F3FF будут сделаны модификаторами для эмодзи, обозначающими шесть тонов кожи по шкале Фитцпатрика (первый — самый светлый, шестой — самый тёмный, но первый и второй тона не различаются). Символ эмодзи, за которым следует один из этих модификаторов, должен будет отображаться соответствующим цветом. Таким образом U+1F478 + U+1F3FB = 👸🏻 (белая принцесса), U+1F478 + U+1F3FD = 👸🏽 (смуглая принцесса), а U+1F478 + U+1F3FF = 👸🏿 (чёрная принцесса). Эмодзи без указания цвета кожи следует отображать в нейтральном, неестественном цвете, например, жёлто-оранжевом.

Возможность вставки в текст «разноцветных» эмодзи уже появилась в последних версиях ПО от Apple — основного лоббиста нововведения. Вероятно, пользователи Mac OS X и iOS увидят эффект даже в этом тексте, если только в этой новости показ эмодзи картинками не будет отключён настройками сайта или браузера.

Консорциум отмечает, что хотя добавленных функций не хватит, чтобы отразить всё разнообразие вида Homo Sapiens (например, нельзя сделать «азиатское лицо» или U+1F46A FAMILY 👪 с несколькими разными цветами кожи), всё же основная задача Юникода — кодирование текстов, поэтому сложные изображения следует пересылать в виде изображений.

Не обошлось без курьёзов. Например, некоторые азиатские пользователи техники Apple не поняли, что «дефолтный» жёлтый — это нейтральный цвет, и решили, что это крайне оскорбительная расистская выходка.

Из менее забавных нововведений:

  • Знаки слогового письма Чероки в нижнем регистре в дополнение к уже имевшимся знакам Чероки.
  • Много новых унифицированных иероглифов CJK.
  • Добавлен символ грузинской валюты лари.
  • Добавлены символы языков ик, куланго и некоторых другх африканских языков.
  • Письменность ахом для одноимённого индийского языка.
  • Новые арабские буквы для арви — тамильского языка, записанного арабскими буквами.
  • В общей сложности 6 новых письменностей и 7716 новых символов.

Стоит отметить, что консорциум Unicode перешёл на новую схему выпусков. Теперь выпуск новых версий стандарта будет происходить в июне-июле каждого года. Увеличиваться будет старшая цифра версии (предыдущий выпуск был 7.0, следующий, предположительно, будет 9.0), кроме промежуточных выпусков, которые если и будут делаться, то только при острой необходимости. Это позволит тем, кому надо постоянно следить за стандартом, знать, когда готовиться к новому выпуску. Кардинальных изменений в структуре стандарта, вроде того, что произошло при переходе от Unicode 1.1 к 2.0 больше, предположительно, не будет никогда.

>>> Сообщение о выпуске

★★★★★

Проверено: Shaman007 ()

почему нет чёрного властелина

cawa ()

Таким образом U+1F478 + U+1F3FB = 👸🏻 (арийская принцесса), U+1F478 + U+1F3FD = 👸🏽 (принцесса-грязнокровка), а U+1F478 + U+1F3FF = 👸🏿 (расово неполноценная принцесса).

Fixed.

vurdalak ★★★★★ ()

Зачем включать в кодировку то, что делается форматированием? <span style=«color:#040»> и будет вам пьяная негритянская принцесса.

Klymedy ★★★★★ ()

А что нужно поставить в gentoo чтобы увидеть это мракобесие? Firefox - не кажет, Konqueror - тоже

yaruna ()

А вообще лучше бы сделали плоские цвета, чтобы можно было делать эквестрийских бабонек.

olibjerd ★★★★★ ()
Ответ на: комментарий от Hazowskey

И даже говно с глазами, упоролись на отличненько.

ptah_alexs ★★★★★ ()

7716 новых символов

какая жесть... всё же, видимо, 8битное кодирование было не таким и плохим.

anonymous ()
Ответ на: комментарий от asaw

А как же facepalm???

Пиши в консорциум, может к версии 9.0 и фейспалм добавят. Хотя сначала надо убедиться, что его уже не добавили

Harald ★★★★★ ()

Самым нашумевшим изменением в новой версии стал стандарт для обозначения цвета кожи для символов эмодзи.

А символы для обозначения 100500 гендеров как же?

enso ★★★★ ()

Ujccgjlb? ну были же нормальные текстовые смайлы так и тут пришел гейский аппле и все зассралл...

AVL2 ★★★★★ ()

Консорциум отмечает, что хотя добавленных функций не хватит, чтобы отразить всё разнообразие вида Homo Sapiens (например, нельзя сделать «азиатское лицо» или U+1F46A FAMILY 👪 с несколькими разными цветами кожи)

Это явный фошызм и расизм! И почему FAMILY - традиционная семья? Это явная дискриминация прав ЛГБТ!

Nedis ()
Ответ на: комментарий от olibjerd

Знаки слогового письма Чероки в нижнем регистре в дополнение к уже имевшимся знакам Чероки.

Но зачем?

Очевидно же: для пользователей, говорящих на языке Чероки.

Dmitry_Sokolowsky ★★★★★ ()

А героев My Little Pony в юникод когда добавят? :)

AP ★★★★★ ()
Ответ на: комментарий от Psych218

Смайлы сегодня это часть текста. Они выражают эмоции. Я думаю, это одно из самых кардинальных нововведений в язык за последние столетия.

То, что пестрят, мне тоже не нравится. По крайней мере дефолтные должны бы быть цветом текста, а не жёлтым. Но видимо у консорциума были свои соображения по этому поводу.

Legioner ★★★★★ ()

Это уже не символьный набор, это какие-то пиктограммы.

anonymous ()
Ответ на: комментарий от Legioner

Смайлы сегодня это часть текста. Они выражают эмоции. Я думаю, это одно из самых кардинальных нововведений в язык за последние столетия.

то есть, Пушкина ты читал с постной рожей, не понимая, где смешно, где грустно, и вообще, где что происходит?

1912 год:
- Дорогой мой, я в неописуемом восторге! Ваше литературное творение меня поразило; оно умно, тонко, изящно, многогранно, и, уверен, при повторном прочтении оно заиграет ещё более яркими красками, не говоря уже о том, что вам и ему уготована удивительная, длинная и счастливая судьба!

2012 год:
- Гы :) +1! Пешы исчо!

buratino ★★★★ ()

Для документиков хотимылок сойдёт. Но зачем тащат это в систему? Проблему с кодировками нужно было решать давно и железом, увеличив кол-во битов в байте. Заодно ряд других проблем можно было бы решить.

anonymous ()
Ответ на: комментарий от makoven

модификатор, позволяющий сделать смайлик православным, масульманским или буддийстким

☺☦☪仏☯☮☭

KRoN73 ★★★★★ ()
Ответ на: комментарий от Deleted

Что то не отображается половина символов. Хром, винда.

Все символы, кроме модификаторов отображаются. Хром, винда :)

KRoN73 ★★★★★ ()
Ответ на: комментарий от robert_foster

новые виды письменности

А вот это реальное уважение к людям.

Самое смешное, при всех этих мёртвых языках и политкорректных принцессах, некоторые люди сегодня не могут своё имя на родном языке записать: http://habrahabr.ru/post/253381/

KRoN73 ★★★★★ ()

Safari на макси — и правда есть разноцветные рожи.

Они уже закодировали все иероглифы и просто маются дурью?

staseg ★★★★★ ()
Ответ на: комментарий от KRoN73

некоторые люди сегодня не могут своё имя на родном языке записать

Этого бенгалийца много где обсуждали. На Hackersnews даже пришёл другой бенгалиец, который якобы участвовал в стандартизации бенгали в Юникоде. Всё там можно записать. Просто автору статьи кажется неочевидным, что одна из букв — составная графема.

proud_anon ★★★★★ ()
Ответ на: комментарий от anonymous

Ну как бы размер машинного слова (то есть объём данных, который обрабатывается за раз) и так больше 8 бит везде кроме 8-битных микроконтроллеров. А если рассматривать современные десктопные/серверные/мобильные процессоры, то вообще как минимум 32 бита, а то и 64. Ты вполне можешь описывать строки как массив uint32_t и не получишь никаких потерь производительности на подавляющем большинстве систем (то есть всех, кроме некоторых микроконтроллеров и древних компьютеров). Байт это всего лишь термин, точно также как и бит. Менять устоявшиеся термины - вносить лишнюю путаницу. К тому же аппаратно этот термин мало, что значит, на уровне железа имеет значение лишь размер машинного слова.

В том же UTF-16 это вполне используется (строка является массивом uint16_t), UTF-8 обеспечивает обратную совместимость и часто позволяет оптимизировать занимаемое текстом место в памяти или на диске. Только вот стандарт Unicode одинаково касается, что UTF-8, что UTF-16, что UTF-32.

KivApple ★★★★★ ()
Последнее исправление: KivApple (всего исправлений: 1)
Ответ на: комментарий от Klymedy

Зачем включать в кодировку то, что делается форматированием? <span style=«color:#040»> и будет вам пьяная негритянская принцесса.

И как форматированием раскрасить морду, волосы и глаза разным цветом?

andreyu ★★★★★ ()
Ответ на: комментарий от buratino

то есть, Пушкина ты читал с постной рожей, не понимая, где смешно, где грустно, и вообще, где что происходит?

Это пять! Спасибо.

andreyu ★★★★★ ()

для обозначения цвета кожи

Раньше негры обижались на черную морду ☻/☺?

anonymous ()
Ответ на: комментарий от makoven

И модификатор, позволяющий сделать смайлик православным, масульманским или буддийстким

Всё еще впереди.

dodevich ()

Когда они уже клингонский добавят?

RiseOfDeath ★★★★ ()
Ответ на: комментарий от proud_anon

Просто автору статьи кажется неочевидным, что одна из букв — составная графема.

Ну мне тоже кажется, что нормой для русского — использование буквы «ё», а не «е» и модификатора :)

KRoN73 ★★★★★ ()
Ответ на: комментарий от RiseOfDeath

Когда они уже клингонский добавят?

  !

KRoN73 ★★★★★ ()
Ответ на: комментарий от KRoN73

буквы «ё»

Мертворожденное поделие.

anonymous ()
Ответ на: комментарий от buratino

то есть, Пушкина ты читал с постной рожей, не понимая, где смешно, где грустно, и вообще, где что происходит?

Нет, я у обычных людей ни разу не читал пушкинских оборотов. Всё больше смайлами обходятся. Литературный язык к разговорному отношения не имеет.

Legioner ★★★★★ ()
Ответ на: комментарий от anonymous

Мертворожденное поделие.

Ришельё, Рёрих, Монтескьё, Депардьё, Пастёр, Рёнтген, Чёрчилль, Гёббельс, Гёринг, Фёт, Лёв Толстой, Фрёйд и ещё великое множество иных жертв деёфикации на тебя смотрят с недоумением.

KRoN73 ★★★★★ ()
Ответ на: комментарий от Legioner

Литературный язык к разговорному отношения не имеет.

А Вам, сударь, какая печаль?

KRoN73 ★★★★★ ()
Ответ на: комментарий от RiseOfDeath

Хм... http://unicode-table.com/ утверждает E000—F8FF «Область для частного использования», т.е. ничто.

Х.з. По кодам не знаю. Но клингонский народ в Интернете использует :) И на Бинге перевод есть.

Wiki, вот, говорит:


pIqaD
Type: Alphabet
Languages: tlhIngan Hol (Klingon)
Unicode range: CSUR U+F8D0..U+F8FF

KRoN73 ★★★★★ ()
Ответ на: комментарий от KRoN73

https://en.wikipedia.org/wiki/ConScript_Unicode_Registry

The ConScript Unicode Registry is a volunteer project to coordinate the assignment of code points in the Unicode Private Use Area for the encoding of artificial scripts for constructed languages.[1] It was founded by [John Cowan and is maintained by him and Michael Everson. It has no formal connection with the Unicode Consortium.

Tengwar (E000–E07F) [2]
Cirth (E080–E0FF) [3]
Engsvanyáli (E100–E14F) [4]
Kinya (E150–E1AF) [5]
Ilianore (E1B0–E1CF) [6]
Syai (E1D0–E1FF) [7]
Verdurian (E200–E26F) [8]
aUI (E270–E28F) [9]
Amman-Iar (E290–E2BF) [10]
Streich (E2C0–E2CF) [11]
Xaîni (E2D0–E2FF) [12]
Mizarian (E300–E33F) [13]
Zírí:nka (E340–E35F) [14]
Sarkai (E360–E37F) [15]
Thelwik (E380–E3AF) [16]
Olaetyan (E3B0–E3FF) [17]
Nísklôz (E400–E42F) [18]
Kazat ?Akkorou (E430–E44F) [19]
Kazvarad (E450–E46F) [20]
Zarkhánd (E470–E48F) [21]
Røzhxh (E490–E4BF) [22]
Serivelna (E4C0–E4EF) [23]
Kelwathi (E4F0–E4FF) [24]
Saklor (E500–E51F) [25]
Rynnan (E520–E54F) [26]
Alzetjan (E550–E57F) [27]
Telarasso (E580–E59F) [28]
Ssûraki (E5A0–E5BF) [29]
Gargoyle (E5C0–E5DF) [30]
Ophidian (E5E0–E5FF) [31]
Ferengi (E600–E62F) [32]
Seussian Latin Extensions (E630–E64F) [33]
Ewellic (E680–E6CF) [34]
Unifon (E740–E76F) [35]
Solresol (E770–E77F) [36]
Visible Speech (E780–E7FF) [37]
Monofon (E800–E82F) [38]
Aiha (F8A0–F8CF) [39]
Klingon (F8D0–F8FF) [40]
Kinya syllables (F0000–F0E69) [41]
Pikto (F0E70–F16AF) [42]

KRoN73 ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.