LINUX.ORG.RU

Unicode 17.0

 , , ,


1

2

9 сентября состоялся выпуск 17.0 стандарта кодирования символов Unicode. В этой версии добавлены 4803 новых символа.

Новшества включают в себя:

На данный момент стандарт содержит 159801 символ, 172 письменности и 3953 эмодзи.

>>> Полное описание этой версии
>>> Файлы с данными

>>> Подробности в блоге unicode.org

★★★★★

Проверено: hobbit ()
Последнее исправление: dataman (всего исправлений: 5)
Ответ на: комментарий от geometer

Мелко мыслишь, Серёжа.

Если каждый будет тащить в юникод свои крылатые качели и прекрасное далёко,
то не останется места для действительно важных эмодзи:
«где же у него всё-таки кнопка»,
«я просил четыреста капель, а тут четыреста две»,
«когда доктор сыт и больному легче» и
«мы оглядываясь видим лишь руины».

frob ★★★★★
()
Ответ на: комментарий от geometer

В пару к Сыроежкину Гусева обязательно надо. Для весомости.

P.S. Впрочем, как выше верно отметили, лучше основополагающее добавить: «где же у него всё-таки кнопка».

hobbit ★★★★★
()
Последнее исправление: hobbit (всего исправлений: 1)
Ответ на: комментарий от rtxtxtrx

там кстати негр самурай есть. 🥷🏿. но он не беременный

rtxtxtrx ★★★
()
Ответ на: комментарий от Radjah

ну в популярных типа jetbrains, fira, roboto и тп она есть

rtxtxtrx ★★★
()

Надо бы ввести для комитета хоть какое-нибудь «доказательство работой» для ввода нового символа в стандарт. Например, выбивание символа в гранитной плите (собственноручно вырезаной в карьере) для голосования за включение.

Ecl
()
Последнее исправление: Ecl (всего исправлений: 1)
Ответ на: комментарий от Tyse_EX

Ограниченность не делает чести. Вот там добавили символы умерших языков. Большинству они не нужны, но их используют специалисты для того чтобы записывать найденные тексты на этих языках чтобы эти тексты можно было обрабатывать компьютерными алгоритмами и пытаться их расшифровать. Попробуй сделать это с помощью ISO-8859-5

cobold ★★★★★
()
Последнее исправление: cobold (всего исправлений: 1)
Ответ на: комментарий от cobold

Вот там добавили символы умерших языков

Кстати, а историческая кириллица-то в юникоде есть в полном объёме? Я не про фиту и ять, эти понятно, что есть. Были ещё допетровские буквы, четыре юса, например.

Вот это, по хорошему, должно включаться явно с большим приоритетом, чем волосатые существа и искривлённые лица. И не только кириллица, но и исторические символы других алфавитов, конечно.

hobbit ★★★★★
()
Последнее исправление: hobbit (всего исправлений: 1)
Ответ на: комментарий от a1ba

Мой тейк не понят. Кто переписывается юникодными эмодзи, а не картинками эмодзи, которые не входят в хрюникод и являются составными из нескольких кодпоинтов?

PPP328 ★★★★★
()
Ответ на: комментарий от drfaust

Тем, что кое-кто придумал двухсимвольные символы и теперь вообще без бутылки, отдельного парсера и такой-то матери не разобрать что там за пачка байтиков.

ya-betmen ★★★★★
()

Кодировка текста больше 16 бит, это шиза

cdtemp
()
Ответ на: комментарий от PPP328

16 бит на символ, все что больше либо переменной длины это бред и шиза

cdtemp
()
Ответ на: комментарий от monk

А псевдосовместимость с ASCII ещё и дополнительный источник уязвимостей

Причем тут совместимость с ASCII? Автор функции не понимал, как работают многобайтные кодировки, которых очень много, и Юникод здесь совершенно ни при чем.

pasquale
()
Ответ на: комментарий от bender

Темнота, Йети не знает

В «CLDR Short Name» у них написано «hairy creature», а не «yeti». Такое вот short.
А «yeti» в «Other Keywords»:

bigfoot | cryptid | forest | giant | hairy | sasquatch | woodwose | yeti

dataman ★★★★★
() автор топика
Ответ на: комментарий от hobbit

четыре юса, например

Ⱔ U+2C24 GLAGOLITIC CAPITAL LETTER SMALL YUS
Ⱕ U+2C25 GLAGOLITIC CAPITAL LETTER SMALL YUS WITH TAIL
Ⱗ U+2C27 GLAGOLITIC CAPITAL LETTER IOTATED SMALL YUS
Ⱘ U+2C28 GLAGOLITIC CAPITAL LETTER BIG YUS
Ⱙ U+2C29 GLAGOLITIC CAPITAL LETTER IOTATED BIG YUS

ratvier ★★
()
Ответ на: комментарий от xwicked

Голосую за включение значка кроссворда.

⚔ – CROSSED SWORDS.

Пока так. :)

dataman ★★★★★
() автор топика
Ответ на: комментарий от PPP328

Покажите народность, которая разговаривает на эмодзи

Вспомнил о https://www.emojicode.org/docs/reference:

Emojicode is a language that aims to provide the most modern and powerful features to make it easy, fast and fun to write programs. These powerful features include classes, optionals, which can handle the absence of a value, generics, closures and much more.

https://www.emojicode.org/docs/reference/generics:

See this example for a box type that can store objects of a specified type. Note that inside the class body T is used as a type.

🐇 🎁 🐚T🔵🍆 🍇
  🖍🆕 something T

  🆕 ✂️ 🍼 something T 🍇🍉

  ❗️ 🎉 ➡️  T 🍇
    ↩️ something
  🍉
🍉
dataman ★★★★★
() автор топика
Ответ на: комментарий от PPP328

Не существует ни одной народности которая разговаривает на кириллице. Невозможно разговаривать на системе письма.

Письменность в принципе вещь по отношению к языку глубоко вторичная. Конкретную письменность при желании можно натянуть на любой язык в принципе (особенно если есть возможность добавить диакритики)

Ну а эмодзи да, вещь широкоупотребимая в личных переписках, во всякой короткой современной публицистике сразу во многих языках.

energetix_user ★★
()
Последнее исправление: energetix_user (всего исправлений: 1)
Ответ на: комментарий от energetix_user

Ну а эмодзи да, вещь широкоупотребимая в личных переписках

Ещё раз. В переписках, в интернете и прочих вы НЕ используете юникодные символы эмодзи. Вы используете картинки, которые даже НЕ входят в стандарт хрюникода. Например черный беременный мужик. Он сформирован из беременного мужика (простигосподи) и черного квадрата. Есть вообще картинки, которые из 10 токенов формируются.

В стандарте описаны именно шрифтовые символы. Они НЕ использутся в полях ввода и заменяются на картинки.

PPP328 ★★★★★
()
Ответ на: комментарий от pasquale

При том, что якобы можно брать юникодную строку и работать с ней как с ASCII. Если бы там был нормальный UCS-2/UCS-4, такая ошибка просто была бы невозможна.

monk ★★★★★
()
Ответ на: комментарий от PPP328

Так и обычный текст тоже может формироваться больше чем из одного токена. é можно закодировать и как U+00E9, и как é (e + U+0301 с combining), так просто для символов которые реально часть устоявшегося алфавита не делают так как затрудняет полнотекстовый поиск, но для указания ударений или чего-то типа ruby нотации может использоваться.

И нет, там не чёрный квадрат, там отдельный кодпоинт который в отдельности может уже твоей операционкой рендериться как чёрный квадрат, это отдельные токены и модификаторы.

По поводу замены на картинки – да, так некоторые действительно делают, вк вот в ВЕБ-версии действительно делает, они заменяют эндпоинт на gif-блоб 16x16. ЛОРчик так же делает. Но это дурной тон и сделано для того чтобы оно на всех девайсах выглядело одинаково вне зависимости от системного шрифта и в принципе наличия их чтобы не бесить людей квадратами.

А я могу привести пример сайтов которые не делают эту идиотскую замену. Github например поля ввода не фильтрует и md-шки рендеряться без этой автозамены. Любое мобильное приложение это чаще всего не делает (под iOS во всяком случае). Когда ты прости г-оди емейл самый обычный классический отправляешь у тебя даже веб-почта эмодзи не режет.

energetix_user ★★
()
Ответ на: комментарий от PPP328

Вы используете картинки, которые даже НЕ входят в стандарт хрюникода. Например черный беременный мужик. Он сформирован из беременного мужика (простигосподи) и черного квадрата. Есть вообще картинки, которые из 10 токенов формируются.

Так они определены этим же стандартом.

https://unicode.org/reports/tr51/#Diversity

Так же как и строки типа м̴̢̞͕̥̣̖͉̜̒̏̌̑̊̈́̏̕̕͠у̡̞͎̹̗̿̔̃̿͊̽̑с̴͎̻͇͍̖̭̬̏͆͋̈̊́̿̎͘͢͡о̣̝̘̙̯͙̫̬̅͂͊̈́͋̽̎̅̋͠р̶̧̛͙̫̠̖͂͐̒͗͒̄͠ н̨̢̡̘̘̣̋̏̿͊͂̿̑̀̒͘а̮͕̮̇̅͛̋͗̓̓̋͜͜ э̢͍͓̖̥̿̽̇͌̍̈́͋̕͢͡к̣̰̝͍̲̘̟̜̍̀̍̀͊͐̕̚͢р͍̥͎̖̯̮͉̲̩̆̈̀̽͡͝а̧̨̯̯̻̣͎̰̱̯͂͒̃̈̿̄͛н̛̪̤̫̤̞̭͎͎̟̏̍̆͊͡е̸̙̮͍̳̭̼͚̻̯̒͋̾̉͟͝͠

monk ★★★★★
()
Ответ на: комментарий от energetix_user

Но это дурной тон и сделано для того чтобы оно на всех девайсах выглядело одинаково вне зависимости от системного шрифта

А я могу привести пример сайтов которые не делают эту идиотскую замену.

Если не делать замену, то пользователи увидят разные эмодзи в зависимости от устройства:

https://cs8.pikabu.ru/post_img/2016/04/13/10/146056500817722774.png

https://cs8.pikabu.ru/post_img/2016/04/13/10/1460565673187879678.png

monk ★★★★★
()
Ответ на: комментарий от monk

Да, это сильно вредит семантике. И основной тут косяк именно в том что как эталонное считывается многими AppleColorEmoji, а там проприетарная лицензия не допускающая ни коммерческого использования, ни даже лицензирования.

Но один чёрт пихать их в статику выглядит как костыль, это ну как webfonts для каждого сайта прописывать абсолютного вместо стандартного sans шрифта для системы (будь это helvetica или noto у пользователя не так важно), хотя я знаю что многие и это делают.

Это некрасиво а также наверняка ломает экранные дикторы всякие если элемент с эмодзи ещё отдельным alt-текстом не сопроводить. Ну и при копировании текста тоже приколы и неудобно с inline картиночками этого.

В общем я понимаю почему так делают, но моё чувство прекрасного это задевает..

energetix_user ★★
()
Ответ на: комментарий от monk

Так они определены этим же стандартом.

Отличная идея тащить это в стандарт, чтобы разный цвет кожи рисовать В ЧЕРНО-БЕЛОМ ШРИФТЕ!

Ну и да, все болт клали на стандарт. В windows есть «панель эмоджи», в которой огромная часть - это самовольные EEE, которые нормально отображаются только в части виндовых программ:

🐱‍👓🐱‍🐉🐱‍💻🐱‍🏍🐱‍👤🐱‍🚀

https://habrastorage.org/r/w1560/getpro/habr/upload_files/523/a14/714/523a1471496a2f57468f61178b906498.png

PPP328 ★★★★★
()
Ответ на: комментарий от PPP328

Отличная идея тащить это в стандарт, чтобы разный цвет кожи рисовать В ЧЕРНО-БЕЛОМ ШРИФТЕ!

Ладно, когда в чёрно-белом. Что делать, если строка синих эмодзи выводится белым цветом на синем фоне (например, в mc или как часть имени на этом сайте).

monk ★★★★★
()
Ответ на: комментарий от PPP328

И? Вот представь, что у меня вместо имени три эмодзи того цвета, которого фон на сайте. Каким цветом их выводить? Принудительно менять цвет на белый или пусть будут невидимые?

monk ★★★★★
()
Ответ на: комментарий от PPP328

В стандарте буквально подразумевается наличие цвета.

⚠︎ ⚠️ <- я ввёл один и тот же символ, но для первого был указан селектор для текстовой презентации (VARIATION SELECTOR-15)

В этом же стандарте для некоторых новых не удосуживаются прописать необходимость имплементации text representation. А вот цветные репрезентации обязательны для всех. Так что черно-белый шрифт эт на отвали возможность прописанная, а не по-умолчанию.

все Microsoft

ну вообще ерунда по ссылке хоть и не стандарт но была закодировано просто несколькими символами с zero width join и на других платформах кот-ниндзя рендерилась как кот с силуэтом (ну и на лоре да)

ну в общем случае это non-RGI и эту нестандартную ерунду никто использовать и не будет

energetix_user ★★
()
Ответ на: комментарий от energetix_user

эту нестандартную ерунду никто использовать и не будет

Эта нестандартная ерунда сейчас стоит на 60% всех машин по всему миру.

PPP328 ★★★★★
()
Ответ на: комментарий от PPP328

Неправда, эти 60-80% от ~35% типа «десктопов».

Суммарно устройств на чём-то от корпорации зла (Apple) столько же если не больше. + устройства от другой корпорации зла (Google)

/+ выше упомянутая (тобой же) манеры и привычка заменять много где на пнгшку из набора начертаний от какого-то левого вендора и обработка полей ввода делает это не EEE, а просто штукой которую невозможно увидеть вообще нигде в композитном виде (кроме какого-нибудь Microsoft Teams).

Я о коте-ниндзя если что узнал от тебя минут 20 назад, в реальной жизни этого не видел ни разу.

energetix_user ★★
()
Последнее исправление: energetix_user (всего исправлений: 1)
Ответ на: комментарий от geometer

«Пусть лошадь думает, у ей башка большая»

frob ★★★★★
()
Ответ на: комментарий от PPP328

Народ пользуется. Я не понимаю о чём ты.

a1ba ★★★
()
Ответ на: комментарий от cobold

Я вот как-то придумал шутку про то как читаются египетские иероглифы 𓆃𓆃𓆃𓆃𓆃𓆃𓆃𓂸𓂸𓂸𓂸𓂸, но не все оценили шутку потому что увидели только квадратики

YogSagot ★★☆
()
Ответ на: комментарий от hobbit

там есть даже буква ꙮ, нарисованная писцом по приколу в одной-единственной летописи.

alegz ★★★★★
()
Ответ на: комментарий от monk

Делать глиф в шрифте не одноцветным, а с рамками, бликами и т д. В итоге, каким бы не был цвет фона, полностью не сольется.

Собственно, так и делают.

KivApple ★★★★★
()
Ответ на: комментарий от MOPKOBKA

Что бы ими можно было пользоваться?

Куда-то не туда оно движется. Сначала человеческая письменность эволюционировала от рисунков к буквам. То есть на следующий уровень абстракции. А теперь деградирует обратно к картинкам.

стандарт содержит 159801 символ

Поневоле задумываешься что однобайтные кодировки удобнее для тех задач где не требуется отображение письменности толонг-сики

watchcat382
()

Они туда йетти запихали. Я понимаю что места много, но походу скоро можно ждать просто мемов, «ждун», «Бать те нормально? Нормааааально», и так далее :D

3953 эмодзи

Мне кажется 99% из них никто и никогда не увидит.

LINUX-ORG-RU ★★★★★
()
Ответ на: комментарий от LINUX-ORG-RU

Эллочка Щукина: «Хо-хо! Знаменито жуткий, толстый и красивый мрак! Кр-р-расота!».

dataman ★★★★★
() автор топика
Ответ на: комментарий от watchcat382

Поневоле задумываешься что однобайтные кодировки удобнее для тех задач где не требуется отображение письменности толонг-сики

В однобайтную совсем мало помещается. В «русской» КОИ-8 нет ни кавычек ни номера ни знака параграфа.

И математические тексты не набрать, так как нужны греческие символы.

Для многих задач хватило бы двухбайтной, а для всех задач трёхбайтной. Но в юникоде, как всегда, всё наихудшим образом.

monk ★★★★★
()
Ответ на: комментарий от monk

В «русской» КОИ-8 нет ни кавычек ни номера ни знака параграфа.

Их там нет не из-за недостатка места, а потому что аффтары сочли поддержку псевдографики более важной задачей. В виндовой 1251 всё это есть.

alegz ★★★★★
()
Ответ на: комментарий от monk

Так сырой юникод редко когда используется. UTF-8 имеет плавающую длину на символ, там как раз один байт на ASCII субсет, два на всякие кирилицы и расширенные латиницы, три для cjk, четыре для всего остального.

Так ли часто используется какая-нибудь кириллица чтобы для неё были востребованы отдельные однобайттвые кодировки, ну кажется что нет.

energetix_user ★★
()
Последнее исправление: energetix_user (всего исправлений: 1)
Ответ на: комментарий от monk

И математические тексты не набрать, так как нужны греческие символы.

Лично видел редакторы под ДОС,которые успешно набирали и греческие символы и даже иврит. Например Chiwriter. Также под досом вполне работал ТеХ,какая-то из его разновидностей. А он и сейчас заткнет за пояс большинство редакторов по полиграфическому качеству набора научных текстов.

watchcat382
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.