LINUX.ORG.RU

Unicode


12

1

Всего сообщений: 8

Unicode 16.0

Unicode 16.0
Группа Open Source

10 сентября состоялся выпуск 16.0 стандарта кодирования символов Unicode.

В этой версии добавлено 5185 новых символов, включая:

  • 3995 дополнительных символов египетских иероглифов;
  • семь новых письменностей (тулу, албанский Тодри, гарай (Сенегал), сунвар Джентича, гурунг, кират и ол-онал);
  • семь новых символов эмодзи: лицо с «мешками» под глазами, отпечаток пальца, безлистное дерево, корнеплод, арфа, лопата и брызги;
  • флаг острова Сарк;
  • более 700 символов устаревшей вычислительной техники.

На данный момент стандарт содержит 154998 символов, 168 письменностей и 3790 эмодзи.

>>> Подробности

 , ,

dataman
()

uni-algo 0.8.0 - библиотека алгоритмов Unicode для C++

Группа Open Source

uni-algo - быстрая C++ (диалект C++17) header-only библиотека алгоритмов Unicode 15.0, лицензированная как MIT/Public Domain.


Изменения:

  • добавлена поддержка scripts и script extensions (UAX #24);
  • в реализацию сегментации текста добавлена поддержка курсора;
  • оптимизировано конвертирование строк ASCII в UTF;
  • в класс una::error добавлен una::error::code;
  • версии в una::version преобразованы в классы;
  • файл uni_algo/version.h больше не используется несколькими файлами;
  • переименование UNI_ALGO_DISABLE_SHRINK_TO_FIT в UNI_ALGO_NO_SHRINK_TO_FIT;
  • переименование UNI_ALGO_DISABLE_BREAK_GRAPHEME в UNI_ALGO_DISABLE_SEGMENT_GRAPHEME;
  • переименование UNI_ALGO_DISABLE_BREAK_WORD в UNI_ALGO_DISABLE_SEGMENT_WORD;
  • переименование функций поиска в find;
  • переименование класса una::search в una::found.

>>> Подробности

 , , ,

dataman
()

В стандарт Unicode 11.0 добавлен «COPYLEFT SYMBOL»

В стандарт Unicode 11.0 добавлен «COPYLEFT SYMBOL»
Группа Open Source

В новом стандарте Unicode 11.0 добавлен символ "копилефт" (противоположность символу "копирайт") — U+1F12F.

1F12F 🄯 COPYLEFT SYMBOL

>>> Диапазон символов U+1F100 — U+1F1FF (PDF)

>>> Подробности

 , ,

atsym
()

n7t328IIpnwd 0.3

Группа Open Source

Состоялся релиз n7t328IIpnwd 0.3 — утилиты для lossless дампа UTF-32 данных в KOI8-R/ASCII.

( читать дальше... )

>>> Скачать (2257 байт)

 , ,

saahriktu
()

Unicode 8.0

Группа Документация

Unicode Consortium выпустил новую версию стандарта кодирования текстов Unicode — 8.0.

Самым нашумевшим изменением в новой версии стал стандарт для обозначения цвета кожи для символов эмодзи. Эти символы, появившиеся изначально в японской индустрии сотовых телефонов, на многих устройствах отображаются цветными, причём в виде человеческих лиц со светлым цветом кожи, а не в виде более или менее абстрактных «смайликов». Стандарт это разрешает и даже в некоторой степени регламентирует. Однако многие пользователи были недовольны тем фактом, что эти смайлики всегда отображаются с одним и тем же цветом кожи, чаще всего светлым, так что невозможно было, скажем, вставить символ U+1F478 PRINCESS 👸 так, чтобы эта принцесса была негритянкой.

Теперь такая возможность есть. Символы с U+1F3FB по U+1F3FF будут сделаны модификаторами для эмодзи, обозначающими шесть тонов кожи по шкале Фитцпатрика (первый — самый светлый, шестой — самый тёмный, но первый и второй тона не различаются). Символ эмодзи, за которым следует один из этих модификаторов, должен будет отображаться соответствующим цветом. Таким образом U+1F478 + U+1F3FB = 👸🏻 (белая принцесса), U+1F478 + U+1F3FD = 👸🏽 (смуглая принцесса), а U+1F478 + U+1F3FF = 👸🏿 (чёрная принцесса). Эмодзи без указания цвета кожи следует отображать в нейтральном, неестественном цвете, например, жёлто-оранжевом.

Возможность вставки в текст «разноцветных» эмодзи уже появилась в последних версиях ПО от Apple — основного лоббиста нововведения. Вероятно, пользователи Mac OS X и iOS увидят эффект даже в этом тексте, если только в этой новости показ эмодзи картинками не будет отключён настройками сайта или браузера.

Консорциум отмечает, что хотя добавленных функций не хватит, чтобы отразить всё разнообразие вида Homo Sapiens (например, нельзя сделать «азиатское лицо» или U+1F46A FAMILY 👪 с несколькими разными цветами кожи), всё же основная задача Юникода — кодирование текстов, поэтому сложные изображения следует пересылать в виде изображений.

Не обошлось без курьёзов. Например, некоторые азиатские пользователи техники Apple не поняли, что «дефолтный» жёлтый — это нейтральный цвет, и решили, что это крайне оскорбительная расистская выходка.

Из менее забавных нововведений:

  • Знаки слогового письма Чероки в нижнем регистре в дополнение к уже имевшимся знакам Чероки.
  • Много новых унифицированных иероглифов CJK.
  • Добавлен символ грузинской валюты лари.
  • Добавлены символы языков ик, куланго и некоторых другх африканских языков.
  • Письменность ахом для одноимённого индийского языка.
  • Новые арабские буквы для арви — тамильского языка, записанного арабскими буквами.
  • В общей сложности 6 новых письменностей и 7716 новых символов.

Стоит отметить, что консорциум Unicode перешёл на новую схему выпусков. Теперь выпуск новых версий стандарта будет происходить в июне-июле каждого года. Увеличиваться будет старшая цифра версии (предыдущий выпуск был 7.0, следующий, предположительно, будет 9.0), кроме промежуточных выпусков, которые если и будут делаться, то только при острой необходимости. Это позволит тем, кому надо постоянно следить за стандартом, знать, когда готовиться к новому выпуску. Кардинальных изменений в структуре стандарта, вроде того, что произошло при переходе от Unicode 1.1 к 2.0 больше, предположительно, не будет никогда.

>>> Сообщение о выпуске

 , , ,

proud_anon
()

Unicode 7.0.0

Группа Документация

16 июня Unicode Consortium официально выпустил новую версию стандарта Unicode — 7.0.0.

В ней появилось 2834 новых символа, включая U+20BD RUBLE SIGN (₽, см. картинку в объявлении о выпуске, если не отображается), по принятому Банком России в прошлом году образцу. Также в стандарте появился символ азербайджанской валюты — U+20BC MANAT SIGN (₼).

Ещё появилось 250 символов, взятых из популярных шрифтов Wingdings и Webdings, которые, таким образом, стали уважаемыми и общепринятыми знаками для обмена сообщениями, а не просто проприетарным хаком от корпорации Microsoft. Особенно активно в интернете обсуждались символы U+1F574 MAN IN BUSINESS SUIT LEVITATING (🕴) и U+1F596 RAISED HAND WITH PART BETWEEN MIDDLE AND RING FINGERS (🖖, он же «вулканское приветствие» или «благословение коэнов»). Свободный шрифт Symbola уже поддерживает многие из этих знаков в версии 7.12.

Из менее забавных изменений стоит отметить добавление блоков для 23 новых письменностей из самых разных регионов мира. Появились также новые блоки, связанные с уже присутствовавшими в стандарте письменностями, в том числе Latin Extended-E и Combining Diacritical Marks Extended. Есть и изменения, касающиеся России и близлежащих территорий, например, добавление древнепермских знаков (Old Permic) и письменности Кавказской Албании (Caucasian Albanian).

Внесены некоторые изменения в UTS #10 (алгоритм сортировки Unicode) и UTS #46 (обработка интернационализованных доменных имён).

Основная спецификация (Core Specification) проходит редактирование, и выпуск её запланирован на 15 октября. Пока консорциум рекомендует пользоваться черновиками.

>>> Подробно о Unicode 7.0.0

>>> Скачать PDF со всеми знаками (98 Мб)

>>> Объявление о выпуске в блоге Unicode, Inc.

 , , ,

proud_anon
()

Вышла новая версия стандарта Unicode: 6.3.0

Группа Документация

Unicode Consortium объявил о выпуске Unicode Standard 6.3.0 — универсального стандарта для кодирования текстов на любых языках мира.

Главные изменения нового выпуска касаются двунаправленного письма (bi-directional writing, сокр. BiDi), то есть чередования в тексте письма слева направо и справа налево. В языках, где пишут справа налево (арабский, иврит и др.), такое смешение проиходит очень часто, например, при записи чисел арабскими цифрами, вставке иностранных (в т.ч. английских) слов и так далее.

В версии 6.3.0 введено понятие фраз, изолированных по направлению письма (bi-directional isolates). Ранее они уже появились в HTML5 (тег <bdi>). Изолированные фразы должны отображаться в своём направлении, вне зависимости от окружающего текста. Существующие уже символы U+202A LRE и U+202B RLE имеют похожее действие, но являются «сильными» с точки зрения алгоритма отображения, то есть могут повлиять на отображение окружающих символов. Иногда это нежелательно, но обходится только нетривиальным анализом текста для правильной вставки кодов направления письма. Изоляты таких проблем вызывать не должны, потому что на окружающий текст не влияют. Для них определены следующие новые коды:

  • U+2066 LEFT-TO-RIGHT ISOLATE
  • U+2067 RIGHT-TO-LEFT ISOLATE
  • U+2068 FIRST STRONG ISOLATE (вводит изолят с автоматически определяемым направлением письма)
  • U+2069 POP DIRECTIONAL ISOLATE (обозначает конец изолята)

Помимо этих символов появился ещё один, тоже связанный с BiDi:

  • U+061C ARABIC LETTER MARK (как U+200F RLM, только для арабского языка, Bidi_Class = AL).

Внесены соответствующие изменения в Unicode Standard Annex #9: Unicode Bidirectional Algorithm.

Когда у вас ОС и браузер начнут поддерживать Unicode 6.3.0, три строчки ниже будут отображаться одинаково. Если только две верхние отображаются одинаково, у вас поддерживается Unicode от 1.1 до 6.2, но не 6.3:

Linux.org.ru Linux.org.ru ur.gro.xuniL
Linux.org.ru Linux.org.ru ‮Linux.org.ru‬
Linux.org.ru ‮Linux.org.ru ⁦Linux.org.ru⁩‬


Впрочем, проверить эту гипотезу автору новости пока удалось только на тестовой реализации алгоритма, поэтому может быть и не будут одинаково отображаться.

Для подробной информации читайте UAX #9 или предложение о введении BiDi-изолятов в Unicode (Aharon Lanin et al.).

Ещё одно важное нововведение, не связанное с BiDi, — это наведение порядка с выбором вариантов иероглифов в блоке CJK Compatibility Ideographs (U+F900 — U+FAFF). Эти иероглифы имеют больше одной формы, и раньше при нормализации текста иероглиф мог нежелательным образом поменять форму, а теперь такого не будет.

Также есть ряд точечных изменений, касающихся отдельных символов и деталей алгоритмов.

Помимо указанных выше 5 контрольных кодов, в 6.3.0 никаких новых символов (в частности, отображаемых) нет. В Core Specification не будет внесено никаких изменений — сохраняет действие версия 6.2.0, за исключением обновленного определения case-ignorable (параграф 3.13, определение D136). Кроме того, ещё с января действует Corrigendum #9 о понятии noncharacter.


Unicode 6.3.0

>>> Объявление о выпуске

 ,

proud_anon
()

Пятая редакция стандарта XML 1.0 несовместима с XML Namespaces 1.0

Группа Open Source

Попытка сделать XML более интернациональным привела к несовместимости с текущей редакцией стандарта XML Namespaces 1.0.

Один из изобретателей XML, Тим Брей, написал возражение по поводу готовящегося принятия пятой редакции XML 1.0:

http://lists.w3.org/Archives/Public/x...

Суть проблемы заключается в следующем. До пятой редакции стандарт XML 1.0 позволял использовать символы Unicode, принятого в 1998 году. Это означает, что символы, добавленные в более поздней версии Unicode, не могут быть использованы в названиях тагов и атрибутов XML 1.0 до пятой редакции. К таким символам относятся, например, буквы Амхарского языка и языка индейского племени Чероки. Пятая редакция XML 1.0 позволяет пользоваться любыми символами Unicode, добавленными после 1998 года. Однако текущий стандарт на XML Namespaces 1.0 всё ещё не позволяет этого.

>>> Подробности

 ,

bbk123
()