Вышла новая версия стандарта Unicode: 6.3.0

3

1

Unicode Consortium объявил о выпуске Unicode Standard 6.3.0 — универсального стандарта для кодирования текстов на любых языках мира.

Главные изменения нового выпуска касаются двунаправленного письма (bi-directional writing, сокр. BiDi), то есть чередования в тексте письма слева направо и справа налево. В языках, где пишут справа налево (арабский, иврит и др.), такое смешение проиходит очень часто, например, при записи чисел арабскими цифрами, вставке иностранных (в т.ч. английских) слов и так далее.

В версии 6.3.0 введено понятие фраз, изолированных по направлению письма (bi-directional isolates). Ранее они уже появились в HTML5 (тег <bdi>). Изолированные фразы должны отображаться в своём направлении, вне зависимости от окружающего текста. Существующие уже символы U+202A LRE и U+202B RLE имеют похожее действие, но являются «сильными» с точки зрения алгоритма отображения, то есть могут повлиять на отображение окружающих символов. Иногда это нежелательно, но обходится только нетривиальным анализом текста для правильной вставки кодов направления письма. Изоляты таких проблем вызывать не должны, потому что на окружающий текст не влияют. Для них определены следующие новые коды:

U+2066 LEFT-TO-RIGHT ISOLATE
U+2067 RIGHT-TO-LEFT ISOLATE
U+2068 FIRST STRONG ISOLATE (вводит изолят с автоматически определяемым направлением письма)
U+2069 POP DIRECTIONAL ISOLATE (обозначает конец изолята)

Помимо этих символов появился ещё один, тоже связанный с BiDi:

U+061C ARABIC LETTER MARK (как U+200F RLM, только для арабского языка, Bidi_Class = AL).

Внесены соответствующие изменения в Unicode Standard Annex #9: Unicode Bidirectional Algorithm.

Когда у вас ОС и браузер начнут поддерживать Unicode 6.3.0, три строчки ниже будут отображаться одинаково. Если только две верхние отображаются одинаково, у вас поддерживается Unicode от 1.1 до 6.2, но не 6.3:

Linux.org.ru Linux.org.ru ur.gro.xuniL
Linux.org.ru Linux.org.ru ‮Linux.org.ru‬
Linux.org.ru ‮Linux.org.ru ⁦Linux.org.ru⁩‬

Впрочем, проверить эту гипотезу автору новости пока удалось только на тестовой реализации алгоритма, поэтому может быть и не будут одинаково отображаться.

Для подробной информации читайте UAX #9 или предложение о введении BiDi-изолятов в Unicode (Aharon Lanin et al.).

Ещё одно важное нововведение, не связанное с BiDi, — это наведение порядка с выбором вариантов иероглифов в блоке CJK Compatibility Ideographs (U+F900 — U+FAFF). Эти иероглифы имеют больше одной формы, и раньше при нормализации текста иероглиф мог нежелательным образом поменять форму, а теперь такого не будет.

Также есть ряд точечных изменений, касающихся отдельных символов и деталей алгоритмов.

Помимо указанных выше 5 контрольных кодов, в 6.3.0 никаких новых символов (в частности, отображаемых) нет. В Core Specification не будет внесено никаких изменений — сохраняет действие версия 6.2.0, за исключением обновленного определения case-ignorable (параграф 3.13, определение D136). Кроме того, ещё с января действует Corrigendum #9 о понятии noncharacter.

Unicode 6.3.0

>>> Объявление о выпуске

Ссылка

← Обновился проект Fontello для генерации иконочных шрифтов

Bitmessage 0.4.1 →

Прикольно, в akregator в этой статье после манипуляций с направлением письма весь текст до конца остался перевёрнутым.

Belomir ★
(01.10.13 11:58:02 MSK)

воротагерка роткетед дерт

dekar ★
(01.10.13 12:03:30 MSK)

Эх, еще бы фонетические значки для немецкого сделали. Дело в том, что немцы, при наличии в Юникоде всего международного фонетического алфавита, решили выпендриться и используют несколько уникальных символов для ряда звуков. Филологи мучаются, или раскапывая специальные шрифты, или вставляя уродливый растр.

~~Bagrov~~ ★★★★★
(01.10.13 12:24:45 MSK)

Ссылка

Всегда особенно уважал разработчиков этого стандарта. Это ж сколько нюансов им приходится учитывать! Посмотришь на юникодные таблицы, и весь мир как на ладони. Вот бы они когда-нибудь добавили символы из т.н. «Рукописи Войнича».

CARS ★★★★
(01.10.13 12:27:23 MSK)

Ответ на: комментарий от dekar 01.10.13 12:03:30 MSK

ps: у вас ачепятка

ZuBB ★★★★★
(01.10.13 12:32:19 MSK)
Последнее исправление: ZuBB 01.10.13 12:32:56 MSK (всего исправлений: 1)

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Синдарин лучше. Им хотя бы пользуются.

anonymous
(01.10.13 12:33:50 MSK)

файрфокс 24 еще не 6.3

kto_tama ★★★★★
(01.10.13 12:51:46 MSK)
Последнее исправление: kto_tama 01.10.13 12:52:08 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ZuBB 01.10.13 12:32:19 MSK

akregator?
Хотя, может быть и у других RSS читалок всё грустно.

dekar ★
(01.10.13 12:52:18 MSK)

Ссылка

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Все это конечно хорошо, но с шрифтами с более-менее приличным покрытием все довольно печально :(

X-Pilot ★★★★★
(01.10.13 13:45:01 MSK)

Ссылка

Ответ на: комментарий от Belomir 01.10.13 11:58:02 MSK

Кривая реализация поддержки уникода. Впрочем, сделать такую поддержку правильно - крайне нетривиальная задача, поэтому не будем строго судить разработчиков akregator. Вы баг отрепортили?

anonymous
(01.10.13 15:25:38 MSK)

Ссылка

«Управляющих» кодов, а не «контрольных». Контрольными бывают суммы, например — по ним контролируют правильность, а обсуждаемые коды управляют выводом.

anonymous
(01.10.13 15:43:02 MSK)

Ссылка

У меня в Konqueror 4.8.4 два абзаца после трех примерных строк написаны справа налево. Так и должно быть?? Может взять эти строки в какой-нибудь дополнительный div или еще как-то, воизбежании?

shaplov ★★★
(01.10.13 16:03:20 MSK)
Последнее исправление: shaplov 01.10.13 16:03:58 MSK (всего исправлений: 1)

Ссылка

Символ pony не ввели ещё? А то U+1F40E как то недостаточно.

fornlr ★★★★★
(01.10.13 16:36:49 MSK)

Ответ на: комментарий от anonymous 01.10.13 12:33:50 MSK

Синдарин это язык, его в юникоде не может быть просто по определению, записывают его чаще всего либо латиницей, либо тенгваром, какая-то движуха по включению последнего в юникод вроде как есть: http://en.wikipedia.org/wiki/Tengwar#Unicode

MrClon ★★★★★
(01.10.13 17:44:27 MSK)

Ссылка

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Вот бы они когда-нибудь добавили символы из т.н. «Рукописи Войнича».

А также из т. н. «Велесовой книги».

~~NaN~~
(01.10.13 17:51:57 MSK)

Ссылка

Как же я скучаю по временам, когда один символ был синонимом одного байта

~~fero~~ ★★★★
(01.10.13 17:52:06 MSK)

Как у BSD с поддержкой Unicode?

~~NaN~~
(01.10.13 17:53:34 MSK)

Ссылка

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Посмотришь на юникодные таблицы, и весь мир как на ладони.

Насколько я помню - не весь. Китайцев против их воли унифицировали с японцами.

hobbit ★★★★★
(01.10.13 21:13:35 MSK)

Ссылка

Cast ~~Anon~~

anonymous
(01.10.13 21:16:53 MSK)

Ссылка

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Ну и кому, кроме вас нужна будет эта хр*нь?

lucky_guy ★★★
(01.10.13 21:44:44 MSK)

Ответ на: комментарий от fero 01.10.13 17:52:06 MSK

Как хорошо, что эти убогие времена закончились.

Deleted
(01.10.13 22:28:04 MSK)

Новости о новых стандартах меня пугают.

frugurt ★
(02.10.13 02:39:33 MSK)

Ссылка

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Всегда особенно уважал разработчиков этого стандарта.

За упорство в бессмысленном причинении вреда?

Кодировки были неизбежным злом в диком XX веке. При нынешних объемах памяти и быстродействии процессоров они стали просто злом. Письменности-то со временем меняются.

ST ★
(02.10.13 05:46:40 MSK)

Ответ на: комментарий от Deleted 01.10.13 22:28:04 MSK

Конечно же нет

~~fero~~ ★★★★
(02.10.13 07:00:43 MSK)

Ответ на: комментарий от ST 02.10.13 05:46:40 MSK

При нынешних объемах памяти и быстродействии процессоров они стали просто злом. Письменности-то со временем меняются.

К сожалению, искусственный интеллект ещё не достиг такого уровня, чтобы все тексты обрабатывать прямо в виде изображений. Или предлагаются какие-то другие способы?

proud_anon ★★★★★
(02.10.13 08:01:06 MSK) автор топика

Ответ на: комментарий от fero 02.10.13 07:00:43 MSK

640KB хватит всем, да?

Deleted
(02.10.13 09:26:09 MSK)

Тестовые версии стандартов - это как?

NeProfessor
(02.10.13 11:01:36 MSK)

Ответ на: комментарий от Deleted 02.10.13 09:26:09 MSK

256 хватит всем

~~fero~~ ★★★★
(02.10.13 17:07:38 MSK)

Ответ на: комментарий от fero 02.10.13 17:07:38 MSK

Там даже для спецсимволов места не хватит. Что уж говорить о других языках. Если ты языкам не обучен, не значит, что остальные тоже неграмотные.

Deleted
(02.10.13 17:09:10 MSK)

Ответ на: комментарий от NeProfessor 02.10.13 11:01:36 MSK

Тестовые версии стандартов - это как?

Почему тестовые? Бета-тест этой версии Юникода закончился, это уже релиз.

proud_anon ★★★★★
(02.10.13 17:13:28 MSK) автор топика

Ссылка

Ответ на: комментарий от Deleted 02.10.13 17:09:10 MSK

Есть русский и ингриш, остальные не нужны

~~fero~~ ★★★★
(02.10.13 23:08:15 MSK)

Ответ на: комментарий от fero 02.10.13 23:08:15 MSK

И как там, в вашей параллельной вселенной?

Deleted
(02.10.13 23:41:15 MSK)

Ответ на: комментарий от Deleted 02.10.13 23:41:15 MSK

Не дождётесь

~~fero~~ ★★★★
(03.10.13 08:18:32 MSK)

Ссылка

Ответ на: комментарий от proud_anon 02.10.13 08:01:06 MSK

Я бы начал думать примерно так. В любой письменности существуют базовые графические элементы (скажем, 11, вроде бы, основных черт в китайской). Дальше они по специфическим для данной письменности правилам собираются в графемы (например, буквы). Дальше графемы компонуются в слоги (корейский алфавит), слова (большинство алфавитных письменностей) или иероглифы. Дальше это все упихивается в строки, абзацы и т. д.

Отдельно существует информация о стиле начертания графических примитивов и вариантах графем. Сейчас она неявно утоптана в шрифты, но если художник-полиграфист может, поглядев на десяток букв шрифта, довольно точно восстановить отсутствующие, ее вполне можно извлечь, формализовать и хранить отдельно.

Получаем несколько баз данных о собственно письменности и набор баз данных о способах начертания графем, заменяющий шрифты. Они позволяют не только генерировать битмапы текстов, но и сравнительно легко и быстро пополнять набор доступных символов силами квалифицированных пользователей. То есть вышеупомянутые немецкие филологи (а также математики, физики и изобретатели языков) могли бы не дожидаться, пока юникодовские власти снимутся с ручника, а самостоятельно изготовить нужные закорючки и подгрузить их в общедоступную базу. Или хотя бы упаковать прямо в документы.

ST ★
(03.10.13 10:05:05 MSK)

Кто с юникодом работает, поделитесь, на сколько это важно на практике, иметь классический индексный доступ к символам в строке?

aist1 ★★★
(03.10.13 13:46:38 MSK)

Ответ на: комментарий от fornlr 01.10.13 16:36:49 MSK

Символ pony не ввели ещё? А то U+1F40E как то недостаточно.

И ещё символы всех известных науке cutiemarks.

~~rtvd~~ ★★★★★
(03.10.13 15:26:30 MSK)

Ссылка

Ответ на: комментарий от CARS 01.10.13 12:27:23 MSK

Всегда особенно уважал разработчиков этого стандарта. Это ж сколько нюансов им приходится учитывать! Посмотришь на юникодные таблицы, и весь мир как на ладони. Вот бы они когда-нибудь добавили символы из т.н. «Рукописи Войнича».

Ну для начала, нет однозначного мнения, какими должны быть эти символы и будут ли они иметь значение. По одной из версий, информацию несут не сами символы этой рукописи, а «дефекты» в их отрисовке.

~~rtvd~~ ★★★★★
(03.10.13 15:28:08 MSK)

Ссылка

Ответ на: комментарий от ST 02.10.13 05:46:40 MSK

Кодировки были неизбежным злом в диком XX веке. При нынешних объемах памяти и быстродействии процессоров они стали просто злом. Письменности-то со временем меняются.

Предложи вменяемую альтернативу.

~~rtvd~~ ★★★★★
(03.10.13 15:29:15 MSK)

Ссылка

Ответ на: комментарий от lucky_guy 01.10.13 21:44:44 MSK

Ну и кому, кроме вас нужна будет эта хр*нь?

Мне

~~rtvd~~ ★★★★★
(03.10.13 15:29:42 MSK)

Ссылка

Ответ на: комментарий от ST 03.10.13 10:05:05 MSK

В любой письменности существуют базовые графические элементы (скажем, 11, вроде бы, основных черт в китайской). Дальше они по специфическим для данной письменности правилам собираются в графемы (например, буквы).

Во-первых, не 11, а более 20. Во-вторых, я не видел ещё «правил конструирования произвольного иероглифа из базовых черт». Даже такую вещь, как порядок черт в уже готовом иероглифе, описывают так: «Ну... обычно слева направо сверху вниз, но далеко не всегда, единственно гарантированный способ — запомнить для каждого знака». А уж тем более я не видел «правил выведения значения иероглифа из базовых черт». Да что уж там, нет даже верного способа вывести значение слова из составляющих его иероглифов!

Поэтому как свести весь набор иероглифов к базовым элементам и общему порядку композиции, я ума не приложу. Думаю, если бы кто в мире знал такой способ, он бы уже давно был известен.

если художник-полиграфист может, поглядев на десяток букв шрифта, довольно точно восстановить отсутствующие, ее вполне можно извлечь, формализовать и хранить отдельно.

Почему это такой метод обязательно можно формализовать? Художник-полиграфист вполне способен решать такие задачи, которые компьютер пока решить не может. Но в любом случае, Юникод не регламентирует точный внешний вид символов.

Получаем несколько баз данных о собственно письменности

Я так и не понял, какая хоть примерно информация в них должна быть.

вышеупомянутые немецкие филологи (а также математики, физики и изобретатели языков) могли бы не дожидаться, пока юникодовские власти снимутся с ручника, а самостоятельно изготовить нужные закорючки и подгрузить их в общедоступную базу.

То есть универсальный код обмена информацией превращается в Википедию? И даже редактировать тексты без доступа к этому серверу с БД более не будет возможности? И все компьютеры в мире становятся зависимы от одного сервера или группы серверов?

Или хотя бы упаковать прямо в документы.

Так это они и сейчас могут. Просто присвоить этим символам коды из категории private use и договориться с коллегами, чтобы у них были установлены соответствующие шрифты. Или встроить эти шрифты в документы, когда это возможно.

Другое дело, что я в этой теме в первый раз вообще слышу про какие-то особые немецкие фонетические значки и что немецким фонетистам не хватает IPA.

proud_anon ★★★★★
(03.10.13 18:05:27 MSK) автор топика

Ответ на: комментарий от proud_anon 03.10.13 18:05:27 MSK

я не видел ещё «правил конструирования произвольного иероглифа из базовых черт»

Но для каждого конкретного они вполне себе существуют. Вот для каждого и хранить. И совсем не обязательно все-все-все собирать из голых черт; ссылки на ранее описанные графемы и даже целые иероглифы («чтобы написать иероглиф „младшая_сестра“, в левой половине нарисуй „женщину“, а потом...») ускорят дело и сократят объем базы.

если художник-полиграфист может, поглядев на десяток букв шрифта, довольно точно восстановить отсутствующие, ее вполне можно извлечь, формализовать и хранить отдельно.
Почему это такой метод обязательно можно формализовать?

Потому, что нужно :)

Там никакой черной магии нет. Из каких черточек состоит буква, мы знаем. Смотрим на изображение буквы в конкретном шрифте и соображаем, чем и как именно нужно было рисовать каждую черточку, чтобы получилось то, что мы видим. Тупо переносим то, что заметили, на те же черточки в других буквах.

Может быть, потребуются математические модели орудий письма. Их опять-таки конечное количество, а действительно сложное поведение разве что у кисточки. Ну, и со всякими мелкими деталями, дорисованными уголком пера, придется малость подумать и повозиться. Но это, в принципе, и всё.

Получаем несколько баз данных о собственно письменности
Я так и не понял, какая хоть примерно информация в них должна быть.

Основные черты. Построение из них графем. Компоновка графем в знакоместа. Компоновка знакомест в строки. Компоновка строк на листе. Ну, все то, что некоторым из присутствующих в школе зарядили в мозги, начиная с палочек и кружочков.

То есть универсальный код обмена информацией превращается в Википедию?

Приблизительно. Только не код превращается, а база знаний вытесняет код за вредность. Пять тысяч лет письменности бодро развивались без единого центра стандартизации и отлично себя чувствовали. Думаю, им и дальше без всемирного буквенфюрера будет гораздо лучше, чем с ним.

И даже редактировать тексты без доступа к этому серверу с БД более не будет возможности?

Локальной копии, пусть и малость устаревшей (либо, напротив, чуток дополненной владельцем), в большинстве случаев должно хватить.

И все компьютеры в мире становятся зависимы от одного сервера или группы серверов?

Примерно в той же степени, в которой сейчас зависят от серверов, хранящих фонты.

Так это они и сейчас могут. Просто присвоить этим символам коды из категории private use и договориться с коллегами, чтобы у них были установлены соответствующие шрифты. Или встроить эти шрифты в документы, когда это возможно.

Куча тупой ручной работы. К тому же, художник-шрифтовик и фонтодел все-таки отдельные профессии, так что на выходе мы с изрядной вероятностью получим очень кривой и вырвиглазный глиф для единственного шрифта (и задолбавшегося по самое не балуйся филолога-физика-математика). А то, о чем я говорю, позволит мышкой собрать графему из стандартных черточек-кружочков или даже просто добавить крючок-другой к уже существующей букве — и автомагически получить на выходе глифы профессионального качества для всех шрифтов.

ST ★
(05.10.13 10:01:03 MSK)