HarfBuzz 11.5.0

c++, harfbuzz, shaping, unicode, библиотека

12 сентября состоялся выпуск 11.5.0 библиотеки и сопутствующих утилит проекта HarfBuzz.
Библиотека предназначена для преобразования строк Unicode в правильно отформатированные и расположенные глифы (text shaping) для их дальнейшего рендеринга — для любой системы письма и любого языка.

Проект написан на языке C++ и распространяется по лицензии Old MIT.

Изменения:

Поддержка Unicode 17.0.
Оптимизация сабсеттинга.
Множество внутренних микрооптимизаций.

>>> Подробности на GitHub

Ссылка

← Вышла первая альфа-версия дистрибутива KDE Linux от команды KDE

Релиз Diesel 2.3.0 →

← 1 2 3 →

Ответ на: комментарий от pihter 14.09.25 18:39:18 MSK

А при чем тут диван

Мои фанаты знают, что Devuan на большинстве моих скриншотов.
Я ваш кумир!

dataman ★★★★★
(15.09.25 09:23:19 MSK) автор топика

Ответ на: комментарий от bdrbt 15.09.25 07:01:00 MSK

И для чего же?

static_lab ★★★★★
(15.09.25 10:07:21 MSK)

Ответ на: комментарий от cdtemp 14.09.25 23:20:34 MSK

Уточнение: UCS-2(utf-16) хороший правильный уникод

cdtemp ★
(15.09.25 10:10:09 MSK)

Ответ на: комментарий от cdtemp 15.09.25 10:10:09 MSK

ucs-2 слишком мал (математика, скажем, в него не помещается), а utf-16 такой же переменный, как и utf-8, так что не лучше него, а хуже.

TeopeTuK ★★★★★
(15.09.25 11:55:14 MSK)

Ответ на: комментарий от dataman 15.09.25 09:23:19 MSK

Мои фанаты знают, что Devuan на большинстве моих скриншотов.

Так это ему ТВОЯ «маргинальность» на лоре не нравится?!

Ясно, понятно

pihter ★★★★★
(15.09.25 12:57:17 MSK)

Ссылка

Ответ на: комментарий от TeopeTuK 15.09.25 11:55:14 MSK

Тогда utf-16 в топку. Оставляем в списке хороших кодировок только ucs-2(и другие 16-bit fixed length если они существуют)

cdtemp ★
(15.09.25 13:09:35 MSK)

Ссылка

Ответ на: комментарий от cdtemp 15.09.25 10:10:09 MSK

Был неправ. Variable lenght utf-16 мусор

cdtemp ★
(15.09.25 13:11:18 MSK)

Ответ на: комментарий от cdtemp 15.09.25 13:11:18 MSK

Длина представления кодпойнтов не имеет значения, так как обращение к Юникод-строке по индексу лишено всякого смысла.

pasquale ★
(15.09.25 13:13:55 MSK)

Ответ на: комментарий от thegoldone 14.09.25 12:35:48 MSK

По-простому harfbuzz извлекает из шрифта нужное начертание глифа в соответсвии со свойствами опентайп. Каждому символу юникода в шрифте могут соответвовать несколько вариантов и задача harfbuzz найти нужный вариант в данном контексте.

pandrey ★★
(15.09.25 13:19:59 MSK)

Ссылка

Ответ на: комментарий от static_lab 15.09.25 10:07:21 MSK

Там в описании есть, для языков в которых написание группы из нескольких букв передаётся одним глифом в зависимости от их последовательности. Это тамильский, арабский, иврит и тому подобные. Причём (могу ошибаться) письменные варианты.

bdrbt ★
(15.09.25 14:08:52 MSK)

Ответ на: комментарий от bdrbt 15.09.25 14:08:52 MSK

Правильно. Это одна из задач text shaping.

HarfBuzz is an implementation of OpenType complex text shaping.

HarfBuzz is a text shaping library. Using the HarfBuzz library allows programs to convert a sequence of Unicode input into properly formatted and positioned glyph output—for any writing system and language.

Many OpenType fonts contain ligatures: combinations of characters that are rendered as a single unit. […] In other words, text shaping involves querying the font’s ligature tables and determining what substitutions should be made.

Other languages involve marks and accents that need to be rendered in specific positions relative a base character.

static_lab ★★★★★
(15.09.25 14:18:01 MSK)

Ссылка

Ответ на: комментарий от pasquale 15.09.25 13:13:55 MSK

обращение к Юникод-строке по индексу лишено всякого смысла.

std::u32string смотрит на это с изумлением.

dataman ★★★★★
(15.09.25 14:43:41 MSK) автор топика

Ответ на: комментарий от dataman 15.09.25 14:43:41 MSK

смотрит на это с изумлением.

std::u32string — их тоже нельзя разбивать в произвольном месте. Вдруг там модификатор цвета к эмодзи.

sarumeister ★
(15.09.25 14:48:49 MSK)

Ответ на: комментарий от sarumeister 15.09.25 14:48:49 MSK

Профит в том, что байты UTF-8 уже правильно декодированы в char32_t.

dataman ★★★★★
(15.09.25 14:55:27 MSK) автор топика

Ответ на: комментарий от Smacker 14.09.25 13:14:27 MSK

Меньше - можно. У пробела только один цвет, у полностью залитого квадратика тоже. Больше и правда нежелательно.

firkax ★★★★★
(15.09.25 15:29:38 MSK)

Ссылка

Ответ на: комментарий от static_lab 14.09.25 19:01:23 MSK

В нормальных кодировках диакритика уже прицеплена к символам, а не делается каким-то отдельным префиксом. То, что для отображения строки на экран по их дурацкому стандарту можно не просто уметь декодировать utf, а ещё и лазить по всяким таблицам чтобы узнать, является ли очередная декодированная сущность символом или нет - совершенно убогий подход, вынуждающий тянуть всякий хлам в иначе компактные приложения.

firkax ★★★★★
(15.09.25 15:34:07 MSK)

https://github.com/harfbuzz/harfbuzz/pull/5558
первое полетело

safocl ★★
(15.09.25 15:39:52 MSK)
Последнее исправление: safocl 15.09.25 15:40:07 MSK (всего исправлений: 1)

Ответ на: комментарий от firkax 15.09.25 15:34:07 MSK

Знак ударения всё равно нужно как-то ставить

static_lab ★★★★★
(15.09.25 15:42:19 MSK)

Ответ на: комментарий от safocl 15.09.25 15:39:52 MSK

Угадай, почему его не примут.

~~u-235~~ ★
(15.09.25 16:09:33 MSK)

Ответ на: комментарий от u-235 15.09.25 16:09:33 MSK

и почему же?
не примут — ну увы — буду делать свой нормальный код под енту либу и собирать самому через makepkg в archlinux — всем остальным же и им самим хуже если не примут))

таковой опыт у меня уже имеется — с драйвером (утилитами) ntfs3

safocl ★★
(15.09.25 16:19:09 MSK)
Последнее исправление: safocl 15.09.25 16:43:34 MSK (всего исправлений: 3)

Ответ на: комментарий от dataman 15.09.25 14:55:27 MSK

И зачем вам понадобился char32_t?

pasquale ★
(15.09.25 17:09:12 MSK)

Ответ на: комментарий от pasquale 15.09.25 17:09:12 MSK

для более быстрого использования мультибайтовых строк?

safocl ★★
(15.09.25 17:12:41 MSK)

Ответ на: комментарий от firkax 15.09.25 15:34:07 MSK

В нормальных кодировках диакритика уже прицеплена к символам, а не делается каким-то отдельным префиксом.

Диакритика по своему определению отдельна от символа, и может сочетаться с символами в любом сочетании. Невозможно предусмотреть все комбинации символов и знаков. Непрактично кодировать все комбинации гласных и согласных.

pasquale ★
(15.09.25 17:14:56 MSK)

Ответ на: комментарий от safocl 15.09.25 17:12:41 MSK

для более быстрого использования мультибайтовых строк?

К тексту все равно можно обращаться только последовательно. Расходы на пропуск многобайтных/двусловных символов незначительны по сравнению с затратами на их классификацию.

pasquale ★
(15.09.25 17:18:30 MSK)

Ответ на: комментарий от pasquale 15.09.25 17:18:30 MSK

ну проверок никаких не нужно делать — просто шагаешь и всё... (в отличии от utf-8)

последнее по сути для загрузки и выгрузки использовать (в том числе в/из интерфейса) — внутри программы вообще не обязательно таковым оперировать.

safocl ★★
(15.09.25 17:23:48 MSK)
Последнее исправление: safocl 15.09.25 17:25:12 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от pasquale 15.09.25 17:09:12 MSK

декодируем utf8-«стог» в std::u32string (преобразуем регистр, если нужно);
декодируем utf8-«иголку» в std::u32string (преобразуем регистр, если нужно);
SIMD-оптимизированно ищем результат в декодированном «стогу»;
Для новых «иголок» переходим к п. 2;
PROFIT!

dataman ★★★★★
(15.09.25 18:22:49 MSK) автор топика

Ответ на: комментарий от Shadow 14.09.25 18:43:09 MSK

Да, так и есть. Для европейских языков, китайского, японского и корейского языков HarfBuzz не обязателен. HarfBuzz в первую очередь нужен для языков вроде арабского или хинди, где форма и расположение глифов зависит от позиции в слове.

X512 ★★★★★
(15.09.25 18:35:26 MSK)

Ответ на: комментарий от dataman 15.09.25 18:22:49 MSK

Строку можно искать побайтово в UTF-8 без декодирования в UTF-32. UTF-8 гарантирует отсутствие ложных совпадений со сдвигом.

В 99.9% случаев нет никакого смысла получать значения кодпойнтов Юникода по индексу.

X512 ★★★★★
(15.09.25 18:39:38 MSK)

Ответ на: комментарий от X512 15.09.25 18:39:38 MSK

В 99.9% случаев нет никакого смысла

Никогда этой фразе не верил.

dataman ★★★★★
(15.09.25 18:42:59 MSK) автор топика

Ответ на: комментарий от dataman 15.09.25 18:42:59 MSK

Тогда примеры в студию.

X512 ★★★★★
(15.09.25 18:43:18 MSK)

Ответ на: комментарий от X512 15.09.25 18:43:18 MSK

Примеры чего, очевидного? Нет, спасибо.

dataman ★★★★★
(15.09.25 19:07:03 MSK) автор топика

Ссылка

Ответ на: комментарий от safocl 15.09.25 17:12:41 MSK

Какого конкретно использования? Для отрисовки строк используется последовательный доступ. Для поиска можно использовать побайтовый поиск UTF-8 строки.

X512 ★★★★★
(15.09.25 19:27:36 MSK)

Ответ на: комментарий от pasquale 15.09.25 17:14:56 MSK

Непрактично кодировать все комбинации гласных и согласных.

Почему все комбинации? Это же отдельные буквы, у каждой своё знакоместо.

Диакритика по своему определению отдельна от символа, и может сочетаться с символами в любом сочетании.

Почему тогда в дефолтной IBM PC кодировке она прицеплена (во второй половине кодовой таблицы) и этого хватало?

firkax ★★★★★
(15.09.25 19:31:25 MSK)

Ответ на: комментарий от static_lab 15.09.25 15:42:19 MSK

Это задача визуального редактора/просмотрщика, а не кодировки символов.

firkax ★★★★★
(15.09.25 19:32:48 MSK)

Ссылка

Ответ на: комментарий от X512 15.09.25 19:27:36 MSK

Для проверки что в 40-й позиции строки стоит правильная сигнатура, например. Такие вещи сейчас не страдают от юникода только потому, что все, кому это нужно, на поддержку юникода просто забивают и считают символ=байт.

firkax ★★★★★
(15.09.25 19:35:02 MSK)

Ответ на: комментарий от firkax 15.09.25 19:35:02 MSK

Для проверки что в 40-й позиции строки

Откуда взялось это число? Что за хардкодинг? Если использовать strlen(), то всё будет прекрасно работать и с UTF-8 без декодирования кодпойнтов.

X512 ★★★★★
(15.09.25 19:36:26 MSK)

Ответ на: комментарий от firkax 15.09.25 19:31:25 MSK

Это же отдельные буквы, у каждой своё знакоместо.

Отдельные буквы и знакоместа бывают только на пишущих машинках. В реальных текстах буквы и глифы не соответсвуют друг другу, и их приходится составлять из нескольких частей.

Почему тогда в дефолтной IBM PC кодировке она прицеплена … и этого хватало?

Так хватало, что для IBM PC пришлось создать целых 5 аппаратных кодировок.

Для проверки что в 40-й позиции строки

Что такое «40-я позиция строки»? Что вообще такое «строка»?

pasquale ★
(15.09.25 20:26:19 MSK)
Последнее исправление: pasquale 15.09.25 20:27:31 MSK (всего исправлений: 1)

Ответ на: комментарий от X512 15.09.25 19:27:36 MSK

ну для utf-8 строки придётся каждый раз делать проверки по стандарту (на количество байт для символа), а с уже преобразованными нет — просто идёшь и всё.

safocl ★★
(15.09.25 21:30:16 MSK)
Последнее исправление: safocl 15.09.25 21:31:48 MSK (всего исправлений: 1)

Ответ на: комментарий от X512 15.09.25 19:36:26 MSK

Откуда взялось это число? Что за хардкодинг?

Какая разница? Символы не только для набора художественных текстов используют, а в технических надписях вполне может быть формат с фиксированной шириной колонок. И с этим дурацким utf8 в таких случаях придётся вместо обращения по индексу массива каждый раз считать длину всего что слева от нужной позиции.

firkax ★★★★★
(15.09.25 21:54:54 MSK)

Ответ на: комментарий от safocl 15.09.25 21:30:16 MSK

Какие проверки? Что с UTF-8, что с UTF-32 идёшь точно также. Значения кодпойнтов программе обычно не нужны. Даже если в консоль выводить и считать знакоместа в консоли, то это делается не через подсчёт кодпойнтов, а особой функцией. Например буквы с ударением или смайлы могут использовать несколько кодпойнтов, но одно место в консоли. И наоборот китайские иероглифы занимать два места в консоли, но один кодпойнт.

X512 ★★★★★
(15.09.25 21:56:43 MSK)

Ответ на: комментарий от firkax 15.09.25 21:54:54 MSK

Символы не только для набора художественных текстов используют, а в технических надписях вполне может быть формат с фиксированной шириной колонок.

Смотрите мой ответ ниже. Количество мест в консоли в общем случае не относится к количеству кодпойнтов как один к одному. Так что для фиксированных колонок нужна специальная для этого функция подсчёта знакомест в консоли, а не просто длина массива или количество кодпойнтов. Консольные редакторы вроде Nano или Vim учитывают это.

X512 ★★★★★
(15.09.25 22:00:10 MSK)

Ответ на: комментарий от pasquale 15.09.25 20:26:19 MSK

Отдельные буквы и знакоместа бывают только на пишущих машинках. В реальных текстах буквы и глифы не соответсвуют друг другу, и их приходится составлять из нескольких частей.

Это блоатварное ненужное усложнение. Оставь все эти штуки текстовым процессорам, тащить их везде где просто хочется иметь многоязычную кодировку - идиотизм.

Так хватало, что для IBM PC пришлось создать целых 5 аппаратных кодировок.

Какие ещё 5 кодировок? В каком видеоадаптере они были зашиты?

firkax ★★★★★
(15.09.25 22:02:45 MSK)

Ответ на: комментарий от X512 15.09.25 22:00:10 MSK

Эм, это типа оправдание?

Смотрите, они сделали пакость ещё хуже, поэтому мелкую пакость, сделанную раньше, мы им простим.

То что знакоместу может соответствовать больше одного символа - это вообще отвратительно, чтобы нормально посчитать длину мало того что надо парсить всё начало строки, так ещё и надо таскать с собой тяжёлые таблицы со свойствами символов и сверяться с ними на каждый распарсенный.

firkax ★★★★★
(15.09.25 22:05:42 MSK)

Ответ на: комментарий от firkax 15.09.25 22:05:42 MSK

То что знакоместу может соответствовать больше одного символа - это вообще отвратительно

А ничего не поделаешь, особенно для некоторых языков типа китайского. Там иероглифы в два раза шире латинских букв.

X512 ★★★★★
(15.09.25 22:12:12 MSK)

Ответ на: комментарий от X512 15.09.25 22:12:12 MSK

Особенности написания того или иного символа должны заботить авторов шрифтов, кодировку это не должно затрагивать.

Если шрифт не моноширинный, то вообще не вижу «состава проблемы». Бывают буквы тонкие (i), бывают широкие (W), и никому в голову не приходила гениальная идея на этом основании устраивать фокусы с количеством знакомест, кроме авторов юникода.

Если шрифт моноширинный - ну, видимо шрифты, имеющие поддержку китайского языка, должны быть условно не 8х16 а 16х16 (конкретный размер выбирает всё равно юзер и он должен соблюдаться). Впрочем засунуть во второй латиницу и кириллицу никто тоже не мешает. А вот делать так, чтобы в зависимости от языка очередного символа ползла текстовая «вёрстка», рассчитанная на моноширинность - это опять какое-то вредительство.

firkax ★★★★★
(15.09.25 22:58:35 MSK)
Последнее исправление: firkax 15.09.25 23:09:02 MSK (всего исправлений: 2)

Ответ на: комментарий от firkax 15.09.25 22:02:45 MSK

Какие ещё 5 кодировок?

Для США, Канады, Португалии, Дании/Норвегии, Исландии.

В каком видеоадаптере они были зашиты?

В знакогенераторе, используемом CGA и MDA.

никому в голову не приходила гениальная идея на этом основании устраивать фокусы с количеством знакомест

Все южноазиатские терминалы поддерживали моноширинные символы различной ширины.

pasquale ★
(15.09.25 23:11:55 MSK)
Последнее исправление: pasquale 15.09.25 23:13:44 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от X512 15.09.25 21:56:43 MSK

ну а как ты предугадаешь для utf-8 сколько байтов нужно скипнуть до следующего символа?

safocl ★★
(15.09.25 23:15:08 MSK)

Ответ на: комментарий от firkax 15.09.25 22:58:35 MSK

Если шрифт моноширинный - ну, видимо шрифты, имеющие поддержку китайского языка, должны быть условно не 8х16 а 16х16

Ну вот там в шрифте латинские символы 8x16, а китайские 16x16. И это по-прежнему считается моноширинным шрифтом, хотя его длину в знакоместах нельзя считать по количеству символов.

X512 ★★★★★
(15.09.25 23:18:53 MSK)

Ответ на: комментарий от safocl 15.09.25 23:15:08 MSK

Зачем вам следующий символ? И что вы понимаете под символом?

X512 ★★★★★
(15.09.25 23:19:45 MSK)

Ответ на: комментарий от X512 15.09.25 23:19:45 MSK

что бы его как либо использовать?

safocl ★★
(15.09.25 23:42:36 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← Вышла первая альфа-версия дистрибутива KDE Linux от команды KDE

Open Source

Релиз Diesel 2.3.0 →

Похожие темы