Одна code point (или последовательность) == одна графема

unicode, боль, страдания

Здрасьте. Чтобы не было путаницы в терминологии - под графемой понимаю что-то рисуемое на экране, занимаемое ровно одно знакоместо. Нужен алгоритм, который принимает на вход utf-8 строку и выдаёт на выходе число, которое равно количеству знакомест, которые занимает данная строка будучи отрисованной в терминале.

Но тут подстава со всякими управляющими символами, например Tab, котороый займет некоторое число знакомест, лазить в кишках terminfo для определения этого числа я точно не хочу. Решил поступить проще - итерироваться по символам и проверять является ли символ управляющим и если да, то менять его на пробел. И вот здесь встает вопрос - есть ли управляющие символы выше ASCII диапазона, которые могуть выдать что-то в терминал занимающее более одного знакоместа? Т.е. речь идёт о том, что делать ли std::iscntrl(char_sym, get_locale()) напрямую или конвертить предварительно всю последовательность в wchar_t и уже потом тестить. Естественно, что первое проще, а может второе и вовсе смысла не имеет. Управляющие символы там точно есть (U+2028, например), но рисуется в терминале одним знакоместом.

Я уже почти созрел до того, чтобы закрыть для себя вопрос юникода навсегда и остановиться лишь на в ASCII в софте, по крайней мере до момента, пока не появится адекватная либа, а не ICU. Была зыбкая надежда на boost.locale, но оказалось, что тот же U+2028 она не считет управляющим (тогда как локаль созданная дефолтными с++ средствами считает)

    wchar_t w = L'\u2028';
    cout << std::boolalpha 
        << std::iscntrl(w, boost::locale::generator()("en_US.UTF-8")) << endl
        << std::iscntrl(w, std::locale("en_US.UTF-8")) << endl;

$ ./a.out
false
true

В общем вопросы к ней появились.

Ссылка

← DRI3QueryVersion failure — xcb_dri3_query_version_reply возвращает nullptr

Vulkan Api как получить картинку по dma, если dri3 в Xorg не доступно? →

← 1 2 →

Ответ на: комментарий от kvpfs 15.06.21 18:38:52 MSK

Тебя, тупого инженеришку забыли спросить про культуру и письменность человечества. Иди там, свой аски пописывай, легаси в этом треде только твой мозг не умеющий в думание.

system-root ★★★★★
(16.06.21 09:26:52 MSK)

Ответ на: комментарий от system-root 16.06.21 09:26:52 MSK

Конечно буду на нормальном аски, как и множество других адекватных прогеров. А ты, хомяк, будешь пользоваться этими поделками и будешь ограничен лишь аски набором, т.к. вертели мы на одном месте такой юникод вместе со всем комитетом.

Вон, юникод не пускают даже в С/С++ исходники, только базовый символы из ASCII. Достандартизировались, кусок коричневого непотребного ненужно.

~~kvpfs~~ ★★
(16.06.21 10:01:02 MSK) автор топика

Я уже почти созрел до того, чтобы закрыть для себя вопрос юникода навсегда и остановиться лишь на в ASCII в софте, по крайней мере до момента, пока не появится адекватная либа

С какого перепуга что то появиться ? Сначала картельным сговором мнимого свч чсв вытеснить дистрибутив что бы его как следует не за донатили и не подняли человека до уровня ричарда , а потом пенять на лапти ? Или как ? Дело в том что такие библиотеки получаются сложнейшими меинфреимовыми билдами так что сумеешь ли ты с ними совладать уже проблемы твой и сообщества вошедшего в сговор начударивать эту библиотеку киркой

anonymous
(16.06.21 10:08:53 MSK)

Ссылка

Ответ на: комментарий от kvpfs 16.06.21 10:01:02 MSK

Вон, юникод не пускают даже в С/С++ исходники

Неправда. Почитай уже принятый пропозал C++23: http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2021/p1949r7.html

fsb4000 ★★★★★
(16.06.21 10:10:26 MSK)

Ссылка

считай составные символы как отдельные, больше знакомест - не меньше.

deep-purple ★★★★★
(16.06.21 11:03:25 MSK)

Ссылка

Ответ на: комментарий от kvpfs 16.06.21 07:01:44 MSK

Безграмотно и наивно, извини - больше нечего сказать. Почитай стандарт, там даже есть примеры и картинки, сразу и кругозор расширишь за рамки «условной й», и станет понятно почему предлагаемый тобой обрубок работать не будет.

slovazap ★★★★★
(16.06.21 14:38:17 MSK)

Ссылка

Ответ на: комментарий от anonymous 16.06.21 07:17:50 MSK

Херня какая-то. Для начала — Юникод вообще не про «знакоместа» и «ширину символа». Пока ты этого не поймёшь, будешь страдать.

Для начала сам вопросе разберись. Юникод для азиатских код поинтов назначает ширину (Wide, Narrow, Fullwidth, Halfwidth, etc) http://unicode.org/reports/tr11/#Adding

~~kvpfs~~ ★★
(16.06.21 17:28:41 MSK) автор топика

Ссылка

Видимо я в окончательном замешательстве. Подумал - ну ладно, пусть через костыли wcwidth() ширину символа я таки узнаю, но тут меня жда эпический фейл - есть такой code point из Гуджарати алфавита, занимает два места, но

assert(wcwidth((wchar_t)0xa94) == -1); // assert will never fire

Гугление ничего не говорит о возможности запросить ширину через ICU.

Всё, успехов всем любителям Юникода. Конечно, может быть сгодится для чего нибудь неответсвенного, но уж точно для рисования таблиц вот это вот недоразумение не подходит.

~~kvpfs~~ ★★
(16.06.21 18:30:34 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 15.06.21 12:11:35 MSK

Проверил бы, прежде чем фигню молоть.

echo $'ＷＴＦ\nWTF'

А то фиксированное, фиксированное. Вертели они твоё фиксированное

peregrine ★★★★★
(16.06.21 22:21:03 MSK)
Последнее исправление: peregrine 16.06.21 22:21:38 MSK (всего исправлений: 1)

Ответ на: комментарий от peregrine 16.06.21 22:21:03 MSK

Ты и по вечерам упарываешься? Широкий символ занимает две ячейки фиксированного размера. От шрифта не зависит.

anonymous
(16.06.21 23:07:27 MSK)

Ответ на: комментарий от anonymous 16.06.21 23:07:27 MSK

ઔ вот тебе не широкий символ на 2 знакоместа, знакомьтесь юникод. И да не 2, а 1,5, по крайней мере в части терминалов

peregrine ★★★★★
(16.06.21 23:21:16 MSK)
Последнее исправление: peregrine 16.06.21 23:32:02 MSK (всего исправлений: 2)

Ответ на: комментарий от peregrine 16.06.21 23:21:16 MSK

ઔ вот тебе не широкий символ на 2 знакоместа, знакомьтесь юникод.

Претензии к Консорциуму Юникода, который не считает этот символ широким. Когда-нибудь поправят.

И да не 2, а 1,5, по крайней мере в части терминалов

Нет таких терминалов, разупорись.

anonymous
(17.06.21 00:48:37 MSK)

Ответ на: комментарий от kvpfs 16.06.21 10:01:02 MSK

Вон, юникод не пускают даже в С/С++ исходники, только базовый символы из ASCII. Достандартизировались, кусок коричневого непотребного ненужно.

УМВР

~~Legioner~~ ★★★★★
(17.06.21 01:31:26 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.06.21 00:48:37 MSK

Нет таких терминалов, разупорись.

В гноме частично работает. Налезает на следующий знак. Если два раза подряд поставить, то занимает три знакоместа.

PS после топика стал уважать гном-терминал. Интересно, во всех терминалах такая шикарная поддержка юникода?

~~Legioner~~ ★★★★★
(17.06.21 01:34:15 MSK)
Последнее исправление: Legioner 17.06.21 01:35:45 MSK (всего исправлений: 2)

Ответ на: комментарий от Legioner 17.06.21 01:34:15 MSK

Это баг, а не фича. Терминалы думают, что ширина символа ઔ — одна ячейка, потому что в нынешней версии Юникода он не считается широким. Но глиф в одну ячейку не умещается, и при отрисовке возникают разные артефакты из-за наложения глифов.

Примерно то же самое бывает, если в ячейку поместить широкий иероглиф, а в следующую — другой символ:

echo $'猫\bx'

В зависимости от терминала, либо x перекрывает правую половину 猫, либо видно только x, либо только 猫. Это не фича, просто неопределённое поведение.

anonymous
(17.06.21 08:37:51 MSK)

Ответ на: комментарий от anonymous 17.06.21 08:37:51 MSK

А зачем шрифты его широко рисуют тогда? пусть рисуют в одну ячейку, смотреться это будет так себе, но это другой вопрос уже.

Ещё пока читал, порадовали символы с неопределённой шириной, ширина которых завист от контекста. Всё это какой-то адовый ад.

Видимо в этом консорциуме нет ни одного практика, который вот со всем этим будет как-то работать на земле. Пихают в набор афроамериканские смайлы, а с шириной алфавитного символа так и не определились за почти уже 30 лет.

~~kvpfs~~ ★★
(17.06.21 09:52:25 MSK) автор топика

Ответ на: комментарий от kvpfs 17.06.21 09:52:25 MSK

В техническом комитете Юникода в основном американцы, они индийскими алфавитами в терминале не пользуются. А самим индийцам просто пофиг, полагаю.

anonymous
(17.06.21 10:27:48 MSK)

Ссылка

Ответ на: комментарий от kvpfs 17.06.21 09:52:25 MSK

А зачем шрифты его широко рисуют тогда? пусть рисуют в одну ячейку, смотреться это будет так себе, но это другой вопрос уже.

Нет, надо выкинуть нах терминальные шрифты туда-же, куда и ASCII, а терминалы перевести на вывод в HTML: нужен текст для последующего грепа - на здоровье, нужны таблички - пожалуйста

yyk ★★★★★
(17.06.21 10:33:05 MSK)

Ответ на: комментарий от yyk 17.06.21 10:33:05 MSK

И кнопку лайк от фейсбука прямо в стандарт добавить.

anonymous
(17.06.21 10:37:46 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.06.21 08:37:51 MSK

Ну если два подряд поставить, то влезают ровно в 3 символа (и следующий уже четвёртым идёт).

~~Legioner~~ ★★★★★
(17.06.21 12:03:32 MSK)

Ссылка

Ответ на: комментарий от kvpfs 15.06.21 18:38:52 MSK

Умершие языки как раз нельзя вычищать. Они представляют историческую и научную ценность. Представьте что вы учёный-лингвист работающий над каким-нибудь «умершим» древнешумерским или древнеегипетским. Ваши действия?

cobold ★★★★★
(17.06.21 22:36:27 MSK)
Последнее исправление: cobold 17.06.21 22:37:09 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← DRI3QueryVersion failure — xcb_dri3_query_version_reply возвращает nullptr

Development

Vulkan Api как получить картинку по dma, если dri3 в Xorg не доступно? →

Похожие темы