Написал статью «Как жить если у вас юникод» — Development

Ответ на: комментарий от cumvillain 30.08.23 23:04:14 MSK

сишные пердоли вместо удобной структуры пердолятся перебором по списку

хз, любители си в линуксе обычно берут glib, или какой-нибудь менее известный uthash

sergej ★★★★★
(30.08.23 23:07:37 MSK)

Ответ на: комментарий от sergej 30.08.23 23:07:37 MSK

хз, любители си в линуксе обычно берут glib, или какой-нибудь менее известный uthash

О нет. Открой исходники какого-нибудь вейланда, там едет список через список.

~~cumvillain~~
(30.08.23 23:08:28 MSK)

Ответ на: комментарий от cumvillain 30.08.23 23:08:28 MSK

Открой исходники какого-нибудь вейланда

ну вон пошарился, какие-то хеш таблицы у них есть

https://gitlab.freedesktop.org/wayland/wayland/-/blob/3175e91efa4d4cb1847044f9ea4a8ef57fd6f39c/src/wayland-hash.c

с другой стороны, если у тебя десяток элементов, то перебор наверное м быть проще и быстрее.

sergej ★★★★★
(30.08.23 23:11:55 MSK)

Ответ на: комментарий от cumvillain 30.08.23 23:05:00 MSK

Да-да, там все это есть.

Значит, через костыли, а не юникодные функции. Или через сторонние библиотеки наподобие ICU.

saahriktu ★★★★★
(30.08.23 23:13:36 MSK) автор топика

Ответ на: комментарий от saahriktu 30.08.23 23:13:36 MSK

Значит, через костыли, а не юникодные функции. Или через сторонние библиотеки наподобие ICU.

Просто никому в голову не приходит использовать непортируемый wchar_t.

~~cumvillain~~
(30.08.23 23:14:05 MSK)

Ответ на: комментарий от cumvillain 30.08.23 23:14:05 MSK

Мало линуксоидов. Портируют в свою винду то, что пишут через WSL.

А если линуксоид пишет конкретно под свой GNU/Linux, то проблемы портируемости его не так уж и волнуют.

saahriktu ★★★★★
(30.08.23 23:16:08 MSK) автор топика

Ответ на: комментарий от Morin 30.08.23 16:19:16 MSK

иного варианта сейчас и нет фактически

HTML же!

mydibyje ★★★★
(30.08.23 23:16:43 MSK)

Ссылка

Ответ на: комментарий от saahriktu 30.08.23 23:16:08 MSK

А если линуксоид пишет конкретно под свой GNU/Linux, то проблемы портируемости его не так уж и волнуют.

Я понимаю что тебя не очень волнует портируемость твоего софта, потому что его никто не использует. А всех остальных волнует :D

~~cumvillain~~
(30.08.23 23:17:09 MSK)

Ответ на: комментарий от sergej 30.08.23 23:11:55 MSK

Открой исходники какого-нибудь вейланда

ну вон пошарился, какие-то хеш таблицы у них есть

https://gitlab.freedesktop.org/wayland/wayland/-/blob/3175e91efa4d4cb1847044f9ea4a8ef57fd6f39c/src/wayland-hash.c

с другой стороны, если у тебя десяток элементов, то перебор наверное м быть проще и быстрее.

Удивительно, что в стандартной библиотеке этого до сих пор нет.

~~hateyoufeel~~ ★★★★★
(30.08.23 23:19:06 MSK)
Последнее исправление: hateyoufeel 30.08.23 23:19:23 MSK (всего исправлений: 1)

И никто не сказал, что шрифт нечитаем.

~~bo4ok~~ ★
(30.08.23 23:19:35 MSK)

Ссылка

Ответ на: комментарий от saahriktu 30.08.23 21:56:52 MSK

Алсо эта функция считает не глифы :D

Для строки «Yes 重要» она вернет 8.

~~cumvillain~~
(30.08.23 23:24:56 MSK)

Ответ на: комментарий от cumvillain 30.08.23 23:17:09 MSK

Портируемость волнует разного рода маркетологов, которые хотят охватить продуктом для конечных юзеров как можно больше людей на самых разных платформах. И далеко не всегда в их число входят разработчики.

Я считаю, что софт может быть и для красноглазиков. И нет такой обязанности у софта выходить за пределы одной платформы. Т.е. если мне скажут, что, например, мой софт не собирается во FreeBSD, то это меня не очень огорчит, поскольку у меня и не было такой задачи, чтобы он собирался вне GNU/Linux'а. Собирается - хорошо, не собирается - ну и ладно, я под них и не писал.

saahriktu ★★★★★
(30.08.23 23:28:19 MSK) автор топика

Ответ на: комментарий от saahriktu 30.08.23 23:28:19 MSK

Я считаю, что софт может быть и для красноглазиков. И нет такой обязанности у софта выходить за пределы одной платформы. Т.е. если мне скажут, что, например, мой софт не собирается во FreeBSD, то это меня не очень огорчит, поскольку у меня и не было такой задачи, чтобы он собирался вне GNU/Linux’а. Собирается - хорошо, не собирается - ну и ладно, я под них и не писал.

Это прекрасно, только то что ты выше написал не работает.

~~cumvillain~~
(30.08.23 23:30:28 MSK)

Ссылка

Ответ на: комментарий от cumvillain 30.08.23 23:24:56 MSK

Для строки «Yes 重要» она вернет 8.

Иероглифы широкие. Каждый из них в ширину занимает 2 знакоместа в консоли. Отсюда и 8.

Т.е., да, как бы, не совсем глифы, но не совсем не глифы. Если выделить место соответствующей ширины для строки, то ошибки не будет.

saahriktu ★★★★★
(30.08.23 23:33:44 MSK) автор топика

Ответ на: комментарий от hateyoufeel 30.08.23 23:19:06 MSK

Удивительно, что в стандартной библиотеке этого до сих пор нет

ну не то чтобы совсем нет

hcreate, hdestroy, hsearch - в POSIX

sergej ★★★★★
(30.08.23 23:34:02 MSK)

Ответ на: комментарий от saahriktu 30.08.23 23:33:44 MSK

Т.е., да, как бы, не совсем глифы, но не совсем не глифы

Что за бред я только что прочитал?

Если выделить место соответствующей ширины для строки, то ошибки не будет.

А если мне надо посчитать количество глифов – будет. Короче, перестань делать вид что wchar_t это API для работы с юникодом. Это не так. Это просто артефакт из прошлого который попытались натянуть на Юникод как смогли. Вышло плохо.

~~cumvillain~~
(30.08.23 23:41:12 MSK)

Ответ на: комментарий от cumvillain 30.08.23 23:41:12 MSK

Для чего считают глифы? Чтобы выделить соответствующее место на экране. В той же консоли, например.

Вот эта функция и считает сколько знакомест в консоли надо выделить чтобы строка влезла.

И уже в этом случае «погрешность» возникает именно потому, что символы широкие, т.е. они в одно знакоместо не влазят, им надо по 2 знакоместа.

В общем, везде свои погрешности. Даже «0.1 + 0.2» в Python'е не равно 0.3. И число π до последней цифры мы никогда не узнаем.

saahriktu ★★★★★
(30.08.23 23:46:12 MSK) автор топика

Ответ на: комментарий от saahriktu 30.08.23 23:46:12 MSK

Для чего считают глифы? Чтобы выделить соответствующее место на экране. В той же консоли, например.

Чтобы посчитать количеств букв в слове, например :D

~~cumvillain~~
(30.08.23 23:47:44 MSK)

Ответ на: комментарий от cumvillain 30.08.23 23:47:44 MSK

Между прочим, wcwidth.wcswidth() в Python'е тоже возвращает 8.

len() возвращает 6, но, как было замечено выше, она не со всем юникодом нормально работает, поскольку не все символы влазят в один кодепоинт. Куча составных.

saahriktu ★★★★★
(30.08.23 23:49:41 MSK) автор топика
Последнее исправление: saahriktu 30.08.23 23:50:27 MSK (всего исправлений: 1)

Ответ на: комментарий от sergej 30.08.23 23:34:02 MSK

Удивительно, что в стандартной библиотеке этого до сих пор нет

ну не то чтобы совсем нет

hcreate, hdestroy, hsearch - в POSIX

Только это не хэш-таблица. И не стандартная библиотека языка.

Ух лул…

~~hateyoufeel~~ ★★★★★
(30.08.23 23:49:50 MSK)

Ответ на: комментарий от saahriktu 30.08.23 23:49:41 MSK

len() возвращает 6, но, как было замечено выше, она не со всем юникодом нормально работает.

Оно со всем юникодом работает нормально.

~~hateyoufeel~~ ★★★★★
(30.08.23 23:51:08 MSK)

Ответ на: комментарий от hateyoufeel 30.08.23 23:51:08 MSK

Не так как планировалось изначально в 1990-х. Изначально она возвращала кол-во видимых символов в строке. Именно так она работала с однобайтными кодировками. А потом появился юникод и она начала считать кодепоинты. А это уже другое, да.

saahriktu ★★★★★
(30.08.23 23:52:55 MSK) автор топика
Последнее исправление: saahriktu 30.08.23 23:53:19 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от saahriktu 30.08.23 23:46:12 MSK

Даже «0.1 + 0.2» в Python’е не равно 0.3.

Охлолжежтыблин!

 ▲ ~ python
Python 3.10.12 (main, Jun  6 2023, 22:43:10) [GCC 12.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from decimal import *
>>> Decimal('0.1') + Decimal('0.2')
Decimal('0.3')

И число π до последней цифры мы никогда не узнаем.

Щща.. в Старый Оскол завезут траву по-забористее, и ты нам стопудов последнюю цифру скажешь.

Не так как планировалось изначально в 1990-х. Изначально она возвращала кол-во видимых символов в строке.

Нет не возвращала. Ты ещё блин \t за один символ при выводе на экран начни считать.

~~hateyoufeel~~ ★★★★★
(30.08.23 23:53:35 MSK)
Последнее исправление: hateyoufeel 30.08.23 23:54:39 MSK (всего исправлений: 1)

Ответ на: комментарий от hateyoufeel 30.08.23 23:53:35 MSK

Decimal('0.1') + Decimal('0.2')

Костыль как и wcwidth.wcswidth().

saahriktu ★★★★★
(30.08.23 23:54:58 MSK) автор топика

Ответ на: комментарий от saahriktu 30.08.23 23:54:58 MSK

Decimal(‘0.1’) + Decimal(‘0.2’)

Костыль как и wcwidth.wcswidth().

Схрена ли десятичная арифметика костыль?

~~hateyoufeel~~ ★★★★★
(30.08.23 23:55:38 MSK)

Ответ на: комментарий от saahriktu 30.08.23 23:49:41 MSK

Между прочим, wcwidth.wcswidth() в Python’е тоже возвращает 8.

Конечно возвращает. Потому что в мане этой функции написано вот это:

determine columns needed for a fixed-size wide-character string

Про глифы тут речи вообще не идет.

~~cumvillain~~
(30.08.23 23:57:04 MSK)

Ответ на: комментарий от saahriktu 30.08.23 17:44:35 MSK

А я юникод во фрипаскале не осилил.

luke ★★★★★
(30.08.23 23:57:27 MSK)

Ответ на: комментарий от hateyoufeel 30.08.23 23:49:50 MSK

подожди, ща они юникод в стандарт мож включат, а там лет через 20 и до хешей дойдёт)

sergej ★★★★★
(30.08.23 23:59:31 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 30.08.23 23:53:35 MSK

Дык символы разные бывают. Поэтому видимую ширину строки изначально никто не подразумевал. Подразумевалось сколько вообще данных соответствующих видимым и неотображаемым символам в строке. Это уже с появлением юникода понятие «символ» начало размываться, поскольку теперь всё из кодепоинтов составляется. Поэтому мы теперь вводим понятие «глиф» и удивляемся почему всё ничему не соответствует. Потому, что каша.

saahriktu ★★★★★
(30.08.23 23:59:46 MSK) автор топика

Ответ на: комментарий от luke 30.08.23 23:57:27 MSK

program test;
{$codepage UTF8}
uses cwstring, sysutils;
begin
        writeln('Привет, мир!');
end.

saahriktu ★★★★★
(31.08.23 00:01:26 MSK) автор топика
Последнее исправление: saahriktu 31.08.23 00:01:52 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от hateyoufeel 30.08.23 23:55:38 MSK

Дефолтна обычная арифметика.

>>> 0.1 + 0.2
0.30000000000000004
>>>

saahriktu ★★★★★
(31.08.23 00:03:05 MSK) автор топика

Ссылка

Ответ на: комментарий от cumvillain 30.08.23 23:57:04 MSK

Про глифы тут речи вообще не идет.

А где про них идёт речь?

saahriktu ★★★★★
(31.08.23 00:03:42 MSK) автор топика
Последнее исправление: saahriktu 31.08.23 00:04:00 MSK (всего исправлений: 1)

Ответ на: комментарий от saahriktu 30.08.23 23:59:46 MSK

Это уже с появлением юникода понятие «символ» начало размываться, поскольку теперь всё из кодепоинтов составляется. Поэтому мы теперь вводим понятие «глиф» и удивляемся почему всё ничему не соответствует. Потому, что каша.

Каша у тебя в голове. В юникоде всё норм.

Дефолтна обычная арифметика.

Ваще ни разу. Это лишь особенность реализации.

Алсо, если ты будешь с помощью float считать деньги, например, я лично приду и сломаю тебе руки куском арматуры.

~~hateyoufeel~~ ★★★★★
(31.08.23 00:04:50 MSK)
Последнее исправление: hateyoufeel 31.08.23 00:05:33 MSK (всего исправлений: 1)

Ответ на: комментарий от saahriktu 31.08.23 00:03:42 MSK

А где про них идёт речь?

В моей бизнес-логике, например. Мне надо посчитать скока букв в слове. Твой убогонький wchar_t пока этого сделать не смог.

~~cumvillain~~
(31.08.23 00:06:58 MSK)

Ответ на: комментарий от cumvillain 31.08.23 00:06:58 MSK

wchar_t длина гарантирована в один char только ЕМНИП, так что нафига его трогать я так и не понял.

luke ★★★★★
(31.08.23 00:10:44 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 31.08.23 00:04:50 MSK

Конечно, в юникоде всё нормально. Ведь он сферический в вакууме. Проблемы начинаются при практической работе с юникодными стандартами, поскольку они приколочены к тому, что было раньше, но не доделаны до того, чтобы соответствовать тому как если бы юникод был изначально вместо однобайтных кодировок.

Поэтому при работе с кодепоинтами проблем нет. Проблемы возникают при задачах, когда нужно разбирать чему это всё соответствует. Да, можно нагородить разбор этого всего с нуля. Но с однобайтными кодировками не надо было ничего городить. И хочется чтобы и с юникодом было также.

Ваще ни разу. Это лишь особенность реализации.

Без «import decimal» не работает. Это сторонняя библиотека. Под капотом которой своё. Так можно на любую стороннюю библиотеку ссылаться. В то время как в языке из коробки другое.

saahriktu ★★★★★
(31.08.23 00:11:23 MSK) автор топика

Ответ на: комментарий от cumvillain 31.08.23 00:06:58 MSK

Это только тип данных. Какая библиотека в каком языке считает «сколько букв в слове»?

saahriktu ★★★★★
(31.08.23 00:12:59 MSK) автор топика

Ответ на: комментарий от saahriktu 31.08.23 00:12:59 MSK

Это только тип данных. Какая библиотека в каком языке считает «сколько букв в слове»?

Я хочу в сях посчитать сколько букв в слове используя utf-8. Жги.

~~cumvillain~~
(31.08.23 00:14:36 MSK)

Ответ на: комментарий от cumvillain 31.08.23 00:14:36 MSK

Так это Вы утверждаете, что у Вас всё работает без wchar_t, а у меня с wchar_t не работает.

Вот я и говорю: где хоть один рабочий пример для юникода? Оно вообще бывает в природе? А если не бывает, то о чём тогда речь, при чём тогда wchar_t?

saahriktu ★★★★★
(31.08.23 00:17:09 MSK) автор топика

Ответ на: комментарий от saahriktu 31.08.23 00:17:09 MSK

fn main() {
    println!("{}", "重要".chars().count());
}

Покажете тебе 2.

~~cumvillain~~
(31.08.23 00:21:32 MSK)

Ответ на: комментарий от saahriktu 30.08.23 16:51:16 MSK

Проблемы могут начаться если возникнет желание портировать этот софт на винду

Но ты же сказал, что wchar_t — кроссплатформенный тип

theNamelessOne ★★★★★
(31.08.23 00:24:44 MSK)

Ответ на: комментарий от theNamelessOne 31.08.23 00:24:44 MSK

Так он шизик.

~~cumvillain~~
(31.08.23 00:25:40 MSK)

Ссылка

Ответ на: комментарий от theNamelessOne 31.08.23 00:24:44 MSK

Правильно. Кроссплатформенный. Только его размер на разных платформах разный. Со стандартными типами Си аналогично.

saahriktu ★★★★★
(31.08.23 00:30:38 MSK) автор топика

Ссылка

Ответ на: комментарий от cumvillain 31.08.23 00:21:32 MSK

Ну, пока что с костылями и я так в Си могу:

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int
ismodifierfatc(int fatcode)
{
    if (fatcode > 0x02ff && fatcode < 0x0370)
        return 1;
    if (fatcode > 0x1aaf && fatcode < 0x1b00)
        return 1;
    if (fatcode > 0x1dbf && fatcode < 0x1e00)
        return 1;
    if (fatcode > 0x20cf && fatcode < 0x2100)
        return 1;
    if (fatcode > 0xfe1f && fatcode < 0xfe30)
        return 1;
    return 0;
}


int
main(int argc, char **argv)
{
    setlocale(LC_ALL, "");
    wchar_t* str = L"Yes 重要";
    int i, len, clen = 0;
    len = wcslen(str);
    for(i = 0; i < len; i++)
	    if (!ismodifierfatc(str[i])) clen++;
    printf("Длина строки: %d\n", clen);
    return 0;
}

$ ./wcharlentest2
Длина строки: 6
$

saahriktu ★★★★★
(31.08.23 00:33:31 MSK) автор топика

Ответ на: комментарий от saahriktu 31.08.23 00:33:31 MSK

Ну, пока что с костылями и я так в Си могу Длина строки: 6

Нет, не можешь.

~~cumvillain~~
(31.08.23 00:34:11 MSK)

Ответ на: комментарий от cumvillain 31.08.23 00:34:11 MSK

Результат правильный. Не 8, а 6.

saahriktu ★★★★★
(31.08.23 00:35:08 MSK) автор топика

Ответ на: комментарий от saahriktu 31.08.23 00:33:31 MSK

А теперь смотри как это делают в нормальных языках:

$ cat main.rs
use unicode_segmentation::UnicodeSegmentation;

fn main() {
    let one = UnicodeSegmentation::graphemes("重要", true);
    let two = UnicodeSegmentation::graphemes("👨🏿", true);

    println!("{}", one.count());
    println!("{}", two.count());
}

$ cargo run
2
1

~~cumvillain~~
(31.08.23 00:35:38 MSK)

Ссылка

Ответ на: комментарий от saahriktu 31.08.23 00:35:08 MSK

А теперь попробуй распарсить вот ту штуку с эмодзи :)

~~cumvillain~~
(31.08.23 00:36:08 MSK)

Ответ на: комментарий от cumvillain 31.08.23 00:36:08 MSK

Длина строки: 1

Это эмодзи даже просто wcslen() распарсила. Так что, можно и без костылей.

saahriktu ★★★★★
(31.08.23 00:39:37 MSK) автор топика

Ответ на: комментарий от saahriktu 31.08.23 00:39:37 MSK

В итоге мы выяснили что без костылей в общем случае твой wchar_t не работает.

~~cumvillain~~
(31.08.23 00:40:14 MSK)

Похожие темы