В июле этого года исполняется 3^3 лет стандарту KOI8-R

0

1

Сабж. Именно 3^3 лет назад, в июле 1993-его года, был создан RFC 1489.
За принятие RFC 1489 выступала Society of Unix User Groups (SUUG), поскольку кодировка KOI8-R уже была де-факто стандартом мира Unix на территории бывшего СССР.
Юникод уже существовал и RFC 1489 описывает соответствие кодов символов кодам уже принятого юникодного стандарта ISO 10646 для тех, кому юникод избыточен.
Через некоторое время (в мае 1999-го) и в glibc (версии 2.1.1) поддержка локали KOI8-R была добавлена не отдельной самодостаточной подсистемой, на поддержку которой нужны дополнительные силы и время, а как подмножество юникода (поддержка которого была добавлена только в glibc 2.0.1 (февраль 1997-го)).

Стандарт KOI8-R до RFC 1489 никогда не публиковался, но основан на нескольких опубликованных стандартах: ГОСТ 19768-74 (старый КОИ8), ISO 6937/8 (не зарегистрирован) и вариациях - INIS-cyrillic и ISO 5427.

Стандарт KOI8-U был принят позже - в RFC 2319 в апреле 1998-го года (в апреле было 22 года).

* * *

Ура! Поздравляю KOI8-R'щиков с очередным днём рождения стандарта самой лучшей кодировки!

Праздничная программа: gopher://sdf.org/9/users/saahriktu/filez/var/koi8r3r3.ha

Ссылка

←	Google решил изготовлять опенсорсные микросхемы

[Да, фейк] Говорят из регру ушли все админы, фейк?

→

← 1 2 3 →

Ответ на: комментарий от gremlin_the_red 09.07.20 17:06:20 MSK

Ну то же саахрикту, у него такой юмор.

Kolins ★★★★★
(09.07.20 20:02:50 MSK)

Ссылка

Ответ на: комментарий от gremlin_the_red 09.07.20 16:59:27 MSK

dovecot 1.* еще лет 10 назад вполне себе хранил(не пересылал, слава б-гу) файлы в mUTF-7. Как вспомню - так вздрагивать начинаю.

Pinkbyte ★★★★★
(09.07.20 23:26:09 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 09.07.20 19:48:43 MSK

<sarcasm>У вас там с Sun-ch одна девушка на двоих была штоле?</sarcasm>

Pinkbyte ★★★★★
(09.07.20 23:28:10 MSK)

Ответ на: комментарий от Pinkbyte 09.07.20 23:28:10 MSK

Ты нашёл кого вспомнить. Нет, это были разные. И с Sun-ch я так вживую и не встретился :(

hateyoufeel ★★★★★
(09.07.20 23:44:25 MSK)

Ссылка

Всего-то?! Так он вообще смузихлёбский, получается. Не то что ГОСТ 13052-67!

~~mertvoprog~~ ☆
(13.07.20 02:08:56 MSK)

Ссылка

Ответ на: комментарий от YogSagot 09.07.20 18:57:17 MSK

Чушь, HTML-страницы могут в сущности. Можно хоть всё не-ASCII сущностями кодировать, и положить болт на кодировку. Весить, конечно, будет в несколько раз больше, но gzip-сжатие это нивелирует ;)

~~mertvoprog~~ ☆
(13.07.20 02:16:03 MSK)

Ответ на: Неправильно ты Дядя Фёдр колбасу ешь. Вот как но должно было выглядить: от beastie 09.07.20 16:33:54 MSK

Хорошо, что они уже сдохли.

Windows-1251 живее всех живых, и вряд ли в обозримом будущем сдохнет.

~~mertvoprog~~ ☆
(13.07.20 02:18:22 MSK)

Ответ на: комментарий от mertvoprog 13.07.20 02:16:03 MSK

Чушь, HTML-страницы могут в сущности

HTML-страницы, конечно, в сущности могут. А вот те кто пишут имейлы - нет, а уж примитивные ранние вэб-интерфейсы догмайловской вэб-почты так и подавно.

YogSagot ★★☆
(13.07.20 02:25:28 MSK)

Ссылка

Ненужно, стандарт де-факто был CP866

TheAnonymous ★★★★★
(13.07.20 13:24:43 MSK)

Ссылка

Ответ на: комментарий от saahriktu 09.07.20 16:37:25 MSK

В Си нет ни поддержки юникода ни поддержки koi8-r. Там вообще нет строк, есть массивы байт.

cvs-255 ★★★★★
(13.07.20 14:24:09 MSK)

поскольку кодировка KOI8-R уже была де-факто стандартом мира Unix на территории бывшего СССР

Стандарт KOI8-R до RFC 1489 никогда не публиковался

Стандарт был настолько секретный, что все его использовали даже не читая.

gremlin_the_red ★★★★★
(13.07.20 14:30:01 MSK)

Ссылка

Ответ на: комментарий от cvs-255 13.07.20 14:24:09 MSK

Там вообще нет строк, есть массивы байт.

В этом и суть. Если есть только массивы байт и в них надо руками отсчитывать байты, то проще всего когда все символы занимают в массиве одинаковое кол-во байт. Как, например, в KOI8-R.

А в Паскале есть такой тип данных как строки. И там отсчитыванием символов занимается стандартная библиотека. И не надо ничего отсчитывать руками.

Можно, конечно, и в Си написать библиотеку, которая будет отсчитывать символы. Однако, это будет не так удобно как уже реализовано в Паскале.

С другой стороны, в Си уже есть «широкие символы», но это те самые прикрученные сбоку костыли, о которых я писал выше. А классические функции остались именно однобайтными. В то время как в Паскале классические функции легко перезагружаются юникодными версиями.

saahriktu ★★★★★
(17.07.20 14:31:14 MSK) автор топика

Ответ на: комментарий от hateyoufeel 09.07.20 19:47:51 MSK

То есть, погоди. Ты хочешь сказать, что KOI8 младше UTF8? Зачем его вообще придумали тогда?

Затем, что не всем нужен юникод!

saahriktu ★★★★★
(17.07.20 14:34:23 MSK) автор топика

Ответ на: комментарий от mrdeath 09.07.20 18:21:57 MSK

не совсем понятно зачем все отображать одним шрифтом. ненужную информацию типа меню удобно шрифтом поменьше, нужно – шрифтом побольше.

Затем, что шрифты поменьше могут оказаться слишком мелкими. А если всё свёрстано под эти шрифты поменьше, то при увеличении шрифтов они будут вылазить за границы и налазить на другой текст. Альтернативный вариант: увеличение вообще всего. Однако, это может быть неудобно.

saahriktu ★★★★★
(17.07.20 14:37:33 MSK) автор топика

Ответ на: комментарий от crutch_master 09.07.20 19:08:48 MSK

Сколько вас тут осталось?

Сложный вопрос.

saahriktu ★★★★★
(17.07.20 14:38:52 MSK) автор топика

Ссылка

Ответ на: комментарий от saahriktu 17.07.20 14:34:23 MSK

Кто тебе такую херню сказал? Тебя явно обманули.

hateyoufeel ★★★★★
(17.07.20 16:11:28 MSK)

Ответ на: комментарий от hateyoufeel 17.07.20 16:11:28 MSK

Юзеры однобайтных кодировок продолжают быть!

saahriktu ★★★★★
(17.07.20 16:34:24 MSK) автор топика

Ответ на: комментарий от saahriktu 17.07.20 16:34:24 MSK

Экспонатами археологических музеев?

gremlin_the_red ★★★★★
(17.07.20 17:00:24 MSK)

Ответ на: комментарий от saahriktu 17.07.20 16:34:24 MSK

Где? Я только тут на ЛОРе вижу одного упоротого фанатика. Или вы как посетители фурри бдсм вечеринок в гей-клубах стараетесь на афишировать свои предпочтения?

- Дорогой, где ты был?
- Дорогая, мы с коллегами после работы пошли по пиву выпить.
- Да? А почему тогда от тебя за версту несёт KOI8? Ты что, опять однобайтовый текст через гофер гонял?
- Милая, я могу всё объяснить!
- Не надо ничего объянять! Я думала, ты бросил свои вредные привычки, а ты... Ты... Ты всё ещё однобайтовый! Собирай свои вещи и чтобы духу твоего не было тут больше!

hateyoufeel ★★★★★
(17.07.20 17:49:55 MSK)
Последнее исправление: hateyoufeel 17.07.20 17:52:31 MSK (всего исправлений: 1)

Ответ на: комментарий от saahriktu 17.07.20 14:37:33 MSK

:) верстают html. А приложения используют стандартные виджеты которые сложно испортить разными шрифтами. А если ты говоришь про шрифты в браузере, то можно увеличить масштаб страницы.

Не знаю как можно сделать слишком мелкие для себя шрифты, которые ты сам же и настраиваешь. ставишь те, которые тебе удобны. в этом вся идея.

mrdeath ★★★★★
(17.07.20 18:40:15 MSK)

Ответ на: комментарий от saahriktu 17.07.20 14:31:14 MSK

то проще всего когда все символы занимают в массиве одинаковое кол-во байт.

Нет. Надо различать строки и массивы и использовать строковые типы, определенные в отдельных библиотеках

cvs-255 ★★★★★
(17.07.20 21:28:36 MSK)

Ответ на: комментарий от cvs-255 17.07.20 21:28:36 MSK

использовать строковые типы, определенные в отдельных библиотеках

Это в каких библиотеках?

saahriktu ★★★★★
(30.07.20 16:58:18 MSK) автор топика

Ссылка

Ответ на: комментарий от mrdeath 17.07.20 18:40:15 MSK

можно увеличить масштаб страницы.

Можно. Однако, тогда крупные шрифты станут ещё крупнее. И вообще всё станет слишком крупным.

Впрочем, не всегда тексты наползают друг на друга, да.

saahriktu ★★★★★
(30.07.20 16:59:13 MSK) автор топика
Последнее исправление: saahriktu 30.07.20 17:01:33 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от hateyoufeel 17.07.20 17:49:55 MSK

Не все люди сидят на ЛОРе. Например, те же Antonio Diaz Diaz и Джордж Р. Р. Мартин не сидят на ЛОРе.

Многое зависит от задач юзеров. Чтобы, например, писать тот же код в ASCII никакой юникод ни разу не нужен.

saahriktu ★★★★★
(30.07.20 17:06:04 MSK) автор топика

Ссылка

Ответ на: комментарий от gremlin_the_red 17.07.20 17:00:24 MSK

Нет. У разных юзеров разные задачи. А выбираемые юзерами инструменты зависят от их задач.

saahriktu ★★★★★
(30.07.20 17:07:56 MSK) автор топика

Ссылка

23 октября 2020 г.

Ответ на: комментарий от mertvoprog 13.07.20 02:18:22 MSK

Windows-1251 живее всех живых

Эт точно. Мне тут только что принесли кусок VCF, в котором она официально промаркирована (а не ошибочно перекодирована, с таким тоже сталкивался).

hobbit ★★★★★
(23.10.20 11:47:18 MSK)

Ответ на: комментарий от hateyoufeel 17.07.20 17:49:55 MSK

А почему тогда от тебя за версту несёт KOI8? Ты что, опять однобайтовый текст через гофер гонял?

В квотезы.

hobbit ★★★★★
(23.10.20 11:50:40 MSK)

Ссылка

Ответ на: комментарий от hobbit 23.10.20 11:47:18 MSK

Ну VCF сам по себе говно мамонта, тут не удивительно ;)

~~mertvoprog~~ ☆
(23.10.20 15:58:32 MSK)

А когда у товарища Брежнева день рожденья?

~~yvv~~ ★★☆
(23.10.20 16:00:33 MSK)

Ссылка

Ответ на: комментарий от mertvoprog 23.10.20 15:58:32 MSK

В vCard 4.0 уже постулировали обязательность UTF8, вот только 4.0 используется чуть более, чем нигде, за исключением экспорта-импорта в облаках (google contacts & nextcloud). А в андроидфонах от того же гугля 2.1 и иногда в виде особой милости 3.0.

hobbit ★★★★★
(23.10.20 16:32:38 MSK)

Ответ на: комментарий от Harald 09.07.20 13:43:12 MSK

для других письменностей, отличных от кириллицы.

Это для защиты их культурной уникальности! Выйдет чукча в интернет, насмотрится аниме и вся дайвёрсити моржу под хвост.

ugoday ★★★★★
(23.10.20 16:41:39 MSK)

Ссылка

Ответ на: комментарий от hobbit 23.10.20 16:32:38 MSK

Это как дискеты DS/ED, которые были лишь в теории? ;)

~~mertvoprog~~ ☆
(23.10.20 20:09:47 MSK)

Ответ на: комментарий от saahriktu 09.07.20 16:37:25 MSK

Это для юникода Си (по крайней мере, классической его части) уже маловато будет. В Си поддержка юникода реализована через прикрученные сбоку костыли.

Для UTF-8 никакая специальная поддержка не нужна. Можно работать также как и с ASCII.

X512 ★★★★★
(23.10.20 20:15:11 MSK)

Ссылка

Ответ на: комментарий от saahriktu 09.07.20 15:11:13 MSK

но продолжает быть актуальной именно KOI8-R

Какая ещё актуальность? Это уже более 20 лет не актуально. Везде UTF-8.

X512 ★★★★★
(23.10.20 20:17:22 MSK)

Ответ на: комментарий от X512 23.10.20 20:17:22 MSK

Какая ещё актуальность?

У юзеров однобайтных кодировок. glibc, ruby, perl 5,... и т.д. продолжают поддерживать KOI8-R.

saahriktu ★★★★★
(23.10.20 20:19:13 MSK) автор топика

Ответ на: комментарий от saahriktu 17.07.20 14:31:14 MSK

В этом и суть. Если есть только массивы байт и в них надо руками отсчитывать байты, то проще всего когда все символы занимают в массиве одинаковое кол-во байт. Как, например, в KOI8-R.

Зачем вам понадобилось обращение к отдельным символам? Тем более с символами не всё так просто: есть глифы состоящие из нескольких логических символов, есть лигатуры, есть смешанный текст слева направо и справа налево и т.д..

X512 ★★★★★
(23.10.20 20:23:21 MSK)

Ответ на: комментарий от saahriktu 23.10.20 20:19:13 MSK

glibc, ruby, perl 5,… и т.д. продолжают поддерживать KOI8-R.

От добавления ещё одной таблицы соответствия с юникодом никому хуже не станет.

X512 ★★★★★
(23.10.20 20:24:53 MSK)

Ссылка

Ответ на: комментарий от X512 23.10.20 20:23:21 MSK

Для выделения подстрок же. Ещё в Бейсиках и Паскалях была и есть функция

SUBSTR(string, start, length)

Поскольку там есть строки как строки. А в Си вместо строк просто массивы байтов.

saahriktu ★★★★★
(23.10.20 20:27:28 MSK) автор топика

Ответ на: комментарий от saahriktu 23.10.20 20:27:28 MSK

Для выделения подстрок же.

Зачем? И для UTF-8 это тоже работает.

Держите:

void Substring(char *dst, const char *src, size_t beg, size_t len)
{
	memcpy(dst, src + beg, len);
	dst[len] = '\0';
}

X512 ★★★★★
(23.10.20 20:29:46 MSK)
Последнее исправление: X512 23.10.20 20:50:20 MSK (всего исправлений: 1)

Ответ на: комментарий от mertvoprog 23.10.20 20:09:47 MSK

Ну contacts.google.com, положим, это не совсем теория. Прикол в том, что он вообще экспортирует несколько другой vcf, чем телефон с андроидом, с которым синхронизируется. В частности, группы (CATEGORIES) при экспорте с облака означают то же, что у нормальных людей (FAMILY, FRIENDS, WORK и др.), а при экспорте через файл с телефона забиты служебной хренью вроде CATEGORIES:System Group: My Contacts.

hobbit ★★★★★
(23.10.20 21:02:08 MSK)
Последнее исправление: hobbit 23.10.20 21:04:20 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от X512 23.10.20 20:29:46 MSK

Юзкейсы выделения подстрок бывают самыми разными.

И для UTF-8 это тоже работает. Держите

Каким это образом? Эта процедура просто копирует len байт, что корректно только для однобайтной кодировки.

Если у меня, например, строка «My name is Вася Пупкин», то эта самая Substring(subname, str1, 11, 4); вернёт только «Ва», а не «Вася».

saahriktu ★★★★★
(23.10.20 21:13:44 MSK) автор топика

Ответ на: комментарий от saahriktu 23.10.20 21:13:44 MSK

Согласен что для UTF-8 пример выше не работает, но написать совершенно не сложно.

xtouqh
(23.10.20 21:26:40 MSK)

Ссылка

Ответ на: комментарий от saahriktu 23.10.20 21:13:44 MSK

Юзкейсы выделения подстрок бывают самыми разными.

Пример хоть одного в студию.

то эта самая Substring(subname, str1, 11, 4); вернёт только «Ва», а не «Вася».

You are doing it wrong:

#include <stdio.h>
#include <string.h>

void Substring(char *dst, const char *src, size_t beg, size_t len)
{
	memcpy(dst, src + beg, len);
	dst[len] = '\0';
}

int main(void) {
  char buf[256];
  Substring(buf, "My name is Вася Пупкин", 11, 8);
  printf("\"%s\"\n", buf);
  return 0;
}

Output:

"Вася"

Вообще откуда взялись начальный индекс и длина? Обычно они получаются в результате работы другого алгоритма, который без проблем работает с UTF-8.

X512 ★★★★★
(23.10.20 21:33:43 MSK)

Ответ на: комментарий от X512 23.10.20 21:33:43 MSK

setlocale() где?

Хотя да, он тут не нужен, но в какой кодировке текст?

xtouqh
(23.10.20 21:34:38 MSK)
Последнее исправление: xtouqh 23.10.20 21:35:43 MSK (всего исправлений: 1)

Ответ на: комментарий от xtouqh 23.10.20 21:34:38 MSK

но в какой кодировке текст

UTF-8 разумеется. Остальные не нужны.

X512 ★★★★★
(23.10.20 21:36:33 MSK)

Ответ на: комментарий от X512 23.10.20 21:36:33 MSK

Всё, уже понял, что len 8 :)

xtouqh
(23.10.20 21:37:10 MSK)

Ссылка

Ответ на: комментарий от X512 23.10.20 21:33:43 MSK

Пример хоть одного в студию.

Например, для проверки есть ли в начале или конце строки соответствующая подстрока. Если бы это никому не было бы нужно, то в том же Python'е не было бы тех же .startswith() и .endswith().

Вообще откуда взялись начальный индекс и длина? Обычно они получаются в результате работы другого алгоритма, который без проблем работает с UTF-8.

Алгоритмы бывают разные. А вдруг я, например, просто хочу показать в поле определённой ширины ту часть строки, которая туда помещается, или, например, разбиваю строку на отдельные строки по ширине экрана?

saahriktu ★★★★★
(23.10.20 21:39:34 MSK) автор топика

Ответ на: комментарий от saahriktu 23.10.20 21:39:34 MSK

Например, для проверки есть ли в начале или конце строки соответствующая подстрока.

Всё это прекрасно работает с UTF-8.

bool BeginWith(const char *src, const char *pat)
{
	size_t i;
	i = 0;
	while (src[i] != '\0' && pat[i] != '\0' && src[i] == pat[i]) i++;
	return pat[i] == '\0';
}

А вдруг я, например, просто хочу показать в поле определённой ширины ту часть строки, которая туда помещается, или, например, разбиваю строку на отдельные строки по ширине экрана?

Разбивание по пробелам будет нормально работать. А вообще для переносов есть отдельные библиотеки. В общем случае это нетривиальная задача и для некоторых языков требуется разбор грамматики.

X512 ★★★★★
(23.10.20 21:48:17 MSK)
Последнее исправление: X512 23.10.20 22:07:27 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от saahriktu 23.10.20 21:13:44 MSK

Немного говнокода для текущей локали, заданной через setlocale(). Конечно было бы хорошо проверять что в dst достаточно места, но использую сигнатуру из предыдущего примера.

char *
mbsubstr(char *dst, const char *src, int start, int len)
{
        const char *c = src;
        int i, l, slen = 0;

        /* Skip */
        for (i = 0; i < start; i++) {
                l = mblen(c, MB_CUR_MAX);
                if (l < 0)
                        return (NULL);
                c += l;
        }
        /* Find length in bytes */
        for (i = 0; i < len; i++) {
                l = mblen(c + slen, MB_CUR_MAX);
                if (l < 0)
                        return (NULL);
                slen += l;
        }
        (void) memcpy(dst, c, slen);
        dst[slen] = '\0';

        return (dst);
}

xtouqh
(23.10.20 22:38:01 MSK)

Ответ на: комментарий от xtouqh 23.10.20 22:38:01 MSK

mbsubstr(char *dst, const char *src, int start, int len)

Понятное дело, что можно так сделать. Непонятно зачем.

X512 ★★★★★
(23.10.20 22:42:40 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Google решил изготовлять опенсорсные микросхемы

Talks

[Да, фейк] Говорят из регру ушли все админы, фейк?

→

Похожие темы