LINUX.ORG.RU
решено ФорумTalks

Кириллатиница

 


1

1

Продолжаем мозговой штурм по переводу кода на русский язык и восстановлению позиций кириллицы в ИТ. С Кои-7 идея, ясное дело, плоха отсутствием латиницы. Но её можно развивать в разных направлениях, чтобы латиница появилась.

Последняя идея, к-рая пришла в голову - следующая. Иногда нам не так уж важно, написан ли текст в кириллице или латинице. В этом случае мы просто возьмём да и добавим в кириллицу недостающие буквы из латиницы. А те, которые пересекаются, будем считать идентичными и присвоим им общий код. При идентификации будем использовать яролит взад, цитирую:

    a b c d e f g h i j k l m n o p q r s t u v w x y z
    а б ц д е ф г ш и й к л м н о п ь р с т у в ю х ы з

Но не весь, а часть букв выкинем (по ходу дела разберёмся, какие). Тут сразу есть проблема с b и p, которые при одинаковом написании имеет разные смыслы. Но на первый взгляд алфавит для представления латиницы получается такой:

a б ц д э ф г h i j к л м н о п q r s т u в w х y з

Итого мы добавили h i j q r s u w - всего 8 букв. Вся кириллица остаётся на месте, итого получается:

а б в w г д е ё ж з и i й j к л м н о п q р r с s т у u ф х ц ч ш h щ ъ ы ь э ю я

Протестируем:

Возьмём, например, произвольный текст из «Авторевю»

    Ездит на автомобилях Mitsubishi Lancer Evolution IX и ГАЗ-21Р

Текст набран одним шрифтом. На кириллатинице он будет выглядеть так:

    Ездит на автомобилях Мiтsuбishi Ланцеr Эволuтioн IХ и ГАЗ-21Р. 

Уффф. Хрень какая-то. Но на то и мозговой штурм, чтобы обсуждать хрень.

Плюсами является:

  • если впихнуть кириллатиницу в одну раскладку, будет гораздо удобнее печатать. Перевод с английского на русский такой масштабной вещи, как ОС, может быть только поэтапным, поэтому длительное время останется необходимость постоянно переключаться. Эта необходимость очень неприятна.
  • некоторые мнемоники (MOV какой-нибудь или ls) вообще вряд ли имеет смысл переводить. Поэтому, если не сделать единую раскладку, неудобство сохранится навсегда. Если же применить кириллатиницу и единую раскладку, то будет лучше.
  • если совпадающие буквы поместить в ASЦII, возникнет неявная кириллизация исходных текстов. Хотя предикат isАлпha станет сложнее. Но эта сложность коснётся только новых идентификаторов, содержащих непересекающиеся с латиницей буквы

Минусы:

  • для случаев, когда нам нужна именно латиница, придётся отвести отдельные коды букв и изменённые начертания. В Uнiцодэ вряд ли найдётся для них место, хотя я ХЗ. Но это не только минус, но и плюс. Т.к. проблема совпадения начертаний некоторых кириллических и латинских букв достаточно актуальна и всё равно то, что в шрифтах они пишутся одинаков - это баг современных шрифтов
  • не совсем ясно, как осуществлять поиск. По идее, поиск по кириллатинице может происходить так:
    • если по слову «жук» ясно, что это кириллица, ищем в кириллице
    • если по слову «worд» ясно, что латиница, ищем в латинице
    • слово «мама» ищем два раза (мама и mama)
    • слово «wой» ищем как слово в кириллатинице - не русское и не английское ,

Перемещено leave из development

★★★★★

Ответ на: комментарий от den73

Для перевода исходников A2 на русский язык.

Для института археологии? Эту A2 уже лет десять никто не трогал, она засохла и окаменела.

rupert ★★★★★ ()
Ответ на: комментарий от hobbit

Изальфой я обозначил это класс проблем, возникающих из-за прибитого гвоздями ASCII. Делать по-нормальному ты предлагаешь как? Через utf-8, как в Linux? Так это такой же костыль, просто с ним уже смирились, а проблемы до сих пор остаются. Менять размер CHAR? Это явно нарушит плавность процесса, т.к. первые несколько лет ничего вообще работать не будет, а дальше сдуется мотивация.

den73 ★★★★★ ()
Ответ на: комментарий от den73

Речь идёт о латинице

Так я думал ты общий алфавит написал. Тогда мне не ясно для чего нужны i, j и s. Ты уже сделал замену c -> ц, значит ты можешь сделать s -> с. Аналогично i -> и, j -> ж. Что ж ты маешься?

ya-betmen ★★★★★ ()

кириллица не нужна, от ее все беды в IT.

e000xf000h ()

Примите таблетки и возвращайтесь палату. И да, тот же Кунгуров уже давно решил проблему.

Igron ★★★★★ ()

к-рая пришла

Э — экономия

mogwai ★★★★ ()
Ответ на: комментарий от ya-betmen

Так я думал ты общий алфавит написал.

Общий алфавит добавил в пост.

Ты уже сделал замену c -> ц, значит ты можешь сделать s -> с. Аналогично i -> и, j -> ж. Что ж ты маешься?

Касаемо i, есть два слова в русском языке, мир и мiр, их смысл совершенно разный. «Война и мiр» = «Война и общество». Мы потеряли часть выразительности русского языка, выкинув i, поэтому логично его вернуть, из соображений, далёких от ИТ.

Касаемо с, может возникнуть путаница между сцs. Вообще, чем больше букв, тем короче можно записать. Если с, ц и s помещаются в пространстве глифов, кодировке и на клавиатуре, то нет причин их не оставить.

Но по сути один из вопросов для обсуждения в рамках этой темы, надо ли так сделать или нет.

Mitsubishi
Митсубисши

В минималистичном варианте можно вообще полностью впихнуть латиницу в кириллицу - по сути дела опять возвращаемся к кои-7 или яролиту взад, т.е.

a b c d e f g h i j k l m n o p q r s t u v w x y z
а б ц д е ф г ш и й к л м н о п ь р с т у в ю х ы з

Но как лучше? В этом и один из вопросов. Кстати, я не понял, почему вдруг редактор переключился на LORCODE, хотя раньше он был в маркдауне, а я в профиле ничего не трогал, но это офф.

den73 ★★★★★ ()
Последнее исправление: den73 (всего исправлений: 4)
Ответ на: комментарий от Burbaka

За ДКОИ спасибо. Второй вариант К2 - это «щедрый» вариант.

Во-втором варианте русские буквы, совпадающие по начертанию с латинскими (А, В, Е, К, М, Н, О, Р, С, Т, Х, а, е, о, р, с, у, х), не используются — вместо них латинские с тем же начертанием

Т.е. есть отдельно к и k. На клавиатуре такое будет трудно набирать.

den73 ★★★★★ ()
Последнее исправление: den73 (всего исправлений: 1)
Ответ на: комментарий от den73

Можно и в макдональдсе жрать, везде одинаково, зачем заморачиваться местной кухней

TooPar ()
Ответ на: комментарий от den73

есть два слова в русском языке, мир и мiр

Ошибаешься, слова мiр в русском нет.

Ты на каждое многозначное слово собираешься по букве придумывать? Что делать если из контекста не ясно о каком слове речь?

ya-betmen ★★★★★ ()

Нафига это вообще? В славянских языках, которым нафиг не упала кирилица, сделали несколько решений проблем, типа вот для Ч: cz, č. И это действительно расширение латиницы. Нафиг что-то третье придумывать?

alexmaru ()
Ответ на: комментарий от gremlin_the_red

Так это-ж и есть «всё русское», прямо как г-н Стерлингов завещал.

thunar ★★★★★ ()
Ответ на: комментарий от den73

Просто в России 5-я колонна победила

Акстись болезный, какая 5-я колонна? Россия — это Путин.

thunar ★★★★★ ()

А как быть с рукописями?

«ч» и «r» пишутся одинаково.

«Д» и «D» тоже

Список можно продолжать.

если впихнуть кириллатиницу в одну раскладку, будет гораздо удобнее печатать

Кто является целевой аудиторией такой штуки?

gnuava ()
Ответ на: комментарий от ya-betmen

Ошибаешься, слова мiр в русском нет.

https://gufo.me/dict/dal/мир

Тут интересный вопрос, слова мир и мiр одинаково ли произносятся? В любом случае, в дореформенной письменности было отдельное написание такого слова. Одно ли это слово или два - вопрос терминологический, но говорить, что я ошибаюсь, неэффективно, разве только ради низкокачественного, непрофессионально исполненного троллинга.

den73 ★★★★★ ()
Последнее исправление: den73 (всего исправлений: 2)
Ответ на: комментарий от alexmaru

Прекрасное решение проблемы, записывать двумя буквами, там, где можно одной. Давайте уж тогда сразу выписывать коды букв в двоичном коде, что там мелочиться.

den73 ★★★★★ ()
Ответ на: А как быть с рукописями? от gnuava

Кириллатиница предназначена для программного кода, об этом я выше писал уже. Может, для чего-нибудь ещё сгодится, типа e-mail, доменных имён и проч.

den73 ★★★★★ ()
Ответ на: комментарий от den73

Читаю твою ссылку:

МИР (мiръ) м. вселенная; вещество в пространстве и сила во времени

Таки слова мiр опять нет. Есть мiръ.

Я не могу понять как ты определяешь дату с которой используешь слова, т.е. как ты делаешь выбор между современным языком, старословянским, древнерусским, церковнословянским и т.д?

ya-betmen ★★★★★ ()
Ответ на: комментарий от ya-betmen

Таки победил, придётся согласиться. Вообще, про мiр - это уже дополнительное соображение, не столь важное. Я пока что склоняюсь к жёсткому варианту максимального объединения, когда останется только 33 буквы, из-за раскладки. Кириллица и так на клавиатуру не помещается, впихнуть ещё дополнительные буквы без больших неудобств не получится. Кроме того, этот вариант самый простой для запоминания.

den73 ★★★★★ ()
Ответ на: комментарий от den73

Митсубисши

Сейчас на тебя грозно надвигаются с разных сторон сразу две школы японоведов…

hobbit ★★★★★ ()
Ответ на: комментарий от anonymous

а навязывать свой и запрещать иностранный язык - это удел деревенских нацистов

А навязывать иностранный язык и запрещать свой — это чей удел? А некоторые на ЛОРе этим занимаются постоянно. Как новость про книжку на русском языке — так вопль проносится «РУСКАЯ ЯЗЫКА НИНУЖНА!» Тьфу.

Затею автора не поддерживаю, но совсем по другой причине. Я считаю, что качественный перевод так не получится, получится каша, которая только дискредитирует идею перевода.

hobbit ★★★★★ ()
Ответ на: комментарий от hobbit

Да, я эту тему тоже хотел туда притащить.

так вопль проносится «РУСКАЯ ЯЗЫКА НИНУЖНА!» Тьфу.

А за такое я бы просто банил. Т.к. ЛОР - это по определению русскоязычный ресурс. Кому русская языка не нужна, тот пусть и начнёт избавляться от русского языка с себя.

den73 ★★★★★ ()
Последнее исправление: den73 (всего исправлений: 2)
Ответ на: комментарий от hobbit

Я считаю, что качественный перевод так не получится, получится каша, которая только дискредитирует идею перевода.

Основное ограничение, которое действует на данный проект - это ограниченность ресурсов. Я хотел слегка подлатать инструменты - и на это ушло 7 месяцев! Соответственно, я должен чётко просчитывать стоимость каждого шага. В т.ч. пресловутая исАлпша, если её исправлять повсеместно, будет стоить так дорого, что я вообще не уверен в осуществимости.

Принцип инкрементности требует малых шагов, на выходе каждого шага система должна работать без потери функционала и качества. Внедрение utf-8 можно сделать поэтапным, но оно останется уродом навсегда, как случилось с tk. Про широкие строки - система сразу и надолго сломается. Для поэтапности придётся сделать более одного вида строк, как в винде, тогда и русификация будет ущербной. А тут мы достигаем безкомпромиссного результата по применимости кириллицы во всей кодовой базе с минимальными усилиями и инкрементно.

den73 ★★★★★ ()
Последнее исправление: den73 (всего исправлений: 4)

ⰄⰀⰂⰐⰑ ⰖⰆⰅ ⰒⰑⰓⰀ ⰒⰅⰓⰅⰋⰕⰋ ⰐⰀ ⰃⰎⰀⰃⰑⰎⰋⰜⰖ!

Собственно сабж, ⰄⰀⰂⰐⰑ ⰖⰆⰅ ⰒⰑⰓⰀ ⰒⰅⰓⰅⰋⰕⰋ ⰐⰀ ⰃⰎⰀⰃⰑⰎⰋⰜⰖ!

luke ★★★★ ()
Ответ на: комментарий от den73

Просто в России 5-я колонна победила и Россия по сути дела как цивилизация умирает.

Программистам всё же лучше программировать, а не глупо бравировать политическими терминами и тезисами.

Deleted ()

Ⱎⱃⰺⱇⱅⱁⰲ ⱀⰰ ⰳⰾⰰⰳⱁⰾⰺⱌⱆ - ⱃⰰⰸ ⰴⰲⰰ ⰺ ⱁⰱⱍⱖⰾⱄⱝ, ⱀⰵⱅ ⰽⱆⰾⱐⱅⱆⱃ ⱂⰵⱍⰰⱅⱀⱁⰳⱁ ⱎⱃⰺⱇⱅⰰ. Ⱂⱃⰺ ⱀⰰⰾⰺⱍⰺⰺ 6 ⱃⱆⰽⱁⱂⰺⱄⱀⱈ ⱀⰰⱍⰵⱃⱅⰰⱀⰺ ⱀⰵⱂⱁⱀⱝⱅⱀⱁ, ⰽⰰⰽⱁⰵ ⰺⰸ ⱀⰺⱈ ⱄⰾⰵⰴⱆⰵⱅ ⰲⰱⰺⱃⰰⱅⱐ.

gnuava ()

Не угадал автора по названию. Зачем это сейчас, когда каждая собака гавкает на юникоде?

Rupricht ★★ ()
Ответ на: комментарий от gnuava

ⰐⰖ ⰕⰀⰍ ⰒⰖⰔⰕⰠ ⰕⰔ Ⰻ ⰓⰀⰈⰓⰀⰁⰀⰕⰟⰊⰂⰀⰅⰕ ⰐⰑⰓⰏⰀⰎⰐⰟⰊⰅ ⰞⰓⰋⰗⰕⰟⰊ, ⰄⰅⰎⰑⰂ-ⰕⰑ.

luke ★★★★ ()
Ответ на: комментарий от cheetah111v

Это не КОИ-7, впрочем, в посте есть ссылка на предыдущую тему про него. Хотя отличия - в оттенках. Тут смысл не в том, чтобы изобрести, а в том, чтобы было изобретено то, что надо.

den73 ★★★★★ ()
Ответ на: комментарий от den73

togda i nie igobretaï welosiped, ili sdelai skript avtomaticzeskogo perseklučęia raskladki v zawisimosti ot slowa.

alexmaru ()
Ответ на: комментарий от den73

тема кириллицы в ИТ интересна, так скажем, десятку маргиналов

Ты опоздал лет так на 30. Это тогда был бум всяких кодировок: koi8-r, cp866, cp1251. А теперь, во время юникода, кодировками только маргиналы и будут заниматься.

rupert ★★★★★ ()
Ответ на: комментарий от alexmaru

А как ты предлагаешь переключаться для слова «то», к примеру?

den73 ★★★★★ ()
Ответ на: комментарий от den73

Я это понял, ознакомившись с другими твоими тредами. Но цель получается экзотическая. Кому ещё придёт в голову идея писать код по-русски? Тебе это просто интересно, или за это платят? И почему обязательно A2? Ты-ж вроде лиспом занимался? А здесь Оберон - примитив по сравнению с лиспом.

rupert ★★★★★ ()
Ответ на: комментарий от rupert

Я уже в этом самом треде писал, ещё раз могу написать: ИТ не так уж сильно отличается от других областей знания: медицины, религии, литературы, машиностроения, мореплавания. Все эти области знания в конце концов были русифицированы. Почему так - ну в общем-то, очевидно, что слишком дорого выучить столько людей чужому языку, да и не нужно это. Уберёшь язык - и страна развалится. ВО всяком случае, официальная политика РФ состоит в том, чтобы русский язык защищать и продвигать. Тут правда, вопрос, устоит ли наша страна вообще, но такой вопрос в России часто стоит на повестке дня, и как-то обычно обходилось.

Кроме того, все 1С-ники кодят на русском языке, и, несмотря на это, 1С прекрасно себе поживает.

A2 - потому что нет нормальной с точки зрения ИБ ОС, и даже близко к ней ничто не приближается. А2 тоже далеко, но это ближайшая точка.

P.S. хотя с русификацией православия я не очень уверен. Не знаю, в какой там пропорции русский и церковнославянский.

den73 ★★★★★ ()
Последнее исправление: den73 (всего исправлений: 3)

Угадал автора по за головку. Традиционно пожелаю заняться делом. Вот далась тебе эта кириллица?

t184256 ★★★★★ ()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)