LINUX.ORG.RU
ФорумTalks

[ликбез] utf-8

 


0

0

Почему в UTF-8 символы c (английское) и с (русское) записываются разным кодом (проверял в Oktava)?

И разный ли код имеют например русское и французкое ё?


ps Понимаю, что вопрос впринципе тупой, но понять логики не могу

Ximik
() автор топика

потому что, в отличие от европейских языков, где достаточно локальных "дополнений", это другие буквы.

Adjkru ★★★★★
()

> Почему в UTF-8 символы c (английское) и с (русское) записываются разным кодом

Потому, что это разные символы, хотя у них и одинкаовы глифы.

> И разный ли код имеют например русское и французкое ё?

Да

no-dashi ★★★★★
()

Потому что это разные буквы.

//К.О.

cPunk ★★
()
Ответ на: комментарий от Adjkru

> потому что, в отличие от европейских языков, где достаточно локальных "дополнений", это другие буквы.

Но ведь тогда можно считать кириллицу дополнением греческого. Буквы К и О даже начертанием не изменились (сорри, если ошибаюсь - не филолог). А значит греческое и кирилличесское К должно иметь один код

Ximik
() автор топика
Ответ на: комментарий от Ximik

И тем не менее это разные буквы. Несмотря на то, что О у нас всех одно с латиницей.

Начертание - это еще не все.

svu ★★★★★
()

у букв помимо визуального есть и другая роль - отображение звуков и слогов, и латинская "c" и русская "с" обозначают совершенно разные звуки/слоги

HighwayStar ★★★★★
()

Автору респект!!! Развеселил, так развеселил!

sabonez ★☆☆☆
()
Ответ на: комментарий от Ximik

>Но ведь тогда можно считать кириллицу дополнением греческого

то что в русский алфавит были внедрены греческие буквы (и подправлено начертание) не делает русский алфавит калькой с греческого. вам неплохо промыли мозги бяснями о К&М.

tommy ★★★★★
()

>И разный ли код имеют например русское и французкое ё?

учитывая, что буква Ё может трактоваться юникодом как глиф Е с диакритикой с туевой хучей сочетаний, то можно сделать вывод, что буква Ё может отличатся кодом от самой себя.

К.О.

lester_dev ★★★★★
()

Хех, думал что топик на тему utf8 vs koi8. А оказалось всё намного смешнее :)

А теперь для топикстартера ещё больший взрыв мозга - не только в уникоде но и в однобайтовых кодировках испокон веков англ/русские буквы с одинаковым начертанием различаются!!!

Sherak ★☆
()

Гражданин! Срочно поделитесь с общественностью тем, что вы употребляли!

nu11 ★★★★★
()
Ответ на: комментарий от svu

>Но хотелось бы подробнее про басни (и не-басни) про КМ.

Видимо, имелись в виду пресловутые "черты и резы"?

kss ★★★★★
()
Ответ на: комментарий от svu

"В Херсонесе Кирилл «нашел Евангелие и Псалтырь, написанные русскими буквами, и человека нашел, говорящего на этом языке, и беседовал с ним, и понял смысл этой речи, и, сравнив ее со своим языком, различил буквы гласные и согласные, и, творя молитву Богу, вскоре начал читать и излагать их, и многие удивились ему, славя Бога»."

К&М - изобретатели русского алфавита :) совести то конечно нет присвоить чужое, откуда взяться то ей у "просветителей".

tommy ★★★★★
()
Ответ на: комментарий от tommy

Ну дык откуда он взялся-то, алфавит оный? Да, не русский - все-таки славянский, в те времена...

svu ★★★★★
()
Ответ на: комментарий от tommy

> "В Херсонесе Кирилл «нашел Евангелие и Псалтырь, написанные русскими буквами, и человека нашел, говорящего на этом языке, и беседовал с ним, и понял смысл этой речи, и, сравнив ее со своим языком, различил буквы гласные и согласные, и, творя молитву Богу, вскоре начал читать и излагать их, и многие удивились ему, славя Бога»."

> К&М - изобретатели русского алфавита :) совести то конечно нет присвоить чужое, откуда взяться то ей у "просветителей".

Если бы ты чуть глубже копнул, то узнал бы, что алфавит, найденный в Херсонесе (куда Константин и Мефодий добавили несколько греческих букв), представлял собой глаголицу. Кириллица же сложилась в Болгарии из греческого языка, заимствований из глаголицы и слияний дифтонгов.

Источник — учебник по старославянскому языку 1974 года издания. Автор — Георгий Хабургаев, если интересно.

question4 ★★★★★
()
Ответ на: комментарий от question4

конечно же - как можно было написать что это русская азбука. дело ведь не в истине. главное в русле общей линии идти, не высовываться и не копать глубоко. не могли ведь "просвятители" - украсть азбуку. значит они что-то другое нашли, да? верить надо любому вранью - главное что оно всеми признано.

tommy ★★★★★
()
Ответ на: комментарий от svu

>Пацтулом. Больше как бы даже сказать нечего...

Ну почему же нечего? Для "полного счастья" коды @, #, &, ... и всех знаков препинания тоже должны быть разными: русскими и латинскими :)

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

>Для "полного счастья" коды @, #, &, ... и всех знаков препинания тоже должны быть разными: русскими и латинскими

А с какого фига? Вроде ж в алфавит не входят...

А почему буквы с одинаковым начертанием имеют разные коды понятно. Компьютер он ведь немножко тока математику умеет, а вот до семантического анализа естественных языков еще не дорос...

Alex_A_V ★★
()
Ответ на: комментарий от Sherak

>А теперь для топикстартера ещё больший взрыв мозга - не только в уникоде но и в однобайтовых кодировках испокон веков англ/русские буквы с одинаковым начертанием различаются!!!

это мы помним. Ещё когда на Basic'e писали заметили :)

Ximik
() автор топика
Ответ на: комментарий от HighwayStar

> латинская "c" и русская "с" обозначают совершенно разные звуки/слоги

хорошо, а немецкая тогда тоже отдельным кодом должна быть?

Ximik
() автор топика
Ответ на: комментарий от Alex_A_V

>А с какого фига?

Дык, для патриотизЬма. Наша точка - самая точечная точка в мире! :)

quickquest ★★★★★
()
Ответ на: комментарий от nu11

> Гражданин! Срочно поделитесь с общественностью тем, что вы употребляли!

мы-с на субботу планируем.

Ximik
() автор топика
Ответ на: комментарий от Ximik

> а немецкая тогда тоже отдельным кодом должна быть?

Немецкая "c", вроде та же, а вот португальская "A" изначально имела другой код. При создании Юникода обсуждали давать ли ей дополнительный код. Не дали. Источник — Computerworld начала 1990-х.

question4 ★★★★★
()
Ответ на: комментарий от Ximik

Я думаю, основатели уникода отталкивались не от начертания, а от исторически сложившихся алфавитов. Подход не формально-математический, а культурно-исторический. Вся Западная Европа использует один и тот же алфавит + локальную диакретику (которая во многих странах повторяется), поэтому объединили. А славянский алфавит исторически давно существует сам по себе - поэтому для всех его символов выделили по отдельному коду.

ЗЫ А иначе с сортировкой происходили бы удивииииительные вещи.

svu ★★★★★
()
Ответ на: комментарий от tommy

> конечно же - как можно было написать что это русская азбука. дело ведь не в истине. главное в русле общей линии идти, не высовываться и не копать глубоко. не могли ведь "просвятители" - украсть азбуку. значит они что-то другое нашли, да? верить надо любому вранью - главное что оно всеми признано.

Никак не пойму, что тебя возмущает?

Им поручили организовать распространение византийской версии христианства среди славян-язычников. Они взяли два из алфавитов, которыми славяне пользовались, подогнали первый под запись греческих заимствований, а второй — под запись звуков, отсутствовавших в византийском греческом. Из нескольких стихийно сложившихся систем выбрали что-то и объявили стандартом.

> дело ведь не в истине.

Что за "истина" которую по-твоему скрывают?

> главное в русле общей линии идти, не высовываться и не копать глубоко.

Что ты намереваешься раскопать?

> не могли ведь "просвятители" - украсть азбуку.

Конечно не могли. Потому, что она не лежала где-то под замком. Ею пользовались. Несколькими несовместимыми вариантами. Заслуга именно в том, что сумели выработать единый стандарт — глаголицу (а потом кириллицу как врЕменную замену глаголице для привычных к греческому алфавиту болгар, но временная стала основной).

Секрета из азбук не делали. И так имеющих возможность учиться писать было мало. Возьмём ту же глаголицу. Часть букв — греческие, часть — семитские (емнип, из 2 разных алфавитов), часть — предположительно руны, часть — вообще непонятно что. Греческие и семитские буквы — искажённые финикийские; финикийские — не то упрощённые синайские иероглифы, не то перевранная угаритская клинопись, которая тоже в молодости была синайскими иероглифами (сильно упрощаю). И так 25 веков кто-то что-то у кого-то копировал. По-моему только китайцы и эскимосы пользуются алфавитами, которые изобрели полностью сами.

> значит они что-то другое нашли, да?

А что по-твоему они нашли?

> верить надо любому вранью - главное что оно всеми признано.

Чему веришь ты и чему верят "все"?

question4 ★★★★★
()
Ответ на: комментарий от Ximik

На самом деле можно представить такую реализацию кодировки, в которой одинаковым по написанию буквам из разных алфавитов соответствует один и тот же код. Но работать с такой кордировкой будет сложно, так как нельзя будет сказать к какому алфавиту принадлежит буква, и не будет известен порядок следования букв в алфавите (что сделает невозможным сортировку).
В некоторых случаях нечто подобное используется (пусть меня поправят, если я ошибаюсь) - когда в языке используется расширенный алфавит - например расширенная латиница для записи вьетнамских слов. Но расширение алфавита и другой алфавит - разные вещи.

Byron
()
Ответ на: комментарий от question4

>Немецкая "c"

хотя читается не так

Ximik
() автор топика
Ответ на: комментарий от Byron

>На самом деле можно представить такую реализацию кодировки, в которой одинаковым по написанию буквам из разных алфавитов соответствует один и тот же код. Но работать с такой кордировкой будет сложно, так как нельзя будет сказать к какому алфавиту принадлежит буква, и не будет известен порядок следования букв в алфавите (что сделает невозможным сортировку

таки логично

Ximik
() автор топика

>Почему в UTF-8 символы c (английское) и с (русское) записываются разным кодом (проверял в Oktava)?

Почему ?? Читаем - http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt

Говорим спасибо Робу Пайку и Кену Томпсону.

robot12 ★★★★★
()
Ответ на: комментарий от question4

>Никак не пойму, что тебя возмущает?

я дал пруфцитату. возмущает то что их называют просветителями и изобретателями славянской письменности. и это вранье ведь является официальной позицией.

tommy ★★★★★
()

> записываются разным кодом (проверял в Oktava)?

зато шрифты, как правило, оптимизированы в этом отношении.

dmiceman ★★★★★
()
Ответ на: комментарий от Byron

> На самом деле можно представить такую реализацию кодировки, в которой одинаковым по написанию буквам из разных алфавитов соответствует один и тот же код.

На самом деле такая кодировка есть и когда-то использовалась. Называется "Болгария-2", применялась в болгарских аналогах IBM PC и ещё в каких-то компьютерах. Успела доставить некоторое количество головной боли при адаптации имеющегося ПО, поскольку была прошита в ПЗУ видеоадаптера.

Но ныне всеми забыта =)

anonymous_incognito ★★★★★
()

Спасибо. Почувствовал себя крутым хаккером.

P.S. Как видишь, пальцы у нас не гнутся.

sskirtochenko ★★
()
Ответ на: комментарий от anonymous_incognito

> Но ныне всеми забыта

На железной дороге на IBM-овских майнфреймах и в программах на рабочих местах которые, с ними работают, подобная кодировка до сих пор жива. Причем она семибитная(!), восьмой бит всегда 0, все буквы там только заглавные, и в текстах сообщений символы русских букв УЕНОРАВСМТ заменяются на аналогичные по написание заглавные символы латиницы.

no-dashi ★★★★★
()
Ответ на: комментарий от no-dashi

> На железной дороге на IBM-овских майнфреймах и в программах на рабочих местах которые, с ними работают, подобная кодировка до сих пор жива.

Эта кодировка и с ASCII несовместима?

question4 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.