LINUX.ORG.RU

В X11 кодировкой по умолчанию для России становится UTF8

 , , ,


0

0

Три часа назад, не без помощи со стороны svu, Daniel Stone внёс в код libX11 важное изменение, лог которого звучит следующим образом: "так как никто не пользуется кодировкой 8859-5, то кодировкой по умолчанию для России будет UTF-8".

Не прошло и 20 лет...

>>> Подробности

Re: В X11 кодировкой по умолчанию для России становится UTF8

Прозрел таки чувак!

Xandry ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>В XP, по-моему, все программы кроме консоли в UCS-2. Офис юникодный с конца 1990-х. Насчёт IIS не уверен -- его колбасит он буквы "я" (0xFF) :)

ХР включая висту файлы по сети например сохраняет в cp866 до сих пор

в юникоде простой txt например сохранить проблема (поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами)

итп итд

посмотри на контент в зоне .ru сайтов в юникоде раз два и обчелся по сравнению с cp1251

это из за отсутствия поддержки юникода в вендулете

xargs ★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

Наконец то свершилось то о чем давно говорили здравомыслящие программисты. Ура товарищи !!!

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

Сдается мне это все какой-то непрерывный 4.2. Винда уже давно уникодит по сетке. Да и утф8 я только что из нотепада сохранил. Винды вполне дружат с утф8 (несмотря на то что унутре у них ucs).

svu ★★★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> Не путайте уникод и утф8!!! Это немного разные вещи. UTF == Unicode Transformation __Format__. А кодировок уникода ни разу не меньше (iconv -l | grep -i -e utf -e ucs), чем был зоопарк с 8-ми битными кодировками.

КОДИРОВКА Unicode ЕДИНА! Есть несколько стандартных _представлений_ юникода, что скорее хорошо чем плохо. Ещё раз, кодировка Unicode есть только одна. Потратьте наконец некоторое время на чтение материалов на unicode.org или хотя бы википедии.

SKYRiDER ★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>Все зашибись, конечно, а как же BSD-шники? Как там дела с UTF-ом щаз обстоят?

Отлично.
setenv LOCALE ru_RU.UTF-8
setenv LANG ru_RU.UTF-8
setenv LC_ALL ru_RU.UTF-8
в ~/.cshrc и всё:
> locale
LANG=ru_RU.UTF-8
LC_CTYPE="ru_RU.UTF-8"
LC_COLLATE="ru_RU.UTF-8"
LC_TIME="ru_RU.UTF-8"
LC_NUMERIC="ru_RU.UTF-8"
LC_MONETARY="ru_RU.UTF-8"
LC_MESSAGES="ru_RU.UTF-8"
LC_ALL=ru_RU.UTF-8

iZEN ★★★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами

Собственно, сигнатуры не их, а юникода.

Deleted ()

Re: Кодировкой по умолчанию для россии становится UTF8.

> за каким половым органом? для жертв бронепоезда: UCS. по буквам надо, или и так понятно?

...obsolete...doesn't support surrogate chars...быдло неграмотное.

UCS-2 (2-byte Universal Character Set) is an obsolete character encoding which is a predecessor to UTF-16. The UCS-2 encoding form is nearly identical to that of UTF-16, except that it does not support surrogate pairs and therefore can only encode characters in the BMP range U+0000 through U+FFFF. As a consequence it is a fixed-length encoding that always encodes characters into a single 16-bit value. As with UTF-16, there are three related encoding schemes (UCS-2, UCS-2BE, UCS-2LE) that map characters to a specific byte sequence.

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> КОДИРОВКА Unicode ЕДИНА! Есть несколько стандартных _представлений_ юникода, что скорее хорошо чем плохо.

В английском языке для этого есть два термина: encoding и character set.

A character is a small, indivisible unit of text, and text is composed of a string of characters. A character is not the binary representation of a text unit on disk; that would be determined by encoding. It is not the shape that appears on the screen; that's the glyph.

It is not a 'letter' either -- for historical reasons, many things are considered characters which are not letter-like entities at all. For instance, even in ASCII, the simplest and most common character set, 'bell' and 'linefeed' are characters -- not because they deserve to be but because it was once thought convenient.

--http://www.jbrowse.com/text/

на этом же сайте объяснено, что творится в Японии с кодировками. И почему UTF-8 рулит и у них, несмотря на палки в колесах от всяких JIS'ов.

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> а как же BSD-шники? Как там дела с UTF-ом щаз обстоят?

нормально. Сортировка пока через icu, правда. А в syscons юникод все равно не нужен. В вашей консоли (не фреймбуффере) юникод-то не полностью поддерживается и кандзи там набирать, вроде, нельзя.

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> Когда я выяснил, что у винды другая кодировка юникода и совместимости как не было так и нет, я на него забил :)

когда я выяснил что в венде в консоли 866 а в гуе 1251, я забил на винду.

samy_volosaty ★★★★★ ()

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А почему нет? В Gentoo у меня по жизни на всех машинах юникод в консоли.

Консоль нужна для двух вещей:

1. Отредактировать /etc/X11/xorg.conf

2. Отредактировать /etc/ssh/sshd.conf

А потом уже работать с машиной из нормального рабочего окружения.

gaa ★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>и Ъ называется UCS, а не UTF. жаль, нельзя в некоторые черепа это молотком вколотить.

"Q: What is the difference between UCS-2 and UTF-16?

A: UCS-2 is what a Unicode implementation was up to Unicode 1.1, before surrogate code points and UTF-16 were added as concepts to Version 2.0 of the standard. This term should be now be avoided."

так что там кому надо вбить?

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> UTF32 -- суть таже UTF8, только расширенная до 4-х байт. Но в уникоде символов больше 65536! Так что даже UCS4 не поможет охватить все.

анонимус - суть тот же идиот, только расширенный до восьми букв

yk4ever ()

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А ещё в Debian недавно наконец-то допилили dselect, и он стал нормально работать в utf-8.

dselect вроде бы уже официально не рекомендуется, т.к. уступает аптитуде :)

gaa ★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> Я думаю, больше дискутировать по этому бессмысленно.

почитай о проблемах японцев и китайцев. Их больше волновало объединение китайских символов Хан (кандзи, ханзи и тп), чем переменная длина.

Хватит нести пургу.

anonymous ()

Re: Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А потом уже работать с машиной из нормального рабочего окружения.

+1. Еще добавлю: для отладки и просмотра трейсов всяких там дедлоков, где встретить что-то не на ascii за пределами реальности.

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> и ucs-2, и ucs-4 считаются устаревшими

Фактически UTF-32 является тем же самым что и UCS-4.

«UCS-4 and UTF-32 are now identical except that the UTF-32 standard has additional Unicode semantics.» © http://en.wikipedia.org/wiki/UTF-32

SKYRiDER ★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> Хотя немало, по-моему, даже двухбайтовых иероглифов.

двухбайтовые... это что ли слоговая кана? или неужто кандзи уместили?

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>двухбайтовые... это что ли слоговая кана? или неужто кандзи уместили?

а сколько их всего. если 65535, то если учить по одному в день, то понадобится около 180 лет. они не лопнут?

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> нет, они сидят и матерятся. потому что в этом удолбище даже задача «сдвинуться на символ назад» превращается в совершенно неувлекательный и ненужный анальный секс.

Во-первых, неужели так часто нужно двигаться на символ назад?

> и вместо простого p-- приходится городить невнятный код или дёргать функцию.

Во-вторых, на лысом C пишут только злобные буратины, у которых других проблем и так вагон.

Во, вторых, {p--; while (*p&192==128) p--;} - что здесь невнятного?

yk4ever ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> почитай о проблемах японцев и китайцев. Их больше волновало объединение китайских символов Хан (кандзи, ханзи и тп), чем переменная длина.

> Хватит нести пургу.

Пожалуй бессмысленно пытаться все это объяснять здесь, на лоре, сюда в основном приходят ПТУшники только чтобы покричать сакс и рулез, а не для того чтобы научиться чему-то новому и избавится от своих в корне неправильных стереотипов. Какой уж там Han unification...

SKYRiDER ★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> а сколько их всего. если 65535, то если учить по одному в день, то понадобится около 180 лет. они не лопнут?

хз

http://en.wikipedia.org/wiki/Han_unification

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>Сдается мне это все какой-то непрерывный 4.2. Винда уже давно уникодит по сетке.

поставь smbclient/smbfs и попробуй примонтироваться к вендовому ресурсу без указания codepage=cp866, удивись на то что будет с русскими буквами

а потом про 4.2 свои слова обратно возьми :)

>Да и утф8 я только что из нотепада сохранил.

а теперь напиши в этом нотепаде

#!/usr/bin/perl

print "привет\n";

и попробуй в юниксе этот сценарий пустить, и опять же поплюйся на этот псевдоюникод

>Винды вполне дружат с утф8 (несмотря на то что унутре у них ucs).

а вот это уже очень похоже на 4.2

xargs ★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> в юникоде простой txt например сохранить проблема (поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами)

"тупые сигнатуры" - это BOM, который есть часть стандарта UTF?

Бобёр, выдыхай.

yk4ever ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

>не, это только в daily use.

>one of the largest dictionaries of kanji ever compiled, has about 50,000 entries, even though most of the entries have never been used in Japanese.

Я под кандзи подразумевал как раз те, которые used, а не целиком китайский алфавит.

redgremlin ★★★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

Простите, а вы можете назвать файлы в кодировках UTF-8 или, например, UCS-2/UCS-4(UTF-32) текстовыми в классическом смысле этого слова (т.е. в сравнении с однобайтными ?

SKYRiDER ★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> Я под кандзи подразумевал как раз те, которые used

ты не подразумевал в каком контексте. В историческом, я боюсь, там окромя кучи itaiji, хентайганы, довоенных кандзи чего только не повстречаешь. Впрочем, для таких целей лучше исползовать mojikyo, а не юникод.

anonymous ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> поставь smbclient/smbfs и попробуй примонтироваться к вендовому ресурсу без указания codepage=cp866, удивись на то что будет с русскими буквами

smbfs мертва. cifs. Если Вы пользуетесь мертвячиной - это Ваши проблемы.

> а теперь напиши в этом нотепаде

Это проблемы перла (и всех скриптовых языков, появившихся в доутфную эпоху). Нотепад не обязан соблюдать соглашение о шебанге. Повторяю еще раз - с т.зр. спецификации утф (а не Билла Гейтса и не перла) сохраненный нотепадом утф8 файл является корректным. Спеки сами в гугле найдете?

Так что 4.2 остается на Вашей половине поля.

svu ★★★★★ ()

Re: В X11 кодировкой по умолчанию для России становится UTF8

> бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

Можете жаловаться авторам спеков. Нотепад всего лишь соблюдает их.

svu ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.