Ответ на: комментарий от anonymous 08.05.08 12:27:12 MSK

"Нифига себе басенку сократили"

svu ★★★★★
(08.05.08 12:36:12 MSK)

Прозрел таки чувак!

Xandry ★
(08.05.08 12:41:20 MSK)

Ссылка

Ответ на: комментарий от svu 08.05.08 12:36:12 MSK

>далеко не все нужные мне программы его корректно поддерживают
Пример можно ?

anonymous
(08.05.08 12:41:30 MSK)

Ссылка

Ответ на: комментарий от acheron 08.05.08 09:56:42 MSK

>В XP, по-моему, все программы кроме консоли в UCS-2. Офис юникодный с конца 1990-х. Насчёт IIS не уверен -- его колбасит он буквы "я" (0xFF) :)

ХР включая висту файлы по сети например сохраняет в cp866 до сих пор

в юникоде простой txt например сохранить проблема (поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами)

итп итд

посмотри на контент в зоне .ru сайтов в юникоде раз два и обчелся по сравнению с cp1251

это из за отсутствия поддержки юникода в вендулете

xargs ★★★
(08.05.08 12:42:12 MSK)

Наконец то свершилось то о чем давно говорили здравомыслящие программисты. Ура товарищи !!!

anonymous
(08.05.08 12:57:29 MSK)

Ссылка

Ответ на: комментарий от xargs 08.05.08 12:42:12 MSK

Сдается мне это все какой-то непрерывный 4.2. Винда уже давно уникодит по сетке. Да и утф8 я только что из нотепада сохранил. Винды вполне дружат с утф8 (несмотря на то что унутре у них ucs).

svu ★★★★★
(08.05.08 12:57:38 MSK)

Ответ на: комментарий от anonymous 08.05.08 10:08:57 MSK

> Не путайте уникод и утф8!!! Это немного разные вещи. UTF == Unicode Transformation __Format__. А кодировок уникода ни разу не меньше (iconv -l | grep -i -e utf -e ucs), чем был зоопарк с 8-ми битными кодировками.

КОДИРОВКА Unicode ЕДИНА! Есть несколько стандартных _представлений_ юникода, что скорее хорошо чем плохо. Ещё раз, кодировка Unicode есть только одна. Потратьте наконец некоторое время на чтение материалов на unicode.org или хотя бы википедии.

SKYRiDER ★★★
(08.05.08 12:58:22 MSK)

Ответ на: комментарий от xargs 08.05.08 12:42:12 MSK

Самый тривиальный блокнот открывает файлы в utf-8 - не понимаю в чем проблемы с MS-win кроме тупости его пользователей

anonymous
(08.05.08 13:03:08 MSK)

Ссылка

Ответ на: комментарий от sabonez 08.05.08 09:48:22 MSK

>Все зашибись, конечно, а как же BSD-шники? Как там дела с UTF-ом щаз обстоят?

Отлично.
setenv LOCALE ru_RU.UTF-8
setenv LANG ru_RU.UTF-8
setenv LC_ALL ru_RU.UTF-8
в ~/.cshrc и всё:
> locale
LANG=ru_RU.UTF-8
LC_CTYPE="ru_RU.UTF-8"
LC_COLLATE="ru_RU.UTF-8"
LC_TIME="ru_RU.UTF-8"
LC_NUMERIC="ru_RU.UTF-8"
LC_MONETARY="ru_RU.UTF-8"
LC_MESSAGES="ru_RU.UTF-8"
LC_ALL=ru_RU.UTF-8

iZEN ★★★★★
(08.05.08 13:08:25 MSK)

Ссылка

Ответ на: комментарий от svu 08.05.08 11:34:11 MSK

> А где я там напахал

ну, во-первых, "noone".

anonymous
(08.05.08 13:11:01 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.05.08 00:21:03 MSK

мудаки. как будто ей когда-то пользовались.

anonymous
(08.05.08 13:11:36 MSK)

Ссылка

Ответ на: комментарий от unihorn 08.05.08 10:59:45 MSK

> Кстати говоря, как c UTF-8 в Соляре

[user@host home]$ locale -a | grep -i utf
ru.UTF-8
ru_RU.UTF-8
tr_TR.UTF-8
en_US.UTF-8
[user@host home]$ uname -r
5.8

anonymous
(08.05.08 13:12:01 MSK)

Ссылка

Ответ на: комментарий от xargs 08.05.08 12:42:12 MSK

>поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами

Собственно, сигнатуры не их, а юникода.

Deleted
(08.05.08 13:17:50 MSK)

Ответ на: комментарий от anonymous 08.05.08 09:27:29 MSK

> за каким половым органом? для жертв бронепоезда: UCS. по буквам надо, или и так понятно?

...obsolete...doesn't support surrogate chars...быдло неграмотное.

UCS-2 (2-byte Universal Character Set) is an obsolete character encoding which is a predecessor to UTF-16. The UCS-2 encoding form is nearly identical to that of UTF-16, except that it does not support surrogate pairs and therefore can only encode characters in the BMP range U+0000 through U+FFFF. As a consequence it is a fixed-length encoding that always encodes characters into a single 16-bit value. As with UTF-16, there are three related encoding schemes (UCS-2, UCS-2BE, UCS-2LE) that map characters to a specific byte sequence.

anonymous
(08.05.08 13:18:19 MSK)

Ссылка

Ответ на: комментарий от Deleted 08.05.08 13:17:50 MSK

Спеков оне видать не читали...

svu ★★★★★
(08.05.08 13:19:21 MSK)

Ответ на: комментарий от svu 08.05.08 13:19:21 MSK

Не барское это дело... ~ (шутка, если что)

Deleted
(08.05.08 13:21:56 MSK)

Ссылка

Ответ на: комментарий от SKYRiDER 08.05.08 12:58:22 MSK

> КОДИРОВКА Unicode ЕДИНА! Есть несколько стандартных _представлений_ юникода, что скорее хорошо чем плохо.

В английском языке для этого есть два термина: encoding и character set.

A character is a small, indivisible unit of text, and text is composed of a string of characters. A character is not the binary representation of a text unit on disk; that would be determined by encoding. It is not the shape that appears on the screen; that's the glyph.

It is not a 'letter' either -- for historical reasons, many things are considered characters which are not letter-like entities at all. For instance, even in ASCII, the simplest and most common character set, 'bell' and 'linefeed' are characters -- not because they deserve to be but because it was once thought convenient.

--http://www.jbrowse.com/text/

на этом же сайте объяснено, что творится в Японии с кодировками. И почему UTF-8 рулит и у них, несмотря на палки в колесах от всяких JIS'ов.

anonymous
(08.05.08 13:23:24 MSK)

Ссылка

Ответ на: комментарий от sabonez 08.05.08 09:48:22 MSK

> а как же BSD-шники? Как там дела с UTF-ом щаз обстоят?

нормально. Сортировка пока через icu, правда. А в syscons юникод все равно не нужен. В вашей консоли (не фреймбуффере) юникод-то не полностью поддерживается и кандзи там набирать, вроде, нельзя.

anonymous
(08.05.08 13:24:46 MSK)

Ссылка

Ответ на: комментарий от petrosha 08.05.08 11:25:27 MSK

> Когда я выяснил, что у винды другая кодировка юникода и совместимости как не было так и нет, я на него забил :)

когда я выяснил что в венде в консоли 866 а в гуе 1251, я забил на винду.

samy_volosaty ★★★★★
(08.05.08 13:29:10 MSK)

Ссылка

Ответ на: комментарий от acheron 08.05.08 10:54:33 MSK

> Есть framebuffer.

есть X'ы

anonymous
(08.05.08 13:30:18 MSK)

Ссылка

Ответ на: комментарий от AS 08.05.08 09:12:21 MSK

А что делать-то? UCS-32 конечно всех спасёт, но оверхеда жаль.

yk4ever ★
(08.05.08 13:30:19 MSK)

Ссылка

Ответ на: комментарий от xargs 08.05.08 12:42:12 MSK

>своими тупыми сигнатурами

BOM уже тупая сигнатура?

anonymfus ★★★★
(08.05.08 13:33:56 MSK)

Ответ на: комментарий от anonymous 08.05.08 11:29:39 MSK

и ucs-2, и ucs-4 считаются устаревшими

anonymous
(08.05.08 13:34:54 MSK)

Ответ на: комментарий от KRoN73 08.05.08 10:25:54 MSK

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А почему нет? В Gentoo у меня по жизни на всех машинах юникод в консоли.

Консоль нужна для двух вещей:

1. Отредактировать /etc/X11/xorg.conf

2. Отредактировать /etc/ssh/sshd.conf

А потом уже работать с машиной из нормального рабочего окружения.

~~gaa~~ ★★
(08.05.08 13:35:31 MSK)

Ответ на: комментарий от anonymous 08.05.08 09:14:28 MSK

>и Ъ называется UCS, а не UTF. жаль, нельзя в некоторые черепа это молотком вколотить.

"Q: What is the difference between UCS-2 and UTF-16?

A: UCS-2 is what a Unicode implementation was up to Unicode 1.1, before surrogate code points and UTF-16 were added as concepts to Version 2.0 of the standard. This term should be now be avoided."

так что там кому надо вбить?

anonymous
(08.05.08 13:37:50 MSK)

Ссылка

http://bestpics.ru/full/Spasibo.jpg

anonymous
(08.05.08 13:38:27 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.05.08 10:32:38 MSK

> UTF32 -- суть таже UTF8, только расширенная до 4-х байт. Но в уникоде символов больше 65536! Так что даже UCS4 не поможет охватить все.

анонимус - суть тот же идиот, только расширенный до восьми букв

yk4ever ★
(08.05.08 13:38:48 MSK)

Ссылка

Ответ на: комментарий от Xellos 08.05.08 11:04:05 MSK

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А ещё в Debian недавно наконец-то допилили dselect, и он стал нормально работать в utf-8.

dselect вроде бы уже официально не рекомендуется, т.к. уступает аптитуде :)

~~gaa~~ ★★
(08.05.08 13:39:31 MSK)

Ответ на: комментарий от laune 08.05.08 11:34:43 MSK

> Я думаю, больше дискутировать по этому бессмысленно.

почитай о проблемах японцев и китайцев. Их больше волновало объединение китайских символов Хан (кандзи, ханзи и тп), чем переменная длина.

Хватит нести пургу.

anonymous
(08.05.08 13:39:54 MSK)

Ответ на: Re^2: В X11 кодировкой по умолчанию для России становится UTF8 от gaa 08.05.08 13:35:31 MSK

> А потом уже работать с машиной из нормального рабочего окружения.

+1. Еще добавлю: для отладки и просмотра трейсов всяких там дедлоков, где встретить что-то не на ascii за пределами реальности.

anonymous
(08.05.08 13:42:07 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.05.08 13:34:54 MSK

> и ucs-2, и ucs-4 считаются устаревшими

Фактически UTF-32 является тем же самым что и UCS-4.

«UCS-4 and UTF-32 are now identical except that the UTF-32 standard has additional Unicode semantics.» © http://en.wikipedia.org/wiki/UTF-32

SKYRiDER ★★★
(08.05.08 13:43:12 MSK)

Ответ на: комментарий от KRoN73 08.05.08 12:04:45 MSK

> Хотя немало, по-моему, даже двухбайтовых иероглифов.

двухбайтовые... это что ли слоговая кана? или неужто кандзи уместили?

anonymous
(08.05.08 13:44:54 MSK)

Ответ на: комментарий от SKYRiDER 08.05.08 13:43:12 MSK

> additional Unicode semantics

это что такое? citation needed ;)

anonymous
(08.05.08 13:46:47 MSK)

Ответ на: комментарий от anonymous 08.05.08 13:44:54 MSK

>двухбайтовые... это что ли слоговая кана? или неужто кандзи уместили?

а сколько их всего. если 65535, то если учить по одному в день, то понадобится около 180 лет. они не лопнут?

anonymous
(08.05.08 13:48:06 MSK)

Ответ на: комментарий от anonymous 08.05.08 11:32:37 MSK

> нет, они сидят и матерятся. потому что в этом удолбище даже задача «сдвинуться на символ назад» превращается в совершенно неувлекательный и ненужный анальный секс.

Во-первых, неужели так часто нужно двигаться на символ назад?

> и вместо простого p-- приходится городить невнятный код или дёргать функцию.

Во-вторых, на лысом C пишут только злобные буратины, у которых других проблем и так вагон.

Во, вторых, {p--; while (*p&192==128) p--;} - что здесь невнятного?

yk4ever ★
(08.05.08 13:50:02 MSK)

Ответ на: комментарий от anonymous 08.05.08 13:44:54 MSK

>то что ли слоговая кана? или неужто кандзи уместили?

В кандзи всего-то 5тысяч с чем-то.

~~redgremlin~~ ★★★★★
(08.05.08 13:50:18 MSK)

Ответ на: комментарий от anonymous 08.05.08 13:39:54 MSK

> почитай о проблемах японцев и китайцев. Их больше волновало объединение китайских символов Хан (кандзи, ханзи и тп), чем переменная длина.

> Хватит нести пургу.

Пожалуй бессмысленно пытаться все это объяснять здесь, на лоре, сюда в основном приходят ПТУшники только чтобы покричать сакс и рулез, а не для того чтобы научиться чему-то новому и избавится от своих в корне неправильных стереотипов. Какой уж там Han unification...

SKYRiDER ★★★
(08.05.08 13:50:37 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.05.08 13:48:06 MSK

> а сколько их всего. если 65535, то если учить по одному в день, то понадобится около 180 лет. они не лопнут?

хз

http://en.wikipedia.org/wiki/Han_unification

anonymous
(08.05.08 13:52:16 MSK)

Ссылка

Ответ на: комментарий от svu 08.05.08 12:57:38 MSK

>Сдается мне это все какой-то непрерывный 4.2. Винда уже давно уникодит по сетке.

поставь smbclient/smbfs и попробуй примонтироваться к вендовому ресурсу без указания codepage=cp866, удивись на то что будет с русскими буквами

а потом про 4.2 свои слова обратно возьми :)

>Да и утф8 я только что из нотепада сохранил.

а теперь напиши в этом нотепаде

#!/usr/bin/perl

print "привет\n";

и попробуй в юниксе этот сценарий пустить, и опять же поплюйся на этот псевдоюникод

>Винды вполне дружат с утф8 (несмотря на то что унутре у них ucs).

а вот это уже очень похоже на 4.2

xargs ★★★
(08.05.08 13:54:20 MSK)

Ответ на: комментарий от redgremlin 08.05.08 13:50:18 MSK

> В кандзи всего-то 5тысяч с чем-то.

не, это только в daily use.

anonymous
(08.05.08 13:54:58 MSK)

Ответ на: комментарий от xargs 08.05.08 12:42:12 MSK

> в юникоде простой txt например сохранить проблема (поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами)

"тупые сигнатуры" - это BOM, который есть часть стандарта UTF?

Бобёр, выдыхай.

yk4ever ★
(08.05.08 13:55:14 MSK)

Ответ на: комментарий от anonymfus 08.05.08 13:33:56 MSK

>BOM уже тупая сигнатура?

бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

xargs ★★★
(08.05.08 13:57:02 MSK)

Ответ на: комментарий от anonymous 08.05.08 13:54:58 MSK

>не, это только в daily use.

>one of the largest dictionaries of kanji ever compiled, has about 50,000 entries, even though most of the entries have never been used in Japanese.

Я под кандзи подразумевал как раз те, которые used, а не целиком китайский алфавит.

~~redgremlin~~ ★★★★★
(08.05.08 13:59:31 MSK)

Ответ на: комментарий от xargs 08.05.08 13:57:02 MSK

солидарен с теми , кто прокричал - "УРА!"

Valeriy_Onuchin ★★
(08.05.08 14:01:01 MSK)

Ссылка

Ответ на: комментарий от xargs 08.05.08 13:57:02 MSK

А чем "текстовые" байты отличаются от "бинарных", а?

yk4ever ★
(08.05.08 14:01:36 MSK)

Ответ на: комментарий от xargs 08.05.08 13:57:02 MSK

> бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

Простите, а вы можете назвать файлы в кодировках UTF-8 или, например, UCS-2/UCS-4(UTF-32) текстовыми в классическом смысле этого слова (т.е. в сравнении с однобайтными ?

SKYRiDER ★★★
(08.05.08 14:01:53 MSK)

Ответ на: комментарий от yk4ever 08.05.08 13:50:02 MSK

>Во, вторых, {p--; while (*p&192==128) p--;} - что здесь невнятного?

p какого размера?

frame ★★★
(08.05.08 14:02:47 MSK)

Ответ на: комментарий от redgremlin 08.05.08 13:59:31 MSK

> Я под кандзи подразумевал как раз те, которые used

ты не подразумевал в каком контексте. В историческом, я боюсь, там окромя кучи itaiji, хентайганы, довоенных кандзи чего только не повстречаешь. Впрочем, для таких целей лучше исползовать mojikyo, а не юникод.

anonymous
(08.05.08 14:05:09 MSK)

Ссылка

Ответ на: комментарий от xargs 08.05.08 13:54:20 MSK

> поставь smbclient/smbfs и попробуй примонтироваться к вендовому ресурсу без указания codepage=cp866, удивись на то что будет с русскими буквами

smbfs мертва. cifs. Если Вы пользуетесь мертвячиной - это Ваши проблемы.

> а теперь напиши в этом нотепаде

Это проблемы перла (и всех скриптовых языков, появившихся в доутфную эпоху). Нотепад не обязан соблюдать соглашение о шебанге. Повторяю еще раз - с т.зр. спецификации утф (а не Билла Гейтса и не перла) сохраненный нотепадом утф8 файл является корректным. Спеки сами в гугле найдете?

Так что 4.2 остается на Вашей половине поля.

svu ★★★★★
(08.05.08 14:05:45 MSK)

Ответ на: комментарий от xargs 08.05.08 13:57:02 MSK

> бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

Можете жаловаться авторам спеков. Нотепад всего лишь соблюдает их.

svu ★★★★★
(08.05.08 14:06:41 MSK)

Ссылка

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

Похожие темы