wchar_t

wprintf(L"%ls\n", word);

beastie ★★★★★
(03.07.13 21:54:27 MSK)
Последнее исправление: beastie 03.07.13 21:54:40 MSK (всего исправлений: 1)

Ответ на: комментарий от beastie 03.07.13 21:54:27 MSK

Теперь напечатало "?????"

af5 ★★★★★
(03.07.13 21:56:48 MSK) автор топика

#include <stdio.h>
#include <wchar.h>
#include <locale.h>
int main ()
{
   setlocale(LC_CTYPE, "ru_RU.UTF-8");
   wchar_t word[] = L"Дробь";
   wprintf(L"%ls\n", word);
   return 0;
}

happycorsair ★
(03.07.13 22:01:28 MSK)

Ответ на: комментарий от happycorsair 03.07.13 22:01:28 MSK

напечатало "?????"

af5 ★★★★★
(03.07.13 22:04:17 MSK) автор топика

Ответ на: комментарий от af5 03.07.13 22:04:17 MSK

Возможно я скажу ерунду, а не надо ли для этого сгенерить русскую локаль для всей системы в принципе?

happycorsair ★
(03.07.13 22:06:09 MSK)

Ответ на: комментарий от af5 03.07.13 21:56:48 MSK

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int
main ()
{
	wchar_t word[] = L"Дробь";

	setlocale(LC_ALL, "");
	wprintf(L"%ls\n", word);

	return 0;
}

beastie ★★★★★
(03.07.13 22:07:37 MSK)
Последнее исправление: beastie 03.07.13 22:07:45 MSK (всего исправлений: 1)

Ответ на: комментарий от beastie 03.07.13 22:07:37 MSK

Тоже работает :)

happycorsair ★
(03.07.13 22:09:26 MSK)

Ссылка

Ответ на: комментарий от happycorsair 03.07.13 22:06:09 MSK

Не хотелось бы таких пререквизитов
Вот так работает:

#include <stdio.h>
int main ()
{
   char word[] = "Дробь";
   printf("%s\n", word);
   return 0;
}

Но беда с адресной арифметикой:

#include <stdio.h>
int main ()
{
   char word[] = "Дробь";
   printf("%s\n", word+1);
   return 0;
}

af5 ★★★★★
(03.07.13 22:10:56 MSK) автор топика

Ответ на: комментарий от beastie 03.07.13 22:07:37 MSK

Во, вот так работает, и арифметика работает. А можно как-то разъяснить смысл сего шаманства и степень его необходимости?

af5 ★★★★★
(03.07.13 22:14:10 MSK) автор топика

Ответ на: комментарий от af5 03.07.13 22:10:56 MSK

В общем слусае (без костылей) с utf-8 адрессная арифметика не работает.

beastie ★★★★★
(03.07.13 22:14:37 MSK)
Последнее исправление: beastie 03.07.13 22:15:12 MSK (всего исправлений: 1)

Ответ на: комментарий от af5 03.07.13 22:14:10 MSK


     Only three locales are defined by default, the empty string «» which
     denotes the native environment, and the «C» and «POSIX» locales, which
     denote the C language environment.  A locale argument of NULL causes
     setlocale() to return the current locale.  By default, C programs start
     in the «C» locale.  The only function in the library that sets the locale
     is setlocale(); the locale is never changed as a side effect of some
     other routine.

DISCLAIMER: я не специалист в этой области, я просто умею хорошо находить информацию ☺

beastie ★★★★★
(03.07.13 22:17:06 MSK)
Последнее исправление: beastie 03.07.13 22:19:33 MSK (всего исправлений: 1)

Ответ на: комментарий от beastie 03.07.13 22:14:37 MSK

В общем слусае (без костылей) с utf-8 адрессная арифметика не работает.

Это понятно, но разве wchar_t сам по себе не костыль для этого?

af5 ★★★★★
(03.07.13 22:17:10 MSK) автор топика

Ответ на: комментарий от beastie 03.07.13 22:17:06 MSK

Хм, странно, но наверное это действительно причина

af5 ★★★★★
(03.07.13 22:20:16 MSK) автор топика

Ссылка

Ответ на: комментарий от af5 03.07.13 22:17:10 MSK

Дык, имненно так, но в твоём примере просто char. А вот с ним оно как раз не работает.

beastie ★★★★★
(03.07.13 22:20:52 MSK)

Ответ на: комментарий от beastie 03.07.13 22:20:52 MSK

Ну да, потому я wchar_t и стал тестировать. А оно вон как...

af5 ★★★★★
(03.07.13 22:22:42 MSK) автор топика

Ответ на: комментарий от af5 03.07.13 22:22:42 MSK

Всё правильно делаешь. Только сначала надо инициализировать (setlocale).

beastie ★★★★★
(03.07.13 22:24:49 MSK)

Ответ на: комментарий от beastie 03.07.13 22:24:49 MSK

Ок спасибо за помощь

af5 ★★★★★
(03.07.13 22:26:25 MSK) автор топика

Ответ на: комментарий от af5 03.07.13 22:26:25 MSK

Не за что, с удовольствием. Отмечай как решённую. ☺

beastie ★★★★★
(03.07.13 22:28:19 MSK)

Ссылка

ИМХО, чтобы правильно выводило, локаль должна быть UTF-16

Harald ★★★★★
(04.07.13 09:43:43 MSK)

Ссылка

ЧЯДНТ?

en_US.UTF-8

wprintf

либо крестик, либо трусы. Либо ставь локаль с широкими символами, либо используй простую printf, и простые char'ы.

~~drBatty~~ ★★
(04.07.13 10:01:18 MSK)

Ответ на: комментарий от beastie 03.07.13 22:14:37 MSK

В общем слусае (без костылей) с utf-8 адрессная арифметика не работает.

а как она должна работать, если все символы разного размера? Иные по 1 байту, иные по 2, а всякие ☣ по 3. Ясное дело, что прибавляя 1 char ты переходишь на середину символа, и получается ерунда.

~~drBatty~~ ★★
(04.07.13 10:04:56 MSK)

Ответ на: комментарий от af5 03.07.13 22:14:10 MSK

Интересные факты: в UTF-8 арифметика вполне себе работает, но только на одну букву вперед/назад. wchar_t непереносим даже между компиляторами одной платформы. Обращение к пятой/десятой букве теряет смысл после википедия/уникод.

anonymous
(04.07.13 12:19:19 MSK)

Ответ на: комментарий от drBatty 04.07.13 10:01:18 MSK

либо крестик, либо трусы. Либо ставь локаль с широкими символами, либо используй простую printf, и простые char'ы.

Не пиши бред. glibc сама умеет конвертировать wchar_t в нужную локаль.

Deleted
(04.07.13 13:13:51 MSK)

Ответ на: комментарий от Deleted 04.07.13 13:13:51 MSK

glibc сама умеет конвертировать wchar_t в нужную локаль.

что по твоему значит «сама»? iconv(3) что-ли?

~~drBatty~~ ★★
(04.07.13 13:22:01 MSK)

Ответ на: комментарий от drBatty 04.07.13 13:22:01 MSK

https://www.linux.org.ru/forum/development/9327377?cid=9327480 (комментарий)

Deleted
(04.07.13 14:14:43 MSK)

Ответ на: комментарий от Deleted 04.07.13 14:14:43 MSK

дык _все_ функции *printf(3) конвертируют в юникод, если в ASCII не получается.

Wide characters from the array are converted to multibyte characters

Но это касается *printf(3), и как-то слабо относится к самим wchar_t. Это только запись в файл такая.

~~drBatty~~ ★★
(04.07.13 14:32:33 MSK)

Ответ на: комментарий от drBatty 04.07.13 10:01:18 MSK

Что-то я не пойму о чём ты тут флудишь, всё уже вроде выяснили, всё нормально работает (wchar_t + setlocale = строка юникода с работающей адресной арифметикой)

af5 ★★★★★
(04.07.13 14:41:05 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 04.07.13 12:19:19 MSK

Интересные факты: в UTF-8 арифметика вполне себе работает, но только на одну букву вперед/назад.

Всё нормально работает и не на одну букву:

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main ()
{
	wchar_t word[] = L"Дробь";
	setlocale(LC_ALL, "");
	wprintf(L"%ls\n", word+2);
	return 0;
}

$ gcc src.c 
$ ./a.out 
обь

af5 ★★★★★
(04.07.13 14:47:36 MSK) автор топика

Ответ на: комментарий от af5 04.07.13 14:47:36 MSK

Всё нормально работает и не на одну букву:

а это и не UTF-8.

о чём ты тут флудишь, всё уже вроде выяснили, всё нормально работает

видать не все ещё выяснили.

~~drBatty~~ ★★
(04.07.13 14:56:14 MSK)

Ответ на: комментарий от drBatty 04.07.13 14:56:14 MSK

а это и не UTF-8

Чё правда?

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main ()
{
	wchar_t word[] = L"Дробь";
	setlocale(LC_ALL, "");
	wprintf(L"%X\n", word[0]);
	return 0;
}

$ gcc src.c 
$ ./a.out 
414

код удивительным образом совпадает с utf-8 буквой 'Д'
http://www.utf8-chartable.de/unicode-utf8-table.pl

af5 ★★★★★
(04.07.13 15:07:37 MSK) автор топика

Ответ на: комментарий от af5 04.07.13 15:07:37 MSK

Чё правда?

да. Двойку ты прибавлял к wchar_t, а вовсе не к UTF-8.

код удивительным образом совпадает с utf-8 буквой 'Д'

что в этом удивительного, если у нас wchar_t реализован как UTF-32? Вот только буква Д в utf-8 занимает 2 байта, а у тебя — 4. А вот ☣ занимает 3 байта.

~~drBatty~~ ★★
(04.07.13 15:53:48 MSK)

Ответ на: комментарий от drBatty 04.07.13 14:32:33 MSK

Но это касается *printf(3), и как-то слабо относится к самим wchar_t. Это только запись в файл такая.

Кроме чтения/записи файлов можно ещё конвертировать wide char <-> multibite просто в памяти. Этого недостаточно?

Deleted
(04.07.13 15:59:15 MSK)

Ответ на: комментарий от drBatty 04.07.13 15:53:48 MSK

да. Двойку ты прибавлял к wchar_t, а вовсе не к UTF-8.

спасибо, кэп

что в этом удивительного, если у нас wchar_t реализован как UTF-32? Вот только буква Д в utf-8 занимает 2 байта, а у тебя — 4. А вот ☣ занимает 3 байта.

продолжаю непонимать суть твоей проблемы. Радуйся, ☣ влезет в 4 байта и будет правильно работать ☣☣☣☣☣☣☣☣+2

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main ()
{
	wchar_t word[] = L"☣☣☣☣☣☣☣☣";
	setlocale(LC_ALL, "");
	wprintf(L"%ls\n", word+2);
	return 0;
}

./a.out
☣☣☣☣☣☣

af5 ★★★★★
(04.07.13 16:16:26 MSK) автор топика

Ответ на: комментарий от Deleted 04.07.13 15:59:15 MSK

можно ещё конвертировать wide char <-> multibite просто в памяти.

дык как?

~~drBatty~~ ★★
(04.07.13 16:16:28 MSK)

Ответ на: комментарий от af5 04.07.13 16:16:26 MSK

Радуйся, ☣ влезет в 4 байта и будет правильно работать ☣☣☣☣☣☣☣☣+2

будет конечно. Вот только к utf-8 это никак не относится. Ибо ☣ занимает 3 байта, а прибавляется 8 байт (2 символа).

Интересные факты: в UTF-8 арифметика вполне себе работает, но только на одну букву вперед/назад.
Всё нормально работает и не на одну букву:

продолжаю непонимать суть твоей проблемы.

у меня нет проблем. В UTF-8 арифметика вообще не работает, кроме случая ASCII. А у вас она, судя по цитатам, как-то работает.

В частности у тебя она работает в UTF-32. А у анонимуса я не понял как(он код не предоставил).

~~drBatty~~ ★★
(04.07.13 16:21:37 MSK)

Ответ на: комментарий от drBatty 04.07.13 16:21:37 MSK

А у вас она, судя по цитатам, как-то работает.

Какие цитаты вам не понятны?

af5 ★★★★★
(04.07.13 16:25:18 MSK) автор топика

Ответ на: комментарий от af5 04.07.13 16:25:18 MSK

Интересные факты: в UTF-8 арифметика вполне себе работает, но только на одну букву вперед/назад.
Всё нормально работает и не на одну букву:

эти непонятны.

~~drBatty~~ ★★
(04.07.13 16:39:36 MSK)

Ответ на: комментарий от beastie 03.07.13 22:14:37 MSK

Тогда смысл вообще во всех этих wchar_t если все равно арифметика не гарантирована? Кажется она только для utf32 может быть как-то гарантироваться, в остальных случаях это же просто везение. Тогда уж лучше юзать char * а для операций с символами уже тащить что-нибудь в стиле icu.

Gorthauer ★★★★★
(04.07.13 16:51:24 MSK)

Ссылка

Ответ на: комментарий от drBatty 04.07.13 16:39:36 MSK

Ты ведь сам понял, что по сути wchar_t == UTF-32, setlocale с помощью glibc сконвертировал мою utf-8 в utf-32 (или что-то похожее) и теперь строка представляет собой полноценный массив 4-байтных чаров, на котором арифметика не может не работать

af5 ★★★★★
(04.07.13 16:51:51 MSK) автор топика

Ответ на: комментарий от af5 04.07.13 16:51:51 MSK

Ты ведь сам понял, что по сути wchar_t == UTF-32

это НЕ так. Это только в нашей текущей реализации так. А как оно будет — хз. В венде недавно было 16 бит, ЕМНИП. Да и похоже сейчас 16.

setlocale с помощью glibc сконвертировал мою utf-8 в utf-32

это скорее gcc сконвертировал текст из исходника в UTF-32.

и теперь строка представляет собой полноценный массив 4-байтных чаров, на котором арифметика не может не работать

арифметика-то работает, но вот совершенно непонятно, что с этой строкой делать. Как например имя файла задать? Долбаться с wctomb(3)? Да нафига мне оно надо?

~~drBatty~~ ★★
(04.07.13 17:01:54 MSK)

Ответ на: комментарий от drBatty 04.07.13 10:04:56 MSK

а вот если бы у нас использовался С++, то можно было бы переопределить операторы ++, +, += и прибавлять 1,2 или 3 байта в зависимости от количества единичных старших битов операнда :)

Harald ★★★★★
(04.07.13 17:21:18 MSK)

Ссылка

Ответ на: комментарий от drBatty 04.07.13 17:01:54 MSK

Да там 16 бит, я в линуксах whar_t никогда не юзал, предпочитая char и честно был уверен, что там также.

Gorthauer ★★★★★
(04.07.13 17:40:43 MSK)

Ссылка

Ответ на: комментарий от drBatty 04.07.13 16:16:28 MSK

дык как?

man wcrtomb, man mbrtowc - вроде же оно?

Deleted
(04.07.13 18:24:46 MSK)

Ответ на: комментарий от af5 04.07.13 14:47:36 MSK

wchar_t это не UTF-8 (и не уникод, да). Настоятельно рекомендую прочитать хотя бы статейку на википедии.

anonymous
(04.07.13 18:26:53 MSK)

Ответ на: комментарий от drBatty 04.07.13 17:01:54 MSK

например имя файла задать?

как-то так например:

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main ()
{
	wchar_t word[] = L"Дробь";
	setlocale(LC_ALL, "");
	char str[256];
	wcstombs(str, word);
	FILE *fp = fopen(str,"w");
	fwprintf(fp, L"%ls\n", word+2);
	fclose(fp);
	return 0;
}

$ ls
a.out src.c

$ gcc src.c
$ ./a.out
$ ls
a.out src.c  Дробь

$ cat Дробь 
обь

af5 ★★★★★
(04.07.13 18:27:08 MSK) автор топика

Ответ на: комментарий от af5 04.07.13 16:51:51 MSK

Ну емае, прочитай уже, а? И покажи код, который гарантированно выдерет букву «й» из слова «плохой» в UTF-8/16/32, а мы еще посмеемся.

anonymous
(04.07.13 18:30:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 04.07.13 18:26:53 MSK

wchar_t это не UTF-8 (и не уникод, да). Настоятельно рекомендую прочитать хотя бы статейку на википедии.

ути-пути :)

af5 ★★★★★
(04.07.13 18:31:06 MSK) автор топика

Ссылка

Ответ на: комментарий от af5 04.07.13 18:27:08 MSK

Давай я расскажу тебе, ок. wchar_t это исторический тип, когда пошла свистопляска с начальной поддержкой уникода. На некоторых платформах (вин32, ява упс) он 16-битный и не покрывает все символы. UTF-N это способ кодирования кодэпоинтов N-битными словами. Все кодэпоинты *на данный момент* влезают в 20 бит или около того, точно забыл. То, что wchar_t большей частью совпадает с UTF-16/32, не должно вводить в заблуждение. Ну и самое главное: в уникодированном слове «плохой» может быть 6 кодэпоинтов, а может быть 7, опа. Дальше лениво, man NFC NFD. Каждый, кто пытается использовать смещения в уникодных строках обречен на нормализацию (дорого) или провал (фейл). Юзайте поточную обработку и UTF-8 как универсальное представление. /thread

anonymous
(04.07.13 18:38:01 MSK)

Ответ на: комментарий от Deleted 04.07.13 18:24:46 MSK

мог бы мой пост прочитать, прежде чем отвечать.

~~drBatty~~ ★★
(04.07.13 19:45:32 MSK)

Ответ на: комментарий от drBatty 04.07.13 19:45:32 MSK

Вот весь твой пост:

можно ещё конвертировать wide char <-> multibite просто в памяти.
дык как?

Что не так?

Deleted
(04.07.13 19:54:08 MSK)

Похожие темы