Как посимвольно работать с кириллицей в Си

Ответ на: комментарий от Eddy_Em 10.07.12 14:41:20 MSK

Значит, я за svu.

cdshines ★★★★★
(10.07.12 14:41:52 MSK)

Ответ на: комментарий от svu 10.07.12 13:24:33 MSK

4. wchar_t не годится для UTF-8

O'RLY?

shty ★★★★★
(10.07.12 14:41:53 MSK)

Ответ на: комментарий от cdshines 10.07.12 14:40:58 MSK

на микроконтроллерах

На сях пишут все, что угодно. При чем здесь МК?

// кстати, на МК тоже кириллица нужна, когда отображаешь текст на LCD

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:42:02 MSK)

Ответ на: комментарий от svu 10.07.12 14:40:47 MSK

совершенно пустая трата времени

Почему? Работает все гораздо веселее, чем в юникоде.

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:42:28 MSK)

Ответ на: комментарий от Eddy_Em 10.07.12 14:42:02 MSK

Я знаю, что что угодно, просто там, где нужно сказать пользованель не fuck off, а пнх, можно обойтись и каким-то езычком с юникодом. КАК ПУТХОН БУГАГА (это я так троллю поддержку юникода в путхоне)

cdshines ★★★★★
(10.07.12 14:44:07 MSK)

Ответ на: комментарий от cdshines 10.07.12 14:41:52 MSK

Все от задачи зависит. Если тебе компьютер нужен только для гуевых приложений, юникод — самое оно. А вот когда у тебя уйма функционала только через консоль — лучше однобайтную кодировку. Или придется только в ASCII работать.

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:44:27 MSK)

Ответ на: комментарий от cdshines 10.07.12 14:44:07 MSK

/s/пользованель/пользователю/

cdshines ★★★★★
(10.07.12 14:44:37 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 10.07.12 14:44:27 MSK

Ну и норм же. 640 кб^W^W ASCII хватит всем:)

cdshines ★★★★★
(10.07.12 14:45:32 MSK)

Ответ на: комментарий от cdshines 10.07.12 14:45:32 MSK

А мне больше нравится, когда набираю я «тралала -h», а оно мне на родном языке списочек выдает. Правда, лукавлю я: я и в консоли gettext использую, а он через enca делает преобразование (русские строки в юникод, затем поиск по БД, затем из юникода в русские строки).

Кстати, надо будет попробовать ключи на родном языке делать. Типа «моя_программа --вывод-по-полной --запись-всего --нафиг».

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:47:43 MSK)

Ответ на: комментарий от z00ke 10.07.12 12:38:36 MSK

#include <stdio.h>

int main(int argc, char const *argv[]){
	char *buf = "123АБВ_ABC";
	for(;*buf;buf++) 
		putchar(*buf);
	putchar('\n');
	return 0;
}

не вариант т.к. уже простое сравнение

char *buf = "123АБВ_ЯЯЯЕЕЕ";
	for(;*buf;buf++)
		if (*buf == 'Я') putchar(*buf);
	putchar('\n');

не работает

sadavod
(10.07.12 14:48:10 MSK) автор топика

Ссылка

Ответ на: комментарий от Eddy_Em 10.07.12 14:47:43 MSK

Давайте убьем в зародыше этого 1с-велосипедостроителя.

cdshines ★★★★★
(10.07.12 14:50:41 MSK)

Ответ на: комментарий от shty 10.07.12 14:41:53 MSK

Да. wchar_t фиксированной ширины (32 вроде как), а утф8 - переменной. Нужны специальные телодвижения для работы со строками.

svu ★★★★★
(10.07.12 14:52:13 MSK)

Ответ на: комментарий от Eddy_Em 10.07.12 14:42:28 MSK

Что такое «веселее», если нельзя запихать символ ЕВРО ?;)

svu ★★★★★
(10.07.12 14:52:41 MSK)

Ответ на: комментарий от svu 10.07.12 14:52:41 MSK

Зачем он нужен? У нас рубли!

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:54:50 MSK)

Ответ на: комментарий от Eddy_Em 10.07.12 14:54:50 MSK

У соседей-то евры! А Вы завтра в ВТО будете;)

svu ★★★★★
(10.07.12 14:55:29 MSK)

Ответ на: комментарий от cdshines 10.07.12 14:50:41 MSK

Как будто есть разница между

run_my_pretty_program --first-key=раз --second-key=два --ignore-others

и

запустить_мою_любимую_программку --первый-ключ=раз --второй-ключ=два --нафиг-остальное

второй даже симпатичней

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:56:56 MSK)

Ответ на: комментарий от svu 10.07.12 14:55:29 MSK

Да насрать мне на ВТО. И хватит уже напоминать, что Россия в СГ катится. Сами там же скоро будете!

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 14:57:26 MSK)

Ответ на: комментарий от Eddy_Em 10.07.12 14:56:56 MSK

Если ты не рассчитываешь, что ею будут пользоваться за пределами снг, то нет, конечно, никакой разницы. А то будет как здесь

cdshines ★★★★★
(10.07.12 15:03:10 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 10.07.12 14:57:26 MSK

Мы там давно уже. Вот все вас ждем :)

svu ★★★★★
(10.07.12 15:04:55 MSK)

Ссылка

Ответ на: комментарий от svu 10.07.12 14:52:13 MSK

wchar_t фиксированной ширины (32 вроде как), а утф8 - переменной. Нужны специальные телодвижения для работы со строками.

да, костыли (а всё проклятые хиппи виноваты), но не страшные, и для мелких задачек, на крайняк, и так сгодится

но если нужно что-то серьёзное со строками делать или просто долго, или переносимое, я взял бы ICU

shty ★★★★★
(10.07.12 15:36:27 MSK)

glib же.

pevzi ★★★★★
(10.07.12 18:04:46 MSK)

Ссылка

Ответ на: комментарий от svu 10.07.12 13:24:33 MSK

4. wchar_t не годится для UTF-8

А в каком стандарте описан этот тип? В винде он 2 чара, в линуксе 4. Под андроидом 1.
Этот тип в кроссплатформенном приложении вообще не стоит использовать.

andreyu ★★★★★
(10.07.12 18:12:11 MSK)

Ответ на: комментарий от svu 10.07.12 14:52:13 MSK

wchar_t фиксированной ширины (32 вроде как).

Компиляторо-платформо-зависимо. В стандарте не описано.

andreyu ★★★★★
(10.07.12 18:14:07 MSK)

Ответ на: комментарий от andreyu 10.07.12 18:14:07 MSK

в C99 вполне себе описан. Насколько я понимаю, этот тип нужен для внутреннего представления символов, реализация работы с ним может быть разной

Harald ★★★★★
(10.07.12 18:16:54 MSK)

Ответ на: комментарий от andreyu 10.07.12 18:14:07 MSK

Да, его размер не фиксирован.

svu ★★★★★
(10.07.12 18:17:38 MSK)

Ответ на: комментарий от Harald 10.07.12 18:16:54 MSK

в C99 вполне себе описан.

Покажите, как он там описан. А потом попробуйте портировать приложение на Android.

andreyu ★★★★★
(10.07.12 18:18:18 MSK)

Ответ на: комментарий от svu 10.07.12 18:17:38 MSK

Да, его размер не фиксирован.

Ну вот, в Linux со строкой проблем не будет, а Windows и Android будет жопа.

andreyu ★★★★★
(10.07.12 18:19:14 MSK)

Ответ на: комментарий от andreyu 10.07.12 18:19:14 MSK

вы его как-то неправильно используете :)

Harald ★★★★★
(10.07.12 18:22:06 MSK)

Ответ на: комментарий от svu 10.07.12 14:52:13 MSK

wchar_t фиксированной ширины (32 вроде как), а утф8 - переменной. Нужны специальные телодвижения для работы со строками.

Ты хочешь сказать, что wchar_t подходит только для UTF-32? Ведь UTF-16 тоже переменной длинны.

Кроме того телодвижений с wchar_t при использовании многобайтных кодировок всё таки меньше, чем с char.

kim-roader ★★
(10.07.12 18:41:25 MSK)

Ссылка

Ответ на: комментарий от andreyu 10.07.12 18:12:11 MSK

А в каком стандарте описан этот тип?

В C99 описан. И там сказано

3.7.3
wide character
bit representation that fits in an object of type wchar_t, capable of representing any character in the current locale

kim-roader ★★
(10.07.12 18:47:22 MSK)

Ответ на: комментарий от hizel 10.07.12 10:40:56 MSK

man utf-8

присоединяюсь, лучшая кирилица это коненчо UTF-8

I-Love-Microsoft ★★★★★
(10.07.12 23:23:32 MSK)

Ответ на: комментарий от I-Love-Microsoft 10.07.12 23:23:32 MSK

Ага, кириллица с умляутами и циркумфлексами!

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 23:30:49 MSK)

Ответ на: комментарий от Cancellor 10.07.12 11:41:26 MSK

4.2. У большинства UTF16LE и CP1251

vasily_pupkin ★★★★★
(10.07.12 23:42:59 MSK)

Ответ на: комментарий от shty 10.07.12 15:36:27 MSK

но не страшные, и для мелких задачек, на крайняк, и так сгодится

Да-да, сгодятся. А потом какой-нибудь тролль подаст на вход й, состоящий из 2-х кодпойнтов. Вот веселья-то будет.

Поэтому и приходится юзать ICU, хучь и тяжелое оно.

Macil ★★★★★
(10.07.12 23:43:14 MSK)

Ответ на: комментарий от vasily_pupkin 10.07.12 23:42:59 MSK

Промахнулся ёпт

vasily_pupkin ★★★★★
(10.07.12 23:43:25 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 10.07.12 23:30:49 MSK

эээ, не понял, чо? я может и не с Си имею дело, у меня Qt и там я применяю UTF-8 - ноль проблем с кириллицей

I-Love-Microsoft ★★★★★
(10.07.12 23:44:01 MSK)

Ответ на: комментарий от I-Love-Microsoft 10.07.12 23:44:01 MSK

не понял, чо?

Держать юникод только из-за символа «евро» — маразм!

~~Eddy_Em~~ ☆☆☆☆☆
(10.07.12 23:45:24 MSK)

Ответ на: комментарий от andreyu 10.07.12 18:12:11 MSK

Этот тип в кроссплатформенном приложении вообще не стоит использовать.

Неправильно говоришь. Внутрь этого типа своими грязными ручонками лазить не след в кроссплатформенных приложениях. А использовать его можно и нужно.

ЗЫ: Это вообще отличительная черта всех сишников: делать предположения, когда не твое собачье дело.

Macil ★★★★★
(10.07.12 23:49:22 MSK)

Ответ на: комментарий от Macil 10.07.12 23:43:14 MSK

А потом какой-нибудь тролль подаст на вход й, состоящий из 2-х кодпойнтов. Вот веселья-то будет.

«кикасс» успешно лечит троллей, инфа 100%

и если мне надо по быстрому чой-та там слепить, на демонстрацию proof of concept, я даже задумываться не буду

Поэтому и приходится юзать ICU, хучь и тяжелое оно.

да само ICU4C (например) не тяжёлое, там просто надо с API 1 раз поковыряться-разобраться в «евойной» логике и всё станет на свои места

shty ★★★★★
(10.07.12 23:51:13 MSK)

Ответ на: комментарий от Eddy_Em 10.07.12 23:45:24 MSK

Держать юникод только из-за символа «евро» — маразм!

и правильно, долой европу, к чертям собачьим... где тут мой пульт был

shty ★★★★★
(10.07.12 23:52:53 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 10.07.12 23:45:24 MSK

Держать юникод только из-за символа «евро» — маразм!

вот, именно поэтому и нужно применять как раз UTF-8

I-Love-Microsoft ★★★★★
(10.07.12 23:55:35 MSK)

Ответ на: комментарий от shty 10.07.12 23:51:13 MSK

да само ICU4C (например) не тяжёлое

Вообще-то libicudata/icudt занимает примерно 17 метров. Хотя, наверное если уметь его готовить...

Macil ★★★★★
(11.07.12 00:02:20 MSK)

Ответ на: комментарий от Eddy_Em 10.07.12 13:17:41 MSK

Вот кстати я тоже тут на днях пацанов убеждал что юникод и всякие мудрёные utf-8 - не нужны. Не верят и всё. Я говорил, нафига нам эти азиаты со своими иероглифами, нахрена нам всю эту эзотерику тащить. Но нет же, пусть будет, ибо свят юникод и всё такое.

Hertz ★★★★★
(11.07.12 00:05:36 MSK)

Ответ на: комментарий от Macil 11.07.12 00:02:20 MSK

Вообще-то libicudata/icudt занимает примерно 17 метров.

о да, в 1991 с винтом на 20 Мб это была большая проблема

shty ★★★★★
(11.07.12 00:08:48 MSK)

Ссылка

Ответ на: комментарий от Hertz 11.07.12 00:05:36 MSK

К счастью, наши так не думают ☺

И вообще, никому и в голову не придет переводить наши сервера на некошерную кодировку: это же придется все заново переписывать. А там такое, что черт ногу сломит. Я сегодня ковырялся в матобесе ПЗСки, решил добавить запись в шапку фитсов всяких разных полезных данных (по поводу этого я уже ругался): оказалось, что каким-то чудом (видимо, что-то где-то в инклюдах мешало) один и тот же заголовочный файл в простеньком демоне работает (и на тип uint ругани нет), а в «камерном» матобесе — фигвам. Пришлось строить бешеный быдлокод из #pragma GCC diagnostic ignored, чтобы матюгов не было.

~~Eddy_Em~~ ☆☆☆☆☆
(11.07.12 00:12:59 MSK)

Ссылка

Ответ на: комментарий от andreyu 10.07.12 18:14:07 MSK

Компиляторо-платформо-зависимо. В стандарте не описано.

С90?

dimon555 ★★★★★
(11.07.12 01:07:47 MSK)

Ссылка

Ответ на: комментарий от andreyu 10.07.12 18:18:18 MSK

Покажите, как он там описан. А потом попробуйте портировать приложение на Android.

это же зависит от того, кто тулчейн портировал на андроид, если там заявлена поддержка c99, то всё ок для кода, который придерживается c99 и posix.2001 по-моему.

конечно, если разрабатывать в стиле - я в вищуал студии(эклипсе) проект открыл, ф9 нажал, через дебаггер отладил, какие ещё линкер, отладочная печать, консоль и прочее устаревшее posix. то так ничего не получится

dimon555 ★★★★★
(11.07.12 01:18:23 MSK)

Либо выбрать язык, который знает что такое utf-8, либо научиться работать с юникодом в си.

Наверняка в треде (который я не читал дальше заголовка) выступает местный клоун в защиту убогой кои8, не слушай его, всячески игнорируй, а если не получается, то гноби его и унижай.

PolarFox ★★★★★
(11.07.12 01:23:06 MSK)

Ответ на: комментарий от PolarFox 11.07.12 01:23:06 MSK

package main

import "fmt"

func main() {
    строка := "В go нет проблем с юникодом"
    for _, אָס := range строка {
        fmt.Printf("%c_", אָס)
    }
    fmt.Print("\n")
}

Простите, не удержался.

PolarFox ★★★★★
(11.07.12 01:31:54 MSK)

Ссылка

Ответ на: комментарий от PolarFox 11.07.12 01:23:06 MSK

Наверняка в треде (который я не читал дальше заголовка) выступает местный клоун в защиту убогой кои8.

В точку же.

~~z00ke~~ ☆
(11.07.12 01:36:03 MSK)

Похожие темы