Нужна помощь в вводе юникодной строки в программу C

0

1

Гуглил, нашел только вывод юникодной строки. Вывод (printf, puts) работает, ввод латиницы (gets, fgets, scanf, fgetws) тоже.

Компилятор GCC, стандарт c17.

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <conio.h>

int main() {
    char name[256]; char agestr[3]; int age;
    printf("Привет, как вас зовут? ");
    fgetws(name, sizeof(name), stdin); // по идее fgetws должен уметь читать юникод
    printf("Очень приятно, %s, сколько вам лет? ", name); // если в name кириллица, то ничего не выводит вместо %s
    fgets(agestr, sizeof(agestr), stdin);
    age = atoi(agestr);
    if (age == 18)
        printf("Мне столько же! Просто прекрасно!");
    else
        printf("\nМне 18 лет. Я на %i лет/года %s вас!", abs(age-18), ((age>18)? "младше" : "старше"));
}

Ссылка

←	v4l2 прокси через ядро

RPM bash + file

→

← 1 2 →

Во-первых, в процессе должна быть установлена локаль:

#include <locale.h>

int
main(...
...
       setlocale(LC_ALL, ""); // or, at least, LC_CTYPE
...

Здесь подразумевается, что в системе (или для конкретного юзера) используется одна из UTF-8, проверить - locale.

Во-вторых, wc/ws (wide character/string) и mb/mbs (multibyte character/string) это разные вещи. Если читаешь ws, то и выводить нужно ws, %S или %ls, смотри в документации printf(3).

~~dsdqmhsx~~ ★
(23.01.23 12:32:32 MSK)

Ссылка

Что за conio.h не знаю, поэтому я его убрал. Так же заменил fgetws на fgets(). В линуксе с ru_RU.UTF-8 УМВР. Ну не считая того, что перевод строки из считанного текста надо убирать.

Ivan_qrt ★★★★★
(23.01.23 12:32:46 MSK)

Ответ на: комментарий от Ivan_qrt 23.01.23 12:32:46 MSK

Что за conio.h не знаю

https://ru.wikipedia.org/wiki/Conio.h

Сonio.h (от англ. console input-output — консольный ввод-вывод) — заголовочный файл, доступный в некоторых средах разработки для MS-DOS и Windows. Предназначен для организации текстового ввода-вывода в этих операционных системах. Conio.h не является частью языка программирования Си, стандартной библиотеки языка Си или ISO C, его наличия не требует стандарт POSIX.

fsb4000 ★★★★★
(23.01.23 12:36:09 MSK)

Ответ на: комментарий от fsb4000 23.01.23 12:36:09 MSK

Ну я так и понял, что это что-то виндовое, но спасибо за прояснение. Собственно удалить его самое верное решение.

Ivan_qrt ★★★★★
(23.01.23 12:37:43 MSK)

Ссылка

Для начала, нужно определиться про какой именно юникод идёт речь, про широкий или мультибайт например :)

faq2 ★
(23.01.23 12:42:48 MSK)

Думаю тебе удобнее будет почитать тут, судя по conio.h:

https://learn.microsoft.com/en-us/cpp/cpp/char-wchar-t-char16-t-char32-t?view=msvc-170

faq2 ★
(23.01.23 12:43:52 MSK)

Ответ на: комментарий от faq2 23.01.23 12:43:52 MSK

Это документация по c++

tongubin ★
(23.01.23 13:09:56 MSK) автор топика

Ссылка

Ответ на: комментарий от faq2 23.01.23 12:42:48 MSK

Я сам не знаю. Мне нужен ввод кириллицы, через что это можно сделать?

tongubin ★
(23.01.23 13:10:27 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 13:10:27 MSK

Это работает из коробки, если всё делать последовательно и не смешивать типы байт и строк.

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main() {
    char name[256]; char agestr[3]; int age;
    printf("Привет, как вас зовут? ");
    fgets(name, sizeof(name), stdin); // по идее fgetws должен уметь читать юникод
    printf("Очень приятно, %s, сколько вам лет? ", name); // если в name кириллица, то ничего не выводит вместо %s
    fgets(agestr, sizeof(agestr), stdin);
    age = atoi(agestr);
    if (age == 18)
        printf("Мне столько же! Просто прекрасно!");
    else
        printf("\nМне 18 лет. Я на %i лет/года %s вас!\n", abs(age-18), ((age>18)? "младше" : "старше"));
}

Ivan_qrt ★★★★★
(23.01.23 13:19:15 MSK)

Ответ на: комментарий от Ivan_qrt 23.01.23 13:19:15 MSK

Код, который дали вы, не работает. Вместо %s выводится пустота. Латиница работает, кириллица - нет

tongubin ★
(23.01.23 13:21:55 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 13:21:55 MSK

Запускается под виндой?

~~kvpfs~~ ★★
(23.01.23 13:23:16 MSK)

Ответ на: комментарий от kvpfs 23.01.23 13:23:16 MSK

Пробовал и под виндой, и под линуксом. Везде через gcc

tongubin ★
(23.01.23 13:23:55 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 13:23:55 MSK

Под линуксом что говорит echo $LANG в терминале, в котором запускается. Локаль в ОС какая другими словами.

Ivan_qrt ★★★★★
(23.01.23 13:26:57 MSK)

Ответ на: комментарий от Ivan_qrt 23.01.23 13:26:57 MSK

ru_RU.UTF-8 локаль ставил при установке

lev@tongubin-laptop:~$ echo $LANG                                                                                                            RU
lev@tongubin-laptop:~$

tongubin ★
(23.01.23 13:29:50 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 13:29:50 MSK

Сделай в терминале export LANG=ru_RU.UTF-8 и запусти из этого же терминала бинарь.

Ivan_qrt ★★★★★
(23.01.23 13:31:31 MSK)

Ответ на: комментарий от Ivan_qrt 23.01.23 13:31:31 MSK

Локаль хоть и выставлена не правильно, но вообще на данный код это никак не должно вообще влиять. Странно.

Ivan_qrt ★★★★★
(23.01.23 13:32:59 MSK)

Ссылка

Ответ на: комментарий от tongubin 23.01.23 13:29:50 MSK

И ещё вывод вот этого покажи, посмотрим, какие байтики считываются.

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdint.h>

int main() {
    char name[256]; char agestr[3]; int age;
        memset(name, 0, sizeof(name));
    printf("Привет, как вас зовут? ");
    fgets(name, sizeof(name), stdin); // по идее fgetws должен уметь читать юникод
        for (int i = 0; i < 20; ++i) {
                printf(":%02x", (uint8_t)name[i]);
        }
        printf("\n");
    printf("Очень приятно, %s, сколько вам лет? ", name); // если в name кириллица, то ничего не выводит вместо %s
    fgets(agestr, sizeof(agestr), stdin);
    age = atoi(agestr);
    if (age == 18)
        printf("Мне столько же! Просто прекрасно!");
    else
        printf("\nМне 18 лет. Я на %i лет/года %s вас!\n", abs(age-18), ((age>18)? "младше" : "старше"));
}

Ivan_qrt ★★★★★
(23.01.23 13:42:26 MSK)

Ссылка

Ответ на: комментарий от Ivan_qrt 23.01.23 13:31:31 MSK

выводит крокозябры.

вывод вашей программы:

Привет, как вас зовут? Лев
:00:00:00:0a:00:00:00:00:00:00:00:00:00:00:00:00:00:00:00:00
Очень приятно, , сколько вам лет? 18
Мне столько же! Просто прекрасно!

tongubin ★
(23.01.23 13:46:02 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 13:46:02 MSK

А что за линукс у тебя вообще? Какой дистрибутив и что менял в локалях, потому что локаль у тебя не utf-8, а какая-то другая, судя по-всему.

И ещё вывод последнего варианта с export LANG=ru_RU.UTF-8 покажи.

Ivan_qrt ★★★★★
(23.01.23 13:51:05 MSK)

Ответ на: комментарий от tongubin 23.01.23 13:46:02 MSK

И какая кодировка файла и команду сборки, которую запускаешь ещё скажи.

Ivan_qrt ★★★★★
(23.01.23 13:52:18 MSK)

Ссылка

Ответ на: комментарий от Ivan_qrt 23.01.23 13:51:05 MSK

Arch linux.

в locale.conf и locale.gen стоят ru_RU.UTF-8.

кодировка файла utf-8.

команда сборки gcc main.c -o cprogram, запускаю cprogram.

после export LANG=ru_RU.UTF-8:

lev@tongubin-laptop:cprogram$ ./cprogram
╨ƒ╤Ç╨╕╨▓╨╡╤é, ╨║╨░╨║ ╨▓╨░╤ü ╨╖╨╛╨▓╤â╤é? Лев                                                                             :3f:3f:3f:0a:00:00:00:00:00:00:00:00:00:00:00:00:00:00:00:00                                                            ╨₧╤ç╨╡╨╜╤î ╨┐╤Ç╨╕╤Å╤é╨╜╨╛, ???                                                                                          , ╤ü╨║╨╛╨╗╤î╨║╨╛ ╨▓╨░╨╝ ╨╗╨╡╤é? 18                                                                                      ╨£╨╜╨╡ ╤ü╤é╨╛╨╗╤î╨║╨╛ ╨╢╨╡! ╨ƒ╤Ç╨╛╤ü╤é╨╛ ╨┐╤Ç╨╡╨║╤Ç╨░╤ü╨╜╨╛!

tongubin ★
(23.01.23 14:05:46 MSK) автор топика
Последнее исправление: tongubin 23.01.23 14:06:39 MSK (всего исправлений: 1)

Ответ на: комментарий от tongubin 23.01.23 14:05:46 MSK

Так-то

╨ƒ╤Ç╨╕╨▓╨╡╤é, ╨║╨░╨║ ╨▓╨░╤ü ╨╖╨╛╨▓╤â╤é

это на Windows-1251 написано

а в cat /etc/vconsole.conf что у вас?

Toxo2 ★★★★★
(23.01.23 14:21:09 MSK)

Ответ на: комментарий от Toxo2 23.01.23 14:21:09 MSK

lev@tongubin-laptop:cprogram$ cat /etc/vconsole.conf
cat: /etc/vconsole.conf: No such file or directory
lev@tongubin-laptop:cprogram$

tongubin ★
(23.01.23 14:23:59 MSK) автор топика
Последнее исправление: tongubin 23.01.23 14:24:21 MSK (всего исправлений: 1)

Ответ на: комментарий от tongubin 23.01.23 14:23:59 MSK

Тогда сдаюсь. Какой-то очень странный ArchLinux у вас )

У меня такое:

$ cat /etc/vconsole.conf
KEYMAP=ru
FONT=cyr-sun16

Toxo2 ★★★★★
(23.01.23 14:25:16 MSK)

Ответ на: комментарий от Toxo2 23.01.23 14:25:16 MSK

Ставил через стандартный установщик, а не через консоль, может быть в этом проблема

tongubin ★
(23.01.23 14:26:45 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 13:10:27 MSK

Кирилица != unicode

В простейшем случае, как выше написали, ничего дополнительно для этого делать не нужно. Учитывая, что пример у тебя учебный, скорее всего глубже тебе сюда погружаться и не нужно.

Если интересно погрузиться глубже, ключевые слова и типы данных я тебе выше уже закинул.

faq2 ★
(23.01.23 14:32:39 MSK)

Ссылка

Ответ на: комментарий от tongubin 23.01.23 14:05:46 MSK

Вообще нихрена не понятно. С локалями точно что-то не так. Я бы попробовал в виртуалке или ещё где запустить лайв федоры/убунты и запустить бинарь в нём. Так по-крайней мере понятно станет.

Ну или вообще в виртуалку федору/убунту поставить с компилятором и попробовать собрать/запустить там.

В моих экспериментах выставляемая локаль на кодировку строк вообще не влияет. Ни в исходниках, ни в переменных среды. А вот кодировка файла, понятное дело влияет. У тебя оно работает как-то по-другому, а как именно для меня загадка.

Ivan_qrt ★★★★★
(23.01.23 14:38:07 MSK)

Ссылка

Ответ на: комментарий от tongubin 23.01.23 14:26:45 MSK

А locale и locale -a | grep -i ru у тебя что говорит?

Ivan_qrt ★★★★★
(23.01.23 14:43:20 MSK)

Ответ на: комментарий от tongubin 23.01.23 14:05:46 MSK

кодировка файла utf-8.

Ну-ка, выложи его куда-нибудь.

utf8nowhere ★★★★
(23.01.23 14:45:32 MSK)

Ссылка

Ответ на: комментарий от Ivan_qrt 23.01.23 14:43:20 MSK

говорит что команда не найдена

обновлюсь скажу

utf8nowhere ссылка с кнопкой скачать директлинк

tongubin ★
(23.01.23 14:49:34 MSK) автор топика

Ссылка

fgetws(name, sizeof(name), stdin);
fgets(agestr, sizeof(agestr), stdin);

4 Each stream has an orientation. After a stream is associated with an external file, but before any operations are performed on it, the stream is without orientation. Once a wide character input/output function has been applied to a stream without orientation, the stream becomes a wide-oriented stream…

5 Byte input/output functions shall not be applied to a wide-oriented stream…

utf8nowhere ★★★★
(23.01.23 14:51:06 MSK)

Ответ на: комментарий от utf8nowhere 23.01.23 14:51:06 MSK

И какие же есть не байтовые функции i/o? Нам на уроке давали только эти и мы делали задания с латиницей, а на дом задали кириллицу и не сказали, чем можно заменить. Преподаватель сам не знает

tongubin ★
(23.01.23 14:52:45 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 14:52:45 MSK

И какие же есть не байтовые функции i/o?

http://port70.net/~nsz/c/c11/n1570.html#7.21.1p5

utf8nowhere ★★★★
(23.01.23 15:01:03 MSK)

Ответ на: комментарий от utf8nowhere 23.01.23 15:01:03 MSK

А fgetwc, описанный по ссылке, у меня в коде есть и не работает.

tongubin ★
(23.01.23 15:02:05 MSK) автор топика

Ответ на: комментарий от tongubin 23.01.23 15:02:05 MSK

Ты вообще нихера не понял… Ну да ладно.

utf8nowhere ★★★★
(23.01.23 15:02:54 MSK)

Ссылка

НИКОГДА
НЕ
ИСПОЛЬЗУЙ
СИШНЫЕ
ЛОКАЛИ

mittorn ★★★★★
(23.01.23 15:31:09 MSK)

Ответ на: комментарий от mittorn 23.01.23 15:31:09 MSK

я их и не использовал

tongubin ★
(23.01.23 15:36:59 MSK) автор топика

Поскольку твой Linux скорее всего Windows судя по этому треду или ты wine-gcc собираешь, но тогда разницы не много с Windows, то попробуй так:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <locale.h>

int main() {
    setlocale(LC_ALL, ".866"); // or, at least, LC_CTYPE

    char name[256]; char agestr[3]; int age;
    printf("Привет, как вас зовут? ");
    fgets(name, sizeof(name), stdin); // по идее fgetws должен уметь читать юникод
    {
        const size_t ln = strlen(name);
        if (ln > 0 && name[ln-1] == '\n')
            name[ln-1] = '\0';
    }
    printf("Очень приятно, %s, сколько вам лет? ", name); // если в name кириллица, то ничего не выводит вместо %s
    fgets(agestr, sizeof(agestr), stdin);
    age = atoi(agestr);
    if (age == 18)
        printf("Мне столько же! Просто прекрасно!");
    else
        printf("Мне 18 лет. Я на %i лет/года %s вас!", abs(age-18), ((age>18)? "младше" : "старше"));
}

Файл сохраняй в кодировке CP866.

У меня работает: https://imgur.com/a/gkw2EyL

fsb4000 ★★★★★
(23.01.23 16:15:18 MSK)
Последнее исправление: fsb4000 23.01.23 16:17:20 MSK (всего исправлений: 1)

Ответ на: комментарий от fsb4000 23.01.23 16:15:18 MSK

Файл сохраняй в кодировке CP866.

в копилку вредных советов :-) зато у ТС должно сработать, у него очевидная проблема с кодировками, исходник vs windows консоль vs windows gui (у винды поболее двух кодировок сразу).

особенности отечественного IT образования - в преподаватели попали те кто не вписался в прочий процесс.

в топике факт - препод не смог объяснить как, где и зачем пишутся программы. Преподаёт сферичного коня

MKuznetsov ★★★★★
(23.01.23 16:58:39 MSK)

Ответ на: комментарий от tongubin 23.01.23 15:36:59 MSK

Вот и не надо. Никаких wide char'ов
Если нужен utf16 или utf32 - uint16_t и uint32_t
Для преобразования кодировки какой-нидбудь iconv или накопипсть конвертер откуда-нибудь между юникодами.
Для современнной винды тоже utf-8, она умеет. Для старой - конверти в utf-16 и используй unicode версии функций - так будешь уверен что оно не будет ломаться в зависимости от локали/версии (тут конечно wide char'ы, но в пределах платформы _WIN32 оно не должно посыпаться если она вообще юникод поддерживает)

mittorn ★★★★★
(23.01.23 17:16:27 MSK)
Последнее исправление: mittorn 23.01.23 17:17:23 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от fsb4000 23.01.23 16:15:18 MSK

866 была придумана для DOS, ей кодируются имена в файловой системе DOS. Остальные мультибайт текстЫ в Windows это CP-1251. И то и то по факту однобайтные кодировки. CP-1251 используется в консоли винды, 866 вроде бы никому уже не интересна.

При выводе под виндой в консоль текста в однобайтной кодировке, по дефолту будет системная (1251). Если нужна другая, то перед выводом нужен вызов SetThreadLocale, насколько помню. Если лупите в юникоде, то не ошибетесь, wprintf сделает как надо.

В основном, в винде сейчас Unicode в текстовых файлах, включая исходники проектов, 2(4) байта на символ. Хотите задать такую строку в сырце, пишите L"строка". Сохраняя в Visual Studio можно сделать SaveAs и задать кодировку файла.

UTF-8 родная для Linux. Латиница кодируется 1 байтом, остальное последовательностью до 4х что ли байт. Причем strlen выдаст длинну в байтах как есть, а не в символах. printf нормально выведет UTF-8 строку.

Сдается, что у Вас путаница с кодировкой исходника. Посмотрите в hex виде исходник. Редакторы оставляют и лояльно относятся когда это делают другие редакторы, т.наз BOM (Byte Order Mode) в начале файла. В юникоде найдется FE FF, в UTF-8 тож какая-то сигнатура на 3 байта. И gcc и VS компилеры тоже спокойно относятся к BOM.

Для конвертации файла целиком есть утиля iconv. Переводы строк в стиле Win/Lin конвертируются утилями dos2unix/unix2dos.

bugs-bunny ★
(23.01.23 17:24:01 MSK)

А ваще, взять в руки отладчик и посмотреть как представлены строки побайтно? Что в коде как строки забито, что дает fgets. С минимальными знаниями о кодировках можно понять что к чему.

bugs-bunny ★
(23.01.23 17:29:54 MSK)

Ссылка

Ответ на: комментарий от bugs-bunny 23.01.23 17:24:01 MSK

CP-1251 используется в консоли винды

Это с каких пор?

utf8nowhere ★★★★
(23.01.23 17:30:55 MSK)

Ответ на: комментарий от utf8nowhere 23.01.23 17:30:55 MSK

На printf(«Привет мир\r\n»); компилер сгенерит CP-1251 и выведет его благополучно. Или нет?

866 генерили какие-нить BorlandC или QuickC под DOS, 16-битные exe-шники. Так такие теперь даже не запустить после Vista и 7-ки. Разрабы ОС забыли про режим проца vm86 и DOS наследие.

bugs-bunny ★
(23.01.23 17:36:45 MSK)

Ответ на: комментарий от MKuznetsov 23.01.23 16:58:39 MSK

в копилку вредных советов :-)

Ok.

tongubin сохраняй файл как UTF-8, только компилируй ещё с двумя опциями:

gcc   test.c -finput-charset=UTF-8 -fexec-charset=cp866 -o test

У меня так тоже работает.

fsb4000 ★★★★★
(23.01.23 17:37:42 MSK)

Ответ на: комментарий от bugs-bunny 23.01.23 17:36:45 MSK

У меня консоль выдает

$ chcp
Текущая кодовая страница: 866

printf("Привет мир\r\n");

выдаёт

╧ЁштхЄ ьшЁ

fsb4000 ★★★★★
(23.01.23 17:39:54 MSK)

Ответ на: комментарий от fsb4000 23.01.23 17:39:54 MSK

Приглашение «$» ? Это часом не Wine? Кривой как турецкая сабля.

bugs-bunny ★
(23.01.23 17:42:04 MSK)

Ответ на: комментарий от bugs-bunny 23.01.23 17:42:04 MSK

В венде консоль считается для совместимости с DOS, так что там соответствующая кодировка.

Если что-то и поменялось по-дефолту, то максимум на UTF-8, а не на вендовую однобайтовую.

utf8nowhere ★★★★
(23.01.23 17:43:41 MSK)

Ответ на: комментарий от bugs-bunny 23.01.23 17:42:04 MSK

это я сам написал $, чтобы не копировать путь.

Вот только что запущенная консоль что выдаёт:

https://imgur.com/a/W1Cp5cu

fsb4000 ★★★★★
(23.01.23 17:43:50 MSK)

Ответ на: комментарий от fsb4000 23.01.23 17:37:42 MSK

У меня так тоже работает.

помниться что в винде для консоли стоит отказаться от printf и перелезть на wprintf, wXXX . Строковые константы предназначенные для вывода в консоль объявлять как wchat_t s=L"строчко" - это как раз инструкция компилятору что литерал строчко переделать в 16-бит wchar UTF16 (про BE/LE затруднюсь сказать);

во Gtk & Qt сие делается под капотом из utf-8 потому незаметно и переносимо.

MKuznetsov ★★★★★
(23.01.23 17:48:13 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	v4l2 прокси через ядро

Development

RPM bash + file

→

Похожие темы