Кто как получает на C / C++ utf8 (utf16) string из пользовательских данных?

1

1

Убогость стандартных библиотек C & C++ поражает воображение. Как можно нормально сконвертировать что-то, что передаётся в программу извне, в utf формат. iconv не очень вдохновляет громозкостью кода и неспособностью работать с отдельными символами многобайтных кодировок.

Хочу один раз написать фукнцию (утилиту) для конвертации строк, чтобы решить хотя бы эту каждодневную задачу.

Ссылка

← требуется http почтовый клиент, аналог thunderbird

bash: while + if. прошу помочь разобраться →

← 1 2 3 →

Ответ на: комментарий от emulek 02.10.13 01:08:40 MSK

буду рад посмотреть на некостыльную:

std::u16string stringToUTF16LE(const char * const src, const char * const encoding);

~~dzidzitop~~ ★★
(02.10.13 01:12:44 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 01:00:46 MSK

Да что ты долбишь этим wchar? Тебе нужно получить UTF16LE из UTF8, в педивикии сказано, как это сделать.

~~Anon~~
(02.10.13 01:13:05 MSK)

Ответ на: комментарий от dzidzitop 02.10.13 01:00:46 MSK

какой? wchar_t -> utf8?

пойми: формат wchar_t не определён. Определено лишь то, что в него любой utf-8 символ помещается (в маздае своё видение слова «любой». Например «☣» это по маздайному «не любой»). А уж КАК оно туда влазит — хрен его знает. Ещё определено то, что ОДИН wchar_t == ОДИН символ. Т.е. длинна ☣ равна _одному_ wchar_t, зачем собственно эти wchar_t и нужны. Если это тебе не нужно, юзай utf-8, и не выноси мозг окружающим.

emulek ★
(02.10.13 01:13:40 MSK)

Ответ на: комментарий от dzidzitop 02.10.13 00:56:37 MSK

Я не понял: тебе нужно кроссплатформенное решение в аппаратном плане или кроссплатформенное в мастдаечном плане? Если второе, то винфак там →

~~Anon~~
(02.10.13 01:14:25 MSK)

Ссылка

Ответ на: комментарий от Anon 02.10.13 01:13:05 MSK

Тебе нужно получить UTF16LE из UTF8

мне нужно UTF16-LE из «some encoding» (CP1251, ISO-8859-1, ASCII, KOI8-R, etc).

~~dzidzitop~~ ★★
(02.10.13 01:15:22 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 01:12:44 MSK

буду рад посмотреть на некостыльную

ну дык в педовике написан алгоритм, что тебе в нём непонятно-то? При чём тут вообще wchar_t???

emulek ★
(02.10.13 01:16:08 MSK)

Ссылка

Ответ на: комментарий от dzidzitop 02.10.13 01:15:22 MSK

Япона мать! Тебе же в самом начале говорили: чтобы "some encoding" преобразовать в UTF8, пользуйся libenca. Дальше делай что угодно с этим юникодом, а уж сохранять — сохраняй, как вздумается. В общем, ты тут раздул хрен знает что!

~~Anon~~
(02.10.13 01:18:23 MSK)

Ссылка

Ответ на: комментарий от dzidzitop 02.10.13 01:15:22 MSK

мне нужно UTF16-LE из «some encoding» (CP1251, ISO-8859-1, ASCII, KOI8-R, etc).

сначала в UTF-8 iconv(3), потом уже в UTF16-LE(алгоритм в вике). Я бы так сделал.

А wchar_t он просто для другого нужен.

emulek ★
(02.10.13 01:18:43 MSK)

Ссылка

Ответ на: комментарий от emulek 02.10.13 01:13:40 MSK

Определено лишь то, что в него любой utf-8

The ISO/IEC 10646:2003 Unicode standard 4.0 says that:
«The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently, programs that need to be portable across any C or C++ compiler should not use wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined wide characters, which may be Unicode characters in some compilers.»

хз для чего он нужен.

~~dzidzitop~~ ★★
(02.10.13 01:26:32 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 01:26:32 MSK

The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently, programs that need to be portable across any C or C++ compiler should not use wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined wide characters, which may be Unicode characters in some compilers

тут говорится о том, что ЛЮБЫЕ компиляторы НЕ поддерживаются. Это не удивительно, ибо иные железяки в принципе не умеют юникод. Естественно там само понятие «юникод» лишено смысла, и wchar_t имеет ширину 8 бит.

А вот если данная железяка умеет юникод, то этот тип МОЖЕТ быть использован для хранения одного символа.

хз для чего он нужен.

объяснял же: для _посимвольной_ обработки. Ну типа «выделить первые 17 _символов_ из Over9000 строк». В utf-8 ты с этой задачей будешь долго колупаться, расковыривая каждую строку посимвольно. А вот в wchar_t это просто первые 17 элементов массива типа wchar_t.

Есть большой класс задач нечёткого поиска, в которых ты должен найти например максимально похожее к данному слово в каком-то большом тексте. Это достаточно дорого и так, а уж в utf-8 так вообще котастрофа. Wchar_t тут как нельзя кстати.

emulek ★
(02.10.13 01:55:27 MSK)

Ответ на: комментарий от emulek 02.10.13 01:55:27 MSK

UTF-32 для такого.

~~dzidzitop~~ ★★
(02.10.13 02:47:17 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 02:47:17 MSK

facepalm.xpm

On Unix systems, UTF-32 strings are sometimes used for storage, due to the type wchar_t being defined as 32-bits.

http://en.wikipedia.org/wiki/UTF-32

как можно быть таким упоротым?

emulek ★
(02.10.13 08:25:24 MSK)

Ответ на: комментарий от dzidzitop 02.10.13 02:47:17 MSK

Блин, какой же ты упор~~ный~~отый!

~~Anon~~
(02.10.13 08:50:24 MSK)

Ответ на: комментарий от dzidzitop 01.10.13 20:26:45 MSK

нет способа получения из wchar_t того же utf-8. Могучая libc такого не умеет.

Мны, ну, всегда есть wctomb. Могучая libc. Фряшный ман утверждает, что это вообще ISO/IEC 9899:1999 (ISO C99). На винде тоже есть

Ну, а если хочется самому всё делать, то по интернетам путешествует ConvertUTF.c

В общем, не вижу, в чём ужас. В нашем продукте compatibility layer накрывает *nix'ы (X11/SDL), Android, Bada, Blackberry, винды от CE до 8'ки и Айфон. И ничо, не бог весть какой толщины прокладка, по крайней мере, в этом месте.

AlexM ★★★★★
(02.10.13 13:29:47 MSK)

Ответ на: комментарий от emulek 02.10.13 08:25:24 MSK

мір не кончается на Unix

~~dzidzitop~~ ★★
(02.10.13 17:34:40 MSK) автор топика

Ссылка

Ответ на: комментарий от AlexM 02.10.13 13:29:47 MSK

Мны, ну, всегда есть wctomb. Могучая libc.

Код выше я давал. Могучая.

~~dzidzitop~~ ★★
(02.10.13 17:36:11 MSK) автор топика

Ссылка

Ответ на: комментарий от AlexM 02.10.13 13:29:47 MSK

Ну, а если хочется самому всё делать, то по интернетам путешествует ConvertUTF.c

как только выхожу на UTF то проблемы кончаются. Проблема как раз в том, как выйті на UTF. Решается. Мутно. Еслі данные брать с cin, то скорее всего кроссплатформенно только на #ifdef

~~dzidzitop~~ ★★
(02.10.13 17:38:26 MSK) автор топика

Ответ на: комментарий от Anon 02.10.13 08:50:24 MSK

Разницу между \u016d и \x016d понимаешь?

~~dzidzitop~~ ★★
(02.10.13 17:53:32 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 17:53:32 MSK

Мне пофиг. У меня КОИ8.

~~Anon~~
(02.10.13 17:59:04 MSK)

Ответ на: комментарий от Anon 02.10.13 17:59:04 MSK

ну вот рекомендую ознакоміться с матчастью.

~~dzidzitop~~ ★★
(02.10.13 18:15:25 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 18:15:25 MSK

понимаешь

ознакоміться

Я так понял, это — троллинг такой. Так? Давай-ка пиши по-человечески. Или вали на ЛОР.укр

~~Anon~~
(02.10.13 18:46:31 MSK)

Ответ на: комментарий от Anon 02.10.13 18:46:31 MSK

1) я не украінец

2) когда под боком (в буфере) есть «и» - тогда вставляю. Когда нету - значіт нету.

~~dzidzitop~~ ★★
(02.10.13 18:55:48 MSK) автор топика

Ответ на: комментарий от dzidzitop 02.10.13 18:55:48 MSK

Ну вот осиль сначала три раскладки на клавиатуре, а потом уже юникодом майся!

~~Anon~~
(02.10.13 19:42:55 MSK)

Ответ на: комментарий от Anon 02.10.13 19:42:55 MSK

Мне і так нормально. По теме есть что?

~~dzidzitop~~ ★★
(02.10.13 19:44:14 MSK) автор топика

Ссылка

Ответ на: комментарий от dzidzitop 02.10.13 17:38:26 MSK

Ну, повторюсь: на мой взгляд, там нет никаких сложностей, непереносимого кода в этом месте почти нет. собственно, имею перед глазами реализацию. Да, совет: отделите чтение/запись байтовых данных от собственно кодирования. Примером может быть java.io.*

AlexM ★★★★★
(03.10.13 06:31:14 MSK)

Ответ на: комментарий от AlexM 03.10.13 06:31:14 MSK

аналог InputStreamReader/OutputStreamWriter как раз и хочется получить :)

~~dzidzitop~~ ★★
(03.10.13 18:18:38 MSK) автор топика

Ссылка

В C++11 есть изкаробочная поддержка преобразования в/из UTF-8, правда в libstdc++ от gcc ее пока никак не запилят. Для преобразования UTF-8 -> UTF-16 и обратно использую свой велик, на половину основаный на чужом коде, а для работы с другими кодировками без сторонних библиотек обойтись уже будет сложно.

m0rph ★★★★★
(03.10.13 18:36:54 MSK)
Последнее исправление: m0rph 03.10.13 18:37:22 MSK (всего исправлений: 1)

Ответ на: комментарий от m0rph 03.10.13 18:36:54 MSK

Насколько я понимаю, это работает только для перекодирований UTF->UTF & char * -> wchar_t *, а сделать char * -> UTF8 напрямую нельзя.

~~dzidzitop~~ ★★
(03.10.13 18:55:29 MSK) автор топика

Ссылка

Ответ на: комментарий от waker 01.10.13 00:10:35 MSK

вот этот код в DeaDBeeF кстаті не thread-safe:

static int
curl_req_send (const char *req, const char *post) {
    trace ("sending request: %s\n", req);
    CURL *curl;
    curl = curl_easy_init ();

(deadbeef-0.5.6/plugins/lastfm/lastfm.c)

http://curl.haxx.se/libcurl/c/curl_easy_init.html

~~dzidzitop~~ ★★
(03.10.13 21:09:03 MSK) автор топика

Ответ на: комментарий от dzidzitop 03.10.13 21:09:03 MSK

спасибо за инфу. пропустил этот момент.

waker ★★★★★
(03.10.13 21:16:07 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← требуется http почтовый клиент, аналог thunderbird

Development

bash: while + if. прошу помочь разобраться →

Похожие темы