C++ vs Unicode

0

0

Появилось желание переписать одну программу на грамотную работу с unicode.

В ней используется std::string, который меняется на std::wstring, но тогда начинается секс с тем, что stream не умеет wstring... да ничего там не умеет wstring.

Вот и интересуюсь, как на самом деле писать программы, использующее уникод? (простой пример: программа которая получает слово и выдает колличество символов, работать должно в utf-8 локали)

Ссылка

← Должно ли это работать?

struct group_info →

возьми glib(если хочется то и glibmm) и не мучайся

fghj ★★★★★
(12.11.05 23:36:34 MSK)

Ответ на: комментарий от fghj 12.11.05 23:36:34 MSK

нужна переносимость в вин, и это комерческий проект...

catap ★★★★★
(12.11.05 23:39:18 MSK) автор топика

Ответ на: комментарий от catap 12.11.05 23:39:18 MSK

т.е. решение которое будет тут, потенциально будет использоваться в комерческом проекте.

catap ★★★★★
(12.11.05 23:40:03 MSK) автор топика

Ссылка

Ответ на: комментарий от catap 12.11.05 23:39:18 MSK

ну так и быть объясняю для ленивых,
1)glib это не glibc
2)glib имеет lgpl лицензию(т.е. полностью подходит для комерчиских проектов)
3)среди многих ОС на которые она пересена есть и windows

fghj ★★★★★
(12.11.05 23:43:33 MSK)

Ответ на: комментарий от fghj 12.11.05 23:43:33 MSK

спасибо.

А средствами стандарта я понял что не сделать... Эх...

catap ★★★★★
(12.11.05 23:45:13 MSK) автор топика

Ответ на: комментарий от fghj 12.11.05 23:43:33 MSK

пардон, спутал, все, понял, еще раз извеняюсь.

но надежда на решение силами плюсов все еще интересует ;)

catap ★★★★★
(12.11.05 23:46:02 MSK) автор топика

Ссылка

(Очень тихо, чтобы не затоптали) Возьми Qt, там есть QString -- гениальная весчь.

Shmuma ★
(12.11.05 23:51:10 MSK)

Ответ на: комментарий от catap 12.11.05 23:45:13 MSK

ну, наверное можно, только геморно,
есть такие функции как mbrtowc и mbsrtowcs (ANSI C)
mbr это несколько символьное представление симовола,
в том числе и utf-8,
но эта функция зависит от локали,
т.е. чтобы заработала правильно в начале надо сказать setlocale
по-моему в windows есть только "C" локаль так что,

fghj ★★★★★
(12.11.05 23:52:11 MSK)

Ответ на: комментарий от fghj 12.11.05 23:52:11 MSK

в виндовс есть такие же локали как и тут.

Просто их настройки немного удобнее.

catap ★★★★★
(12.11.05 23:55:29 MSK) автор топика

Ответ на: комментарий от fghj 12.11.05 23:52:11 MSK

Спасибо за вариант. Чувтсвую буду очередным велосипидистом. Блин.

catap ★★★★★
(12.11.05 23:56:20 MSK) автор топика

Ссылка

Ответ на: комментарий от Shmuma 12.11.05 23:51:10 MSK

Утилита это cgi'шка (почему имено плюсы не спрашивайте), предлагаешь делать зависимость cgi'шки от QT?..

catap ★★★★★
(12.11.05 23:59:31 MSK) автор топика

Ответ на: комментарий от catap 12.11.05 23:55:29 MSK

ну все зависит от библиотеки С, я пользовался борладовской
она поддерживала только "С", хотя приложения написанные
с использованием gettext прекрасно работают.

fghj ★★★★★
(13.11.05 00:01:43 MSK)

Ссылка

Ответ на: комментарий от catap 12.11.05 23:55:29 MSK

да и главный недостаток я забыл упомянуть,
ведь локаль глобальна и если например установлена в ru_RU.UTF-8,
то utf-8 содержащий французкий может и не понять,

так что я бы остановился на glib и его обвязке для С++ glibmm

fghj ★★★★★
(13.11.05 00:05:37 MSK)

Ссылка

Ответ на: комментарий от catap 12.11.05 23:59:31 MSK

Ответ сильно зависит от того что тебе еще нужно помимо Unicode. Если, предположим, regexp'ы, сеть, XML, к БД цепляться и т.д, то почему бы и нет? Qt неплохо спроектирована и отлично переносится под оффтоп. К тому же в Qt4 можно выкинуть нафиг GUI, оставив только core-классы.

Shmuma ★
(13.11.05 00:10:41 MSK)

Ответ на: комментарий от Shmuma 13.11.05 00:10:41 MSK

Просто вопрос в том, что это две разные cgi'шки которые я разрабатываю.

Одна на работе, комерческая, там скорее всего с qt пошлют (цена).... Хотя вообще вкусная штука, верю...

catap ★★★★★
(13.11.05 00:24:04 MSK) автор топика

Ссылка

> В ней используется std::string, который меняется на std::wstring, но
> тогда начинается секс с тем, что stream не умеет wstring... да ничего
> там не умеет wstring.

Все оно умеет. Wide-потоки надо использовать просто - wistream/wostream
и wcin/wcout, соответственно.

> Вот и интересуюсь, как на самом деле писать программы, использующее
> уникод? (простой пример: программа которая получает слово и выдает
> колличество символов, работать должно в utf-8 локали)

А вот тут - затык-с. Дело в том, что нигде в стандарте плюсов не
оговорено, что wstring - это уникод. Это wide char, который
гарантированно будет не короче short, но какая там кодировка, строго
говоря, неизвестно. Все зависит от конкретной реализации libc++.
Соответственно, преобразование в системную локаль (что требуется при
вводе/выводе) тоже в общем случае не определено. Например, в g++ при
выводе через wide-потоки все не-ASCII символы просто отсекаются. Есть
подозрение, что там только одна плюсовая локаль - которая
locale::classic(), она же "C".

В-общем, если нужен именно уникод, смотри в сторону gtkmm. Там есть
класс ustring для работы с UTF-строками, с интерфейсом std::string
(http://www.gtkmm.org/docs/glibmm-2.4/docs/reference/html/classGlib_1_1ustring...)

int19h ★★★★
(13.11.05 01:45:31 MSK)

Ответ на: комментарий от int19h 13.11.05 01:45:31 MSK

Да, кроме gtkmm еще можно попробовать ICU:
http://www-306.ibm.com/software/globalization/icu/index.jsp

Хотя это тот еще монстр.

int19h ★★★★
(13.11.05 02:30:41 MSK)

Ответ на: комментарий от int19h 13.11.05 01:45:31 MSK

Спасибо. Почитал.

gtkmm, да, похоже это единсвенное что есть.

Что касается wstring, почитал, буду думать, но чувствую что не то.

Что касается ibm -- монстр, что с него взять... Верю что это очень вкусная штука, но сил разбераться пока нету.

catap ★★★★★
(13.11.05 03:02:30 MSK) автор топика

Ответ на: комментарий от int19h 13.11.05 02:30:41 MSK

> Да, кроме gtkmm еще можно попробовать ICU:
> Хотя это тот еще монстр.
>

Вроде не монстр.
Мои коллеги пользуются и довольны.
Документации полно на http://icu.sourceforge.net/

Onanim ★
(13.11.05 03:15:41 MSK)

Ссылка

Ответ на: комментарий от catap 13.11.05 03:02:30 MSK

> gtkmm, да, похоже это единсвенное что есть.
>
> Что касается wstring, почитал, буду думать, но чувствую что не то.

Я тут тоже несколько поковырялся из интереса, нашел кое-что интересное.

http://gcc.gnu.org/onlinedocs/libstdc++/22_locale/codecvt.html

http://www.boost.org/libs/serialization/doc/codecvt.html

Последнее вроде кроссплатформенное.

int19h ★★★★
(13.11.05 05:04:45 MSK)

Ответ на: комментарий от int19h 13.11.05 05:04:45 MSK

Последнее именно то. что надо. Спасибо.

catap ★★★★★
(13.11.05 12:59:37 MSK) автор топика

Ссылка

Ответ на: комментарий от int19h 13.11.05 01:45:31 MSK

В догонку...

После ряда экспериментов с glibc и плюсовыми локалями было установлено,
что оно таки работает. wchar_t там в любой локали уникодный, так что
если локаль UTF-8 (а ее такую никто не мешает выставить для отдельно
взятого потока), то codecvt будет работать корректно, и,
соответственно, fstream будет перекодировать строки при чтении/записи.
Единственная бяка - wcin/wcout не будут перекодировать автоматом, даже
если для них явно сделать imbue().

int19h ★★★★
(13.11.05 13:46:11 MSK)

Ссылка

"Уж сколько раз твердили Сене" (c) "Грамотно" - это с использованием gettext.

anonymous
(13.11.05 17:33:11 MSK)

Ответ на: комментарий от anonymous 13.11.05 17:33:11 MSK

А по подробней можно, как gettex влияет на внутреннее предствевление информации в в программе?

catap ★★★★★
(14.11.05 02:54:54 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Должно ли это работать?

Development

struct group_info →

Похожие темы