Неправильная длина строки std::string в C++

3

1

#include <iostream>
#include <string>

using namespace std;

string getStringInEnglish()
{
	return "Masha was walking on the highway.";
}

string getStringInRussian()
{
	return "Шла Маша по шоссе.";
}

int main()
{
	//В строке всего 18 символов, а показывет 32
	cout << getStringInRussian().length() << endl;

	//Показывает правильно
	cout << getStringInEnglish().length() << endl;
	
	return 0;
}

Ссылка

← Скопировать и переименовать ресурс

Как лучше сделать sso для набора приложений? →

← 1 2 →

UTF-8, multibyte character set. Сейчас вбежит ~~Eddy_Em~~ и объяснит почему это плохо.

Deleted
(21.12.14 11:47:49 MSK)

Ответ на: комментарий от Deleted 21.12.14 11:47:49 MSK

Ждем-с.

Razip ★★
(21.12.14 11:49:51 MSK) автор топика

Ссылка

wstring getStringInRussian()
{
  return L"Шла Маша по шоссе.";
}

Deleted
(21.12.14 11:52:57 MSK)

string хранит строки в точности так, как они были введены; как массив ненулевых байт. При этом std::string::length() возвращает длину в байтах. Следовательно, результат работы твоей программы зависит от того, в какой кодировке её исходник.

intelfx ★★★★★
(21.12.14 11:54:17 MSK)

Ответ на: комментарий от Deleted 21.12.14 11:52:57 MSK

Как это работает?

Razip ★★
(21.12.14 11:54:50 MSK) автор топика

Ответ на: комментарий от Razip 21.12.14 11:54:50 MSK

Строка конвертируется компилятором из твоей кодировки в wchar_t и хранится в памяти уже как массив wchar_t, где каждый элемент — строго один символ. Тогда std::wstring::length() отрабатывает корректно.

intelfx ★★★★★
(21.12.14 11:57:11 MSK)

Ответ на: комментарий от intelfx 21.12.14 11:54:17 MSK

string хранит строки в точности так, как они были введены; как массив ненулевых байт.

std::string хранит любые байты.

~~mashina~~ ★★★★★
(21.12.14 11:58:09 MSK)

Ответ на: комментарий от Razip 21.12.14 11:54:50 MSK

http://stackoverflow.com/questions/402283/stdwstring-vs-stdstring

Deleted
(21.12.14 11:58:20 MSK)

Ссылка

Ответ на: комментарий от intelfx 21.12.14 11:57:11 MSK

Спасибо, понятно.

Razip ★★
(21.12.14 11:58:59 MSK) автор топика

Ссылка

length показывает не количество символов в строке, а размер в байтах, которые эта строка отжирает.

peregrine ★★★★★
(21.12.14 11:59:09 MSK)

Ссылка

Ответ на: комментарий от mashina 21.12.14 11:58:09 MSK

Т. е. строка не обязана быть zero-terminated? Ок, спасибо, учту.

intelfx ★★★★★
(21.12.14 12:01:40 MSK)

Еще один вопрос: как можно вывести такую строку в терминал? cout рыгает ошибками при компиляции.

Razip ★★
(21.12.14 12:12:01 MSK) автор топика

Ответ на: комментарий от Razip 21.12.14 12:12:01 MSK

Я про wstring.

Razip ★★
(21.12.14 12:12:17 MSK) автор топика

Ответ на: комментарий от Deleted 21.12.14 11:47:49 MSK

Думаю, ТС и сам поймет, что хрюникод в таких случаях — зло.

Если хрюникод и впердоливать в свои приложения, то только в gettext. Но лучше КОИ8 и в gettext'е вбухивать. Все равно потом в нужную локаль перекодирует.

~~Eddy_Em~~ ☆☆☆☆☆
(21.12.14 12:14:33 MSK)

Ответ на: комментарий от intelfx 21.12.14 11:57:11 MSK

Нет, не правильно. wchar_t не даёт таких гарантий, что каждый элемент строго один символ. Точнее даёт, но только под Linux-ом, где его размер 32 бита, а на той же винде - 16 бит. Вообще он не предназначен для строк в юникоде, т.к. может быть вплоть до 8 бит. Потому более корректно, для работы с юникодом использовать что-то более подходящее, например, Glib::ustring для GTK или QString для Qt.

peregrine ★★★★★
(21.12.14 12:15:12 MSK)

Ответ на: комментарий от peregrine 21.12.14 12:15:12 MSK

Точнее даёт, но только под Linux-ом, где его размер 32 бита, а на той же винде - 16 бит.

Нигде не даёт, некоторые печатные символы всегда могут быть разбиты на несколько code point'ов.

~~mashina~~ ★★★★★
(21.12.14 12:37:39 MSK)

Ответ на: комментарий от peregrine 21.12.14 12:15:12 MSK

Внезапно. Т. е. std::wstring::length() тоже может отличаться от количества символов?..

intelfx ★★★★★
(21.12.14 13:13:20 MSK)

Ответ на: комментарий от intelfx 21.12.14 13:13:20 MSK

Для кодирования символов кириллицы в utf-8 используется два байта. std::wstring::length() возвращает количество wchar_t в строке, что при удачном стечении обстоятельств может равняться количеству символов. Если уж использовать стандартные строки для посимвольной работы с юникодом, то лучше std::u16string (C++11).
QString внутри хранит все в utf-16, но для представления некоторых символов все равно используются два элемента (т.н. суррогатные пары), что аналогично std::u16string.

m0rph ★★★★★
(21.12.14 14:54:38 MSK)

Ссылка

Ответ на: комментарий от Razip 21.12.14 12:12:17 MSK

std::wcout

NikolaSh
(21.12.14 15:02:29 MSK)

Ответ на: комментарий от NikolaSh 21.12.14 15:02:29 MSK

Выводится «?????».

Razip ★★
(21.12.14 17:28:35 MSK) автор топика

Ссылка

Ответ на: комментарий от intelfx 21.12.14 13:13:20 MSK

Да. Количество байтов памяти, количество code units, количество code points, количество видимых человеку глифов — все эти числа могут быть различными.

ilammy ★★★
(21.12.14 17:50:14 MSK)

Ответ на: комментарий от ilammy 21.12.14 17:50:14 MSK

Т. е. в случае труъ-интернационализации понятие «длины строки» не определено (ну разве что в сантиметрах)?.. Я догадывался, но шаблон таки треснул.

intelfx ★★★★★
(21.12.14 17:55:39 MSK)

Ответ на: комментарий от Eddy_Em 21.12.14 12:14:33 MSK

Ряд протоколов и форматов использует юникод как стандарт, так что всё нельзя ограничить только gettext.

http://www.unicode.org/consortium/memblogo.html

Chaser_Andrey ★★★★★
(21.12.14 18:02:04 MSK)

Ответ на: комментарий от intelfx 21.12.14 17:55:39 MSK

Ага. И выводятся они ещё иногда справа налево, а не как у людей.

По сути, есть только две универсальные длины строки: в байтах (для хранения и передачи в неизменном виде) и в пикселях/сантиметрах (для вывода конкретным шрифтом). Для точного определения остальных длин нужно знать ещё кодировку и язык.

ilammy ★★★
(21.12.14 18:02:07 MSK)

Ответ на: комментарий от Chaser_Andrey 21.12.14 18:02:04 MSK

Ряд протоколов и форматов использует юникод как стандарт

Вывод: не использовать эти ущербные протоколы и стандарты.

~~Eddy_Em~~ ☆☆☆☆☆
(21.12.14 18:05:26 MSK)

Ответ на: комментарий от ilammy 21.12.14 18:02:07 MSK

А как же нормализация?

Deleted
(21.12.14 18:13:34 MSK)

Ответ на: комментарий от Eddy_Em 21.12.14 18:05:26 MSK

HTML5 и WebSockets? XML?

Chaser_Andrey ★★★★★
(21.12.14 18:21:40 MSK)

Ответ на: комментарий от intelfx 21.12.14 17:55:39 MSK

Добавил комментарий, хоть ничего нового и не увидел. И эти люди участвуют в разработке системного ПО. ^_^"

Это была одна из первых вещей, которые я узнал, ибо кодировки нужно было различать как-то.

Вообще, комментарий про \0. D:

wakuwaku ★★★★
(21.12.14 18:33:11 MSK)
Последнее исправление: wakuwaku 21.12.14 18:37:55 MSK (всего исправлений: 2)

Ответ на: комментарий от wakuwaku 21.12.14 18:33:11 MSK

Добавил комментарий, хоть ничего нового и не увидел.

Wut?

И эти люди участвуют в разработке системного ПО.

Кхм, да, я с i18n/l10n дела доселе не имел. Это не мешает мне разбираться в том, в чём разбираюсь.

Вообще, комментарий про \0.

Wut?

intelfx ★★★★★
(21.12.14 18:42:09 MSK)

Ответ на: комментарий от intelfx 21.12.14 18:42:09 MSK

про то что std::string это совсем не asciiz

wakuwaku ★★★★
(21.12.14 18:45:00 MSK)

Ссылка

Ответ на: комментарий от Deleted 21.12.14 18:13:34 MSK

При чём она тут?

ilammy ★★★
(21.12.14 19:23:53 MSK)

Ответ на: комментарий от ilammy 21.12.14 19:23:53 MSK

При каноничной длине строки в code points?

Deleted
(21.12.14 19:25:32 MSK)

Ответ на: комментарий от Deleted 21.12.14 19:25:32 MSK

Которая очень важна для строки не в Юникоде. Ну, конечно, как абстрактная длина в попугаях сойдёт, да. (Если закрыть глаза на кодировки, чьё множество представимых символов не является подмножеством Юникода.)

ilammy ★★★
(21.12.14 19:31:40 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 21.12.14 12:14:33 MSK

Думаю, ТС и сам поймет, что хрюникод в таких случаях — зло.

не вижу никакого «зла». Length показывает размер в байтах, не вижу проблемы.

обдумай на досуге, ЗАЧЕМ тебе размер строки? ИМХО первое: выделить под неё память. Но ведь память тоже в байтах, а не в буквах!

ЗЫЖ если хочешь что-то типа «с третий по 17й символ», regex(7) тебе в помощь. Оно это умеет. Причём достаточно быстро. Регулярку написать, или сам?

emulek ★
(21.12.14 19:46:21 MSK)

Ответ на: комментарий от intelfx 21.12.14 17:55:39 MSK

Т. е. в случае труъ-интернационализации понятие «длины строки» не определено

определено. Это размер занимаемой В ПАМЯТИ. А на принтере/мониторе — нет конечно. При чём тут юникод? Понятие «символ» тоже в общем случае не определено, есть умляуты и ударения. Как их считать? Есть также невидимые символы(\0 к примеру), есть табуляции, есть перевод строки наконец. Всё это имеет одну и ту же «длину» только в твоём локалхосте, и в «твоём стандарте».

emulek ★
(21.12.14 19:51:41 MSK)

Ответ на: комментарий от emulek 21.12.14 19:51:41 MSK

и да, что-бы не рвать шаблон, задайте себе вопрос: ЗАЧЕМ МНЕ ЭТО? Ну зачем вам длинна строки В СИМВОЛАХ? Ежу очевидно, что по-русски она будет другой, по-китайски третей, а по-арабски вообще справа-налево. Т.е. по любому оно будет не представимо в индексе тривиального массива.

emulek ★
(21.12.14 19:57:24 MSK)

Ссылка

если тебе именно в символах, наверное лучше будет libicu воспользоваться

Harald ★★★★★
(21.12.14 20:04:34 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 21.12.14 12:14:33 MSK

Солнышко, вот представь: наступило светлое ~~будущее~~прошлое. Никто не юзает юникод, все юзают кодировки. Я запускаю мою любимый словарь-переводчик с беларусского на иврит и оуеваю...

Pavval ★★★★★
(21.12.14 20:07:15 MSK)

Ссылка

Всё просто: С++ к 2015 году из коробки так и не умеет в юникод (с полноценной поддержкой в STL).

mix_mix ★★★★★
(21.12.14 20:22:53 MSK)
Последнее исправление: mix_mix 21.12.14 20:25:09 MSK (всего исправлений: 1)

Ответ на: комментарий от intelfx 21.12.14 13:13:20 MSK

Да.

peregrine ★★★★★
(21.12.14 20:34:27 MSK)

Ссылка

Ответ на: комментарий от mix_mix 21.12.14 20:22:53 MSK

А зачем?

peregrine ★★★★★
(21.12.14 20:36:56 MSK)

Ссылка

Ответ на: комментарий от mashina 21.12.14 12:37:39 MSK

Символы шире 32 бит? Где ты их нашел? Или ты про то, что символы будут меньше и из-за этого будет сдвиг? Используй UTF32, вместо UTF8 в таком случае и будет тебе счастье, ибо там фиксированное число бит на символ.

peregrine ★★★★★
(21.12.14 20:42:42 MSK)

Ответ на: комментарий от peregrine 21.12.14 20:42:42 MSK

Символы шире 32 бит?

К битности это не имеет отношения. «Й», например, можно закодировать как U+0419 или { U+0418 U+0306}

~~mashina~~ ★★★★★
(21.12.14 20:54:05 MSK)

Ссылка

Ответ на: комментарий от emulek 21.12.14 19:46:21 MSK

ЗАЧЕМ тебе размер строки?

а) чтобы выделить память
б) чтобы узнать количество символов.

~~Eddy_Em~~ ☆☆☆☆☆
(21.12.14 20:59:44 MSK)

Ответ на: комментарий от Chaser_Andrey 21.12.14 18:21:40 MSK

И где там хрюникод? Ты врешь!

~~Eddy_Em~~ ☆☆☆☆☆
(21.12.14 21:02:13 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 21.12.14 20:59:44 MSK

а) чтобы выделить память

дык для этого надо в байтах, проблемы?

б) чтобы узнать количество символов.

зачем?

emulek ★
(21.12.14 21:19:38 MSK)

Ссылка

Ответ на: комментарий от emulek 21.12.14 19:46:21 MSK

Использовать регулярки для оперирования подстроками это мощно.
//по сабжу, воздержаться от кириллицы в исходниках вообще.

comp00 ★★★★
(21.12.14 21:36:36 MSK)

Ответ на: комментарий от intelfx 21.12.14 12:01:40 MSK

string хранит всё что угодно, в том числе и нули в середине, но всегда оканчивается нулем. Есть куча кода в котором string используется вместо vector<char>.

Reset ★★★★★
(21.12.14 23:34:12 MSK)