Как много стрингов имеется в C++

0

3

Вольный перевод https://blogs.msmvps.com/gdicanio/2018/05/28/how-many-strings-does-c-have/ не претендующий на литературную точность.

(... OK, языковый адвокат придрался бы, посоветовав: «Как много строковых типов...», но я хотел более хитростный заголовок)

Если вы программируете на Python и видите нечто, заключённое в одинарные или двойные кавычки, у вас имеется стринг:
s = 'Connie'
Нечто похожее происходит в Java, со стринговыми литералами вроде «Connie», реализованными как экземпляры класса java.lang.String:
String s = "Connie";
Хорошо.

Теперь давайте (барабанная дробь) войдём в царство C++! И тут начинается веселье.

Итак, давайте рассмотрим эту простую строку кода на C++:
auto s1 = "Connie";
Каков тип s1?

std::string ? массив char[7] ? (эй, "Connie" - это шесть символов, плюс завершающий NULL)

... что-то другое?

Вы можете использовать свою любимую IDE и, наведя указатель мышки на имя переменной, получить выведенный тип. Visual Studio C++ IntelliSense намекает на то, что это const char*. Вау!

А что насчёт "Connie"s ?
auto s2 = "Connie"s;
Нет, это не множественное число от "Connie". И это не искаженный саксонский родительный падеж. Теперь s2 относится к типу std::string ! Спасибо тебе, operator""s включённый в C++14.

Мы уже закончили? Разумеется нет! Не забывайте - это C++!

Например у вас может иметься u8"Connie", который представляет юникодный UTF-8 литерал. И разумеется, нам необходимо обсуждение на StackOverflow для того, чтобы выяснить "Как u8-литералы должны работать".

А ещё не забудте о L"Connie", u"Connie" и U"Connie" которые представляют const wchar_t*, const char16_t* (закодировано в UTF-16) и const char32_t* (закодировано в UTF-32) соответственно.

Ну теперь мы закончили, правда? Ещё нет!

На самом деле вы можете сочетать приведённые выше префиксы со стандартным s-суффиксом, например: L"Connie"s - это std::wstring, а U"Connie"s - это std::u32string и так далее.

Закончили, правда? Ещё нет! На самом деле нам надо учесть ещё и сырые (raw) стринговые литералы. Например: R"(C:\Path\To\Connie)" который является const char* (константным символьным указателем) на “C:\Path\To\Connie” (что ж, это позволяет избавиться от кодирования '\' при помощи управляющей последовательности '\\').

Так же не забывайте о сочетании сырых стринговых литералов со всеми префиксами и s-суффиксом, разобранными выше. Например: LR"(C:\Path\To\Connie)", UR"(C:\Path\To\Connie)", LR"(C:\Path\To\Connie)"s, UR"(C:\Path\To\Connie)"s и так далее!

Ой и в добавок к стандартному классу std::string и прочим стандартным, основанным на std::basic_string, определениям строковых типов (таких как std::wstring, std::u16string, std::u32string и т.д.) имеются платформо/библиотечно зависимые классы, такие как CString, CStringA и CStringW в ATL/MFC, QString в Qt и wxString в wxWidgets.

Вау! Не удивлюсь, если я упустил какие-то другие вариации стрингов.

P.S. Со всем этим стринговым разнообразим (наверное слишком большим...), как насчёт добавления в стандартную библиотеку C++ некоторых удобных стринговых операций, как например обрезание пробелов или преобразование символов в заглавные или в строчные? При этом в стандартной библиотеке C++ уже имеются функции «для ракетостроения», такие как функции Бесселя. А ведь ещё в стародавние времена MFC там в CString уже были такие функции как Trim, MakeLower и MakeUpper и это далеко не весь список.

Ссылка

←	спп стдлиб

Давно так не радовали обновления...

→

← 1 2 3 →

Ответ на: комментарий от Pavval 28.11.20 19:49:23 MSK

Ну конечно. Ато оно сидело и плюсы придумывало, чтобы зависеть от них.

deep-purple ★★★★★
(29.11.20 05:08:52 MSK)

Ответ на: комментарий от bbk123 28.11.20 19:54:04 MSK

Ахах.

deep-purple ★★★★★
(29.11.20 05:09:38 MSK)

Ссылка

Ответ на: комментарий от bbk123 28.11.20 20:07:06 MSK

отличие char8_t от char в том, что первый ещё и беззнаковый

Какой ужас! Спешите видеть — мужчина отличается от женщины потому, что он мужчина!

deep-purple ★★★★★
(29.11.20 05:11:19 MSK)

Ответ на: комментарий от praseodim 28.11.20 20:46:09 MSK

даже тогда где-то к концу 70-х давно надо было запилить нормальные строки и операции над ними

Не вижу проблемы в структуре с всего длвумя полями: дата и лен.

deep-purple ★★★★★
(29.11.20 05:12:55 MSK)

Ответ на: комментарий от goto-vlad 28.11.20 20:55:35 MSK

Годненько!

deep-purple ★★★★★
(29.11.20 05:14:14 MSK)

Ссылка

Ответ на: комментарий от fsb4000 28.11.20 23:31:46 MSK

И?

deep-purple ★★★★★
(29.11.20 05:27:59 MSK)

Ссылка

Ответ на: комментарий от fsb4000 29.11.20 00:32:10 MSK

is undefined if the argument’s value is neither representable as unsigned char

Аааа, т.е. передав голову вместо жопы, получить УБ это странно? Тебе случаем на пхп не пора? Там таких проблем нет.

deep-purple ★★★★★
(29.11.20 05:32:51 MSK)

Ссылка

Нечто похожее происходит в Java, со стринговыми литералами вроде «Connie», реализованными как экземпляры класса java.lang.String:

Так в Java же тоже дофига подобного?

Окроме String там есть ещё char[], Character[], CharSequence, StringBuffer, StringBuilder и т. д.

Ну и Multiline Strings вроде в новых версиях Java подвезли.

~~EXL~~ ★★★★★
(29.11.20 05:44:17 MSK)

Ответ на: комментарий от Harald 29.11.20 00:10:49 MSK

Не должны. Всё остальное из неё тоже можно выкинуть. Пусть у каждого будет свой собственный, самосборный, ни с чьим другим несовместимый велик.

~~anonymous-angler~~ ★☆
(29.11.20 05:59:10 MSK)

Ссылка

Ответ на: комментарий от deep-purple 29.11.20 05:12:55 MSK

Не вижу проблемы в структуре с всего длвумя полями: дата и лен.

И тут сразу возникает куча нюансов, а какого размера должен быть этот «лен»? 1 байт мало, 2 не всегда хватит, 4 уже оверхед для большинства случае. И что делать с системными API, которые ожидают нуль-терминированные строки

Harald ★★★★★
(29.11.20 06:12:56 MSK)

Ответ на: комментарий от fsb4000 29.11.20 00:32:10 MSK

Но ведь с transform-ом можно использлвать std::tolower из (std::locale) в ней таких ограничений по UB нет.

rumgot ★★★★★
(29.11.20 06:30:19 MSK)
Последнее исправление: rumgot 29.11.20 06:32:09 MSK (всего исправлений: 1)

Ответ на: комментарий от Harald 29.11.20 06:12:56 MSK

Не возникает таких вопросов, если посмотреть на современные реализации std::string с их small string optimisation (которая для маленьких строк вообще не выделяет память на куче) и с_str (ну да, строки с нулями в середине несовместимы с системными API, это надо учитывать).

Ну да std::string сейчас - это 24 байта минимум (по 8 байт на указатель, текущую длину и фактический размер буфера).

Begemoth ★★★★★
(29.11.20 07:51:28 MSK)
Последнее исправление: Begemoth 29.11.20 07:53:36 MSK (всего исправлений: 1)

Ответ на: комментарий от Begemoth 29.11.20 07:51:28 MSK

А могли бы в 16 уложиться

~~unstable-case~~
(29.11.20 08:54:18 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 29.11.20 03:24:44 MSK

Сразу видно, что авторы ненавидят программистов, себя и своих жирных мамаш, которые их породили.

Совместимость с С, там тоже UB: https://en.cppreference.com/w/c/string/byte/tolower

fsb4000 ★★★★★
(29.11.20 12:47:59 MSK)

Ссылка

Ответ на: комментарий от rumgot 29.11.20 06:30:19 MSK

Но ведь с transform-ом можно использлвать std::tolower из (std::locale) в ней таких ограничений по UB нет.

Да, но есть второй параметр, а std::transform будет передавать только один параметр.

template< class charT >
charT tolower( charT ch, const locale& loc );

Всё равно нужна или лямбда или функция-обёртка, чтобы передать какую-нибудь locale вторым параметром.

fsb4000 ★★★★★
(29.11.20 13:07:15 MSK)

Ссылка

Ответ на: комментарий от deep-purple 29.11.20 05:08:52 MSK

Поубавьте газ, у вас пригорает.

Pavval ★★★★★
(29.11.20 14:11:36 MSK)

Ссылка

Ответ на: комментарий от deep-purple 29.11.20 05:12:55 MSK

Было в паскале кажется, не прижилось. Как минимум непонятно, что делать когда лен>255.

yu-boot ★★★★★
(29.11.20 17:42:26 MSK)

Ответ на: комментарий от yu-boot 29.11.20 17:42:26 MSK

Расскажи как в С++ это не прижилось, в std::string.

Begemoth ★★★★★
(29.11.20 18:36:54 MSK)

Ответ на: комментарий от Begemoth 29.11.20 18:36:54 MSK

Приходим к тому с чего начали. 1, 2 или 4 под длину? :) переменную длину длины не берём.

yu-boot ★★★★★
(29.11.20 18:38:41 MSK)

Ответ на: комментарий от yu-boot 29.11.20 18:38:41 MSK

8 байт под длину, всё равно у тебя указатель должен быть по 8 байтам выровнен, так-то в структуре у тебя будет padding, даже если ты под длину 1 байт выделишь.

Begemoth ★★★★★
(29.11.20 18:40:41 MSK)

Ссылка

Ответ на: комментарий от yu-boot 29.11.20 17:42:26 MSK

непонятно, что делать когда лен>255

Лен там уинт, а это не 255.

deep-purple ★★★★★
(29.11.20 19:54:27 MSK)

Ответ на: комментарий от EXL 29.11.20 05:44:17 MSK

Так в Java же тоже дофига подобного?

В Java нифига подобного нет.

Окроме String там есть ещё char[], Character[], CharSequence, StringBuffer, StringBuilder и т. д.

Массивы char[] и Character[] никто как стринги не использует, да и не может. char[] в C и в Java - это совершенно разные сущности. А Character[] ты вообще врядли где либо встретишь.

Всё остальное - реализации интерфейса CharSequence. Стандартный стринг - это java.lang.String и в большенстве случаев его хватает. К тому же он неизменяемый. Когда требуется изменяемый, используют StringBuilder, до Java 5 StringBuffer. То есть по факту используются лишь String и StringBuilder и вовсе не из-за кодировок.

Ну и Multiline Strings вроде в новых версиях Java подвезли.

Всего лишь более удобная форма записи литералов. Это всё тот же java.lang.String

~~bbk123~~ ★★★★★
(29.11.20 21:31:38 MSK) автор топика

Ссылка

Ответ на: комментарий от Harald 29.11.20 00:01:51 MSK

С - лучший! А жабисты душат девочек и меняют пол таблетками!

А сишники убивают русских жён.

~~bbk123~~ ★★★★★
(29.11.20 21:37:40 MSK) автор топика

Ссылка

Ответ на: комментарий от deep-purple 29.11.20 19:54:27 MSK

В норме len - это std::size_t

Begemoth ★★★★★
(29.11.20 21:38:24 MSK)

Ссылка

Ответ на: комментарий от deep-purple 29.11.20 05:05:24 MSK

Мы закончили?
Да. На первом же предложении. Потому что вот это вот всё — не плюсовые и не сишные проблемы. Я, как сишник и хейтер плюсов, заявляю тебе это в полном здравии и сознании. Твой тред вообще не про ЯП, а про кучу говностандартов локалей, под которые ЯП вынужден подстраиваться.

Почему в Java таких проблем нет? Почему там догадались отделить внутренний формат хранения текста от преобразования его в ту или иную кодировку для чего-то внешнего? Unicode как стандарт появился в январе 1991 года. Первый стандарт C++ появился в 1998 году. Почему в C++ было решено использовать однобайтовый char внутри std::string ? Зато теперь мы имеем std::string std::u8string std::u16string std::u32string std::wstring Причём тут вообще локали? Вон в Java для поддержки кодировок есть отдельный класс - Charset. На внутреннее представление текста внутри String это вообще не влияет. А в C++ какой-то салат.

~~bbk123~~ ★★★★★
(29.11.20 21:59:22 MSK) автор топика

Ответ на: комментарий от deep-purple 29.11.20 05:11:19 MSK

Сишный char зачем-то сделали знаковым, а позже выяснилось, что это было ошибкой. Ошибку попытались исправить в C++20, но оказалось, что исправление ещё не готово для реального использования и следует подождать C++23, а так же поддерживающих этот стандарт компиляторов.

~~bbk123~~ ★★★★★
(29.11.20 22:04:57 MSK) автор топика

Ссылка

Ответ на: комментарий от Harald 29.11.20 00:10:49 MSK

Стандартная библиотека языка не обязана включать в себя всё на свете.

kek

thunar ★★★★★
(29.11.20 22:09:41 MSK)

Ссылка

Ответ на: комментарий от yu-boot 29.11.20 18:38:41 MSK

sozeof size_t

thunar ★★★★★
(29.11.20 22:12:13 MSK)
Последнее исправление: thunar 29.11.20 22:21:22 MSK (всего исправлений: 2)

Ссылка

При этом в стандартной библиотеке C++ уже имеются функции «для ракетостроения», такие как функции Бесселя.

Это-то тут при чем? Остапа понесло, и не в ту степь.

seiken ★★★★★
(30.11.20 12:51:21 MSK)

Ну так строки это не просто

Psilocybe ★★★★★
(30.11.20 14:09:07 MSK)

Ссылка

Ответ на: комментарий от seiken 30.11.20 12:51:21 MSK

Видимо при том, что нехватка базовой функциональности в C++ стрингах выглядит ещё более странно, на фоне таких вещей, как функция Бесселя в стандартной библиотеке.

~~bbk123~~ ★★★★★
(30.11.20 14:46:27 MSK) автор топика

Ответ на: комментарий от bbk123 29.11.20 21:59:22 MSK

зато жаба жрёт память и тормозит

Harald ★★★★★
(30.11.20 14:53:13 MSK)

Ответ на: комментарий от Harald 30.11.20 14:53:13 MSK

зато жаба жрёт память и тормозит

Неправда. Первые версии Java действительно имели некоторые проблемы, но уже давно это не является проблемой. И речь вообще не о тормозах и не о памяти, а о базовой функциональности в стандартной библиотеке.

~~bbk123~~ ★★★★★
(30.11.20 15:18:18 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 15:18:18 MSK

Но ведь конвертация каждый раз туда и обратно во внутреннее представление строки не даётся бесплатно

Harald ★★★★★
(30.11.20 15:19:26 MSK)

Ответ на: комментарий от Harald 30.11.20 15:19:26 MSK

Разумеется, как и вообще поддержка локалей, которая там уже есть. К тому же конвертация понадобится нечастно - лишь когда данные нужно переслать куда-то, где этот внутренний формат неизместен.

~~bbk123~~ ★★★★★
(30.11.20 15:34:03 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 15:34:03 MSK

лишь когда данные нужно переслать куда-то

Например, при каждом выводе в консоль в Linux :)

fsb4000 ★★★★★
(30.11.20 15:37:33 MSK)

Ответ на: комментарий от fsb4000 30.11.20 15:37:33 MSK

Которая давно юникодная :-)

~~bbk123~~ ★★★★★
(30.11.20 15:53:21 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 15:53:21 MSK

Но не UTF-16. На Linux каждый вывод будет происходить преобразование в кодировку платформы. То есть UTF-16 => UTF-8. На Windows будет сразу выводить, так как там UTF-16.

Или например в Pascal, строки в UTF-8, на Linux выводятся сразу. А на Windows будет происходить перевод в UTF-16, перед выводом. С версии fpc 3.0 это происходит автоматически, и скрыто от программиста.

Но раньше нужно было явно писать типа такого(можно и сейчас продолжать писать, чтобы сохранить совместимость с fpc 2.6 и например с Windows 98):

writeln(UTF8ToConsole('Для выхода нажмите ENTER'));

fsb4000 ★★★★★
(30.11.20 16:06:53 MSK)

Ответ на: комментарий от fsb4000 30.11.20 16:06:53 MSK

В Go строки в UTF-8 и никто не жалуется.

~~bbk123~~ ★★★★★
(30.11.20 16:23:22 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 16:23:22 MSK

В Go строки в UTF-8 и никто не жалуется.

Я тебе больше скажу. В С++ можно использовать UTF-8 строки.

https://www.boost.org/doc/libs/develop/libs/nowide/doc/html/index.html

На Windows будет происходить конвертация, но в целом пофиг. Всё работает и кроссплатформенно.

Просто С++ даёт выбор. Ты можешь решить, что std::string это UTF-8, можешь решить что CP866, можешь KOI8-R. Всё зависит лишь от программиста, как он будет интерпретировать набор байт, какая это кодировка.

fsb4000 ★★★★★
(30.11.20 16:27:46 MSK)

Ответ на: комментарий от fsb4000 30.11.20 16:27:46 MSK

Но std::string - это не UTF-8. Для нормальной поддержки UTF-8 нужно использовать std::u8string но его поддержка не готова. И вообще, почему этот выбор не сделать в одном классе? Внутреннее представление строк неодинаковое даже в Java.

~~bbk123~~ ★★★★★
(30.11.20 16:33:24 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 16:33:24 MSK

Для нормальной поддержки UTF-8

можно использовать libicu

Harald ★★★★★
(30.11.20 16:34:38 MSK)

Ответ на: комментарий от Harald 30.11.20 16:34:38 MSK

Мы же обсуждаем стандартную библиотеку.

~~bbk123~~ ★★★★★
(30.11.20 16:36:21 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 16:36:21 MSK

не всем нужна стандартная библиотека

Harald ★★★★★
(30.11.20 16:38:11 MSK)

Ответ на: комментарий от Harald 28.11.20 23:59:38 MSK

Аффтар так пишет, как будто разнообразие это что-то плохое

Двачую. Diversity сейчас в моде.

utf8nowhere ★★★★
(30.11.20 17:03:09 MSK)

Ссылка

Ответ на: комментарий от Harald 30.11.20 16:38:11 MSK

Может быть ты хотел сказать: «не для всего нужна стандартная библиотека»? Но работа со строками - это одна из базовых функциональностей любого языка высокого уровня и соответственно это должно находиться в стандартной библиотеке, а не размазываться на кучу велосипедов.

~~bbk123~~ ★★★★★
(30.11.20 17:54:13 MSK) автор топика

Ссылка

Ответ на: комментарий от bbk123 28.11.20 20:07:06 MSK

То, что обычно char поддерживает работу с UTF-8 это UB

Откуда такая инфа?

utf8nowhere ★★★★
(30.11.20 20:32:27 MSK)

Вот из ОП и становится понятно, зачем людям QtCore.

hobbit ★★★★★
(30.11.20 21:50:48 MSK)

Ссылка

Ответ на: комментарий от utf8nowhere 30.11.20 20:32:27 MSK

CHAR_BIT не обязан равняться 8, правда лишь в не POSIX системах. Так же, является ли char знаковым или беззнаковым по умолчанию, стандартом не определено.

~~bbk123~~ ★★★★★
(30.11.20 22:01:44 MSK) автор топика

Ответ на: комментарий от bbk123 30.11.20 22:01:44 MSK

CHAR_BIT не обязан равняться 8

Так главное что он не может быть меньше, не?

Так же, является ли char знаковым или беззнаковым по умолчанию, стандартом не определено.

А зачем?

Этого недостаточно для гарантий что char хватает для UTF-8?

utf8nowhere ★★★★
(30.11.20 22:05:07 MSK)
Последнее исправление: utf8nowhere 30.11.20 22:05:22 MSK (всего исправлений: 1)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	спп стдлиб

Talks

Давно так не радовали обновления...

→

Похожие темы