Как посчитать длину MBCS-строки без учёта концевых пробелов (на C)?

c, интернационализация, строки

0

1

Дано:
есть ANSI строка.

Надо:
посчитать её длину без концевых пробелов.

Нужно научиться вычислять длину строки без концевых пробелов правильно.

Ссылка

← транзакционная запись в файл

Как перекомпилировать kdialog? →

А почему бы не зайти с обратно стороны, обрезать строку, удалив все конечные пробелы и взять ее длину?

Kronick
(06.12.17 13:17:08 MSK)

Ответ на: комментарий от Kronick 06.12.17 13:17:08 MSK

Потому что именно так и было сделано, и это привело к ошибке. Всю историю читай по ссылке в стартовом посте

~~Einstok_Fair~~ ★★☆
(06.12.17 13:19:22 MSK) автор топика

пока нравится вот эа функция:
http://man7.org/linux/man-pages/man3/mbsrtowcs.3.html

перебирать по одному символу
запоминать последний непробел

Единственное что меня смущает - неясно, к тому ли семейству функций эта функция принаделжит. Может она для другой кодировки...

~~Einstok_Fair~~ ★★☆
(06.12.17 13:20:09 MSK) автор топика
Последнее исправление: Einstok_Fair 06.12.17 13:29:27 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Einstok_Fair 06.12.17 13:19:22 MSK

Я имею ввиду брать по 2 символа и проверять их, то есть встретил ты «0x0420» - и понял что это не пробел, встретил «0х0020» - пробел. А дальше как я описал в первом посте.

Kronick
(06.12.17 13:34:12 MSK)

Ответ на: комментарий от Kronick 06.12.17 13:34:12 MSK

UTF-8 это не wchar_t. Не будет никаких «встретил «0х0020» - пробел»

~~Einstok_Fair~~ ★★☆
(06.12.17 13:48:57 MSK) автор топика

Ответ на: комментарий от Einstok_Fair 06.12.17 13:48:57 MSK

Судя по твоему основному вопросу о букве «Р», у тебя не UTF-8, так как в ней буква «Р» не может быть закодирована как 0x0420.

uuwaan ★★
(06.12.17 14:21:21 MSK)

YПОРNHУM

Сабж.

~~mos~~ ★★☆☆☆
(06.12.17 14:24:05 MSK)

Ссылка

Ответ на: комментарий от uuwaan 06.12.17 14:21:21 MSK

верное наблюдение. Но дело в том, что я не отлаживал пошагово а только на исходники смотрел и предположения делал, да тестовый пример прогнал.

#include <ctype.h> // isspace

WCHAR *stringUnicode

while ((StringLen > 0) && (isspace ((int) ((unsigned char) *(Src + StringLen - 1)))))
			StringLen--;
		if (StringLen == 0)
StringLen = 1;

тестовый пример показывает, что концевые буква(или буквы) Р отрезаются этим кодом.

~~Einstok_Fair~~ ★★☆
(06.12.17 14:42:38 MSK) автор топика
Последнее исправление: Einstok_Fair 06.12.17 14:44:53 MSK (всего исправлений: 1)

У юникода всё что после 0x7F — признак многобайта, насколько я знаю. Вот и думай как посчитать.

~~a1batross~~ ★★★★★
(06.12.17 14:45:58 MSK)

Ссылка

Ответ на: комментарий от Einstok_Fair 06.12.17 14:42:38 MSK

Src какой тип имеет?

uuwaan ★★
(06.12.17 14:46:45 MSK)

https://ru.wikipedia.org/wiki/UTF-8

Вот тут все очень подробно описано, и формат и как что куда переводить и вообще. Достаточно в табличках разобраться и можно будет без проблем написать обработку и понять где там пробел, а где нет

Kronick
(06.12.17 14:49:33 MSK)

Ответ на: комментарий от uuwaan 06.12.17 14:46:45 MSK

WCHAR *Src; Src=stringUnicode;

думаю может iswspace вставить вместо isspace ?

~~Einstok_Fair~~ ★★☆
(06.12.17 14:51:41 MSK) автор топика

Ответ на: комментарий от Einstok_Fair 06.12.17 14:51:41 MSK

Как-то так. Пляски с перекастом указателя через int не понятно зачем там.

while ((StringLen > 0) && iswspace(Src[StringLen-1]))
  StringLen--;
if (StringLen == 0)
 StringLen = 1;

uuwaan ★★
(06.12.17 14:55:03 MSK)

Ответ на: комментарий от uuwaan 06.12.17 14:55:03 MSK

Да, твой код работает! Да здравствует СССР!

~~Einstok_Fair~~ ★★☆
(06.12.17 15:46:23 MSK) автор топика

Ссылка

никак. понятие «пробел» там отсутствует. как и длина. есть только iswspace().

~~dzidzitop~~ ★★
(06.12.17 15:57:01 MSK)

Ссылка

Ответ на: комментарий от Kronick 06.12.17 14:49:33 MSK

это чудесно, только каким образом это относится к mbcs?

~~dzidzitop~~ ★★
(06.12.17 15:58:05 MSK)

Ответ на: комментарий от uuwaan 06.12.17 14:55:03 MSK

Пляски с перекастом указателя через int не понятно зачем там.

Нет там никаких плясок. зарыменовывается *(str+len-1), char преобразуется в unsigned char, а он в int.

vodz ★★★★★
(06.12.17 16:30:25 MSK)
Последнее исправление: vodz 06.12.17 16:30:53 MSK (всего исправлений: 1)

Ответ на: комментарий от vodz 06.12.17 16:30:25 MSK

а зачем?

И он не char, а WCHAR

~~Einstok_Fair~~ ★★☆
(06.12.17 16:31:06 MSK) автор топика
Последнее исправление: Einstok_Fair 06.12.17 16:31:25 MSK (всего исправлений: 1)

Ответ на: комментарий от Einstok_Fair 06.12.17 16:31:06 MSK

а зачем?

Вам уже незачем, это работает (и только так правильно и никак иначе) только для однобайтных кодировок.

vodz ★★★★★
(06.12.17 16:32:15 MSK)

Ответ на: комментарий от vodz 06.12.17 16:32:15 MSK

Вот именно, что однобайтных. А там wchar_t. Поэтому и непонятно, зачем перекасты.

uuwaan ★★
(06.12.17 16:35:41 MSK)

Ответ на: комментарий от uuwaan 06.12.17 16:35:41 MSK

Вот именно, что однобайтных. А там wchar_t. Поэтому и непонятно, зачем перекасты.

Ох. Нет там никакой ошибки! Это правильный код, который не расчитан был для многобайтников. Потому надо его менять полностью. Но никаких плясок там нет и не было.

vodz ★★★★★
(06.12.17 16:38:51 MSK)

Ссылка

Ответ на: комментарий от dzidzitop 06.12.17 15:58:05 MSK

UTF-8 это не wchar_t. Не будет никаких «встретил «0х0020» - пробел»

ТС сам пишет, значит у него UTF-8, разве нет?

Kronick
(06.12.17 16:53:31 MSK)

Ответ на: комментарий от Kronick 06.12.17 16:53:31 MSK

wchar_t x = 0x0020;

не означает «пробел». А что он означает и означает ли хоть что-нибудь - зависит от реализации.

~~dzidzitop~~ ★★
(06.12.17 19:04:09 MSK)

mbtowc() извлекает из мультибайтовой строки один мультибайтовый символ и конвертирует его в широкий символ. iswspace() проверяет, является ли широкий символ пробелом. Значит в цикле извлекаешь, проверяешь, приращиваешь счетчик байтов или символов, смотря что тебе нужно.

iliyap ★★★★★
(06.12.17 19:38:36 MSK)

Ссылка

Ответ на: комментарий от Kronick 06.12.17 16:53:31 MSK

ТС сам пишет, значит у него UTF-8, разве нет?

Это было предположение взятое из воздуха, которое надо бы перепроверить, но лень.

Возможно, что это было неверное предположение.

Работает же...

~~Einstok_Fair~~ ★★☆
(06.12.17 22:04:23 MSK) автор топика

Ссылка

Ответ на: комментарий от dzidzitop 06.12.17 19:04:09 MSK

и в какой же реализации символ пробела имеет код != 32? или когда в играх пишут case event.key == 32 это значит антипаттерн такой и когда-то это работать перестанет ведь код пробела зависит от реализации а на АСКИ все чихали ашга

anonymous
(06.12.17 22:40:03 MSK)

http://www.daemonology.net/blog/2008-06-05-faster-utf8-strlen.html

модифицируй под свои требования

annulen ★★★★★
(07.12.17 09:30:09 MSK)

Ответ на: комментарий от annulen 07.12.17 09:30:09 MSK

спасибо, интересная заметка, думаю в будущем пригодится

~~Einstok_Fair~~ ★★☆
(07.12.17 09:36:41 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.12.17 22:40:03 MSK

В любой, не основанной на ASCII. А когда в стандарте C базовый набор символов будет объявлен ASCII - тогда и пусть пишут.

В отличие от таких писателей тот же glibc разрабатывается с оглядкой на кроссплатформенность. Для справки, посмотри на реализацию std::from_chars там - увидишь switch на весь латинский алфавит. От дурости своей они его там написали, и от глупости.

Но поскольку кроссплатформенный код на C любители обмазаться сишкой писать не могут - то и будет мне поступать бесконечная вереница таких постов как у тебя.

~~dzidzitop~~ ★★
(07.12.17 14:18:08 MSK)
Последнее исправление: dzidzitop 07.12.17 14:18:56 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← транзакционная запись в файл

Development

Как перекомпилировать kdialog? →

YПОРNHУM

Похожие темы