Unicode encoding

0

1

Всем привет, пытаюсь раскодировать Unicode, с русскими символами разобрался, получаю 0430 (а) и просто прибавля 0xCC80 и все работает, получаю d0b0, но как быть например с символом 다, получаю от wchar_t(ws = L"다") B2E4, но для раскодирования должно быть EB8BA4, в общем я могу конечно так же прибавить какую-то константу, но может есть более правильный способ? кодировка UTF-8

Ссылка

← FUSE

Как вызывать glOrtho? →

Google: ICU

anonymous
(03.01.13 04:48:58 MSK)

Ссылка

Это не прибавлением констант делается, неуч. http://en.wikipedia.org/wiki/UTF-8#Description

anonymous
(03.01.13 05:11:40 MSK)

Ответ на: комментарий от anonymous 03.01.13 05:11:40 MSK

спасибо, почитаю, и почему сразу неуч, я вообще впервые с unicode столкнулся.

Int64 ★★★
(03.01.13 05:19:32 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 03.01.13 05:11:40 MSK

очень хорошо описано, спасибо еще раз за ссылку!

Int64 ★★★
(03.01.13 05:23:54 MSK) автор топика

Ссылка

Когда мне потребовалось небольшое, легко встраиваемое решение, использовал http://utfcpp.sourceforge.net. Если есть необходимость обрабатывать вообще весь юникод и проводить операции над текстом (раскладка, переносы, изменение регистра), то лучше взять ICU. Но с ней сложно начинать.

note173 ★★★★★
(03.01.13 06:01:54 MSK)

Ответ на: комментарий от note173 03.01.13 06:01:54 MSK

Да я уже разобрался, то что мне нужно уже сделал :)

Int64 ★★★
(03.01.13 07:19:43 MSK) автор топика

Ответ на: комментарий от Int64 03.01.13 07:19:43 MSK

Если кому интересно, вот как сделал:

string EncodeUTF8(wchar_t uc) {
	string ret;
	Uint8 b1, b2, b3, b4, b5, b6;
	char c[3];
	
	//
	if ((uc > 0 & uc <= 0x007F) == 1) {
		ret += uc;
	} else if ((uc > 0x007F & uc <= 0x07FF) == 1) {
		b1 = 0xC0 | (uc & 0x7C0) >> 6;
		b2 = 0x80 | (uc & 0x3F);
		//
		ret  = b1;
		ret += b2;
		//
	} else if ((uc > 0x07FF & uc <= 0xFFFF) == 1) {
		b1 = 0xE0 | (uc & 0xF000) >> 12;
		b2 = 0x80 | (uc & 0xFC0) >> 6;
		b3 = 0x80 | (uc & 0x3F);
		//
		ret  = b1; ret += b2; ret += b3;
		//
	} else if ((uc > 0xFFFF & uc <= 0x1FFFFF) == 1) {
		b1 = 0xF0 | (uc & 0x1C00000) >> 18;
		b2 = 0x80 | (uc & 0x3F000) >> 12;
		b3 = 0x80 | (uc & 0xFC0) >> 6;
		b4 = 0x80 | (uc & 0x3F);
		//
		ret  = b1; ret += b2; ret += b3;
		ret += b4;
		//
	} else if ((uc > 0x1FFFFF & uc <= 0x3FFFFFF) == 1) {
		b1 = 0xF8 | (uc & 0x3000000) >> 24;
		b2 = 0x80 | (uc & 0xFC0000) >> 18;
		b3 = 0x80 | (uc & 0xF000) >> 12;
		b4 = 0x80 | (uc & 0xFC0) >> 6;
		b5 = 0x80 | (uc & 0x3F);
		//
		ret  = b1; ret += b2; ret += b3;
		ret += b4; ret += b5;
		//
	} else if ((uc > 0x3FFFFFF & uc <= 0x7FFFFFFF) == 1) {
		b1 = 0xFC | (uc & 0x40000000) >> 30;
		b2 = 0x80 | (uc & 0x3F000000) >> 24;
		b3 = 0x80 | (uc & 0xFC0000) >> 18;
		b4 = 0x80 | (uc & 0xF000) >> 12;
		b5 = 0x80 | (uc & 0xFC0) >> 6;
		b5 = 0x80 | (uc & 0x3F);
		//
		ret  = b1; ret += b2; ret += b3;
		ret += b4; ret += b5; ret += b6;
	}
	
	return ret;
}

string wstring2string(wstring ws, bool enter) {
	string s;
	
	// Unroll loop at 4 iterations
	int i;
	for (i = 0; i < ws.size()-(ws.size() >> 2); i += 4) {
		s += EncodeUTF8(ws[i+0]); s += EncodeUTF8(ws[i+1]);
		s += EncodeUTF8(ws[i+2]); s += EncodeUTF8(ws[i+3]);
	}
	
	//
	for (i; i < ws.size(); i++) {
		s += EncodeUTF8(ws[i]);
	}
	
	return s;
}

правда не проверял с 5ти байтовыми и 6ти байтовыми символами, если у кого есть

Int64 ★★★
(03.01.13 08:00:43 MSK) автор топика

Ответ на: комментарий от Int64 03.01.13 08:00:43 MSK

с 5ти байтовыми и 6ти байтовыми символами

Их в стандарте нет, так что код, отвечающий за декодирование 5/6-байтных последовательностей нужно выкинуть.

Впрочем, в твоей реализации есть еще несколько дырок.

https://tools.ietf.org/html/rfc3629

gatsu ★
(03.01.13 08:07:13 MSK)
Последнее исправление: gatsu 03.01.13 08:08:13 MSK (всего исправлений: 1)

Ответ на: комментарий от gatsu 03.01.13 08:07:13 MSK

ок убрал, а что еще за дырки? не до 0x1FFFFF а до 0x10FFFF?

Int64 ★★★
(03.01.13 08:23:46 MSK) автор топика

Ссылка

Ответ на: комментарий от gatsu 03.01.13 08:07:13 MSK

кажется понял, в безопасности дырки

Int64 ★★★
(03.01.13 08:32:06 MSK) автор топика

Ссылка

Ответ на: комментарий от gatsu 03.01.13 08:07:13 MSK

переписал так:

string EncodeUTF8(wchar_t uc) {
	string ret;
	Uint8 b1, b2, b3, b4, b5, b6;
	
	if (uc == 0x0040) return "";
	
	//
	if ((uc > 0x1 & uc <= 0x007F) == 1) {
		ret += uc;
		//
	} else if ((uc > 0x007F & uc <= 0x07FF) == 1) {
		b1 = 0xC0 | (uc & 0x7C0) >> 6;
		b2 = 0x80 | (uc & 0x3F);
		//
		ret  = b1;
		ret += b2;
		//
	} else if ((uc > 0x07FF & uc <= 0xFFFF) == 1) {
		b1 = 0xE0 | (uc & 0xF000) >> 12;
		b2 = 0x80 | (uc & 0xFC0) >> 6;
		b3 = 0x80 | (uc & 0x3F);
		//
		ret  = b1; ret += b2; ret += b3;
		//
	} else if ((uc > 0xFFFF & uc <= 0x10FFFF) == 1) {
		b1 = 0xF0 | (uc & 0x1C00000) >> 18;
		b2 = 0x80 | (uc & 0x3F000) >> 12;
		b3 = 0x80 | (uc & 0xFC0) >> 6;
		b4 = 0x80 | (uc & 0x3F);
		//
		ret  = b1; ret += b2; ret += b3;
		ret += b4;
		//
	}
	
	return ret;
}

Int64 ★★★
(03.01.13 09:03:09 MSK) автор топика

Ответ на: комментарий от Int64 03.01.13 09:03:09 MSK

А, ты же преобразуешь Unicode в UTF-8, тут всё элементарно.

Добавь игнорирование суррогатных пар UTF-16 (область 0xD800—0xDFFF).

https://github.com/gatsu/UTF8/blob/master/lib/utf8/base.php#L176

И вот это тебе может быть когда-нибудь пригодится: ftp://ftp.unicode.org/Public/UNIDATA/UnicodeData.txt

gatsu ★
(03.01.13 10:27:11 MSK)
Последнее исправление: gatsu 03.01.13 10:27:29 MSK (всего исправлений: 1)

Ответ на: комментарий от Int64 03.01.13 08:00:43 MSK

Так делать нельзя. wchar_t это компиляторозависимое представление символов, там может быть юникод, а может быть и неюникод.

Reset ★★★★★
(03.01.13 11:08:51 MSK)

Ответ на: комментарий от gatsu 03.01.13 10:27:11 MSK

спасибо большое, добавил игнор )

Int64 ★★★
(03.01.13 16:48:51 MSK) автор топика

Ссылка

Ответ на: комментарий от Reset 03.01.13 11:08:51 MSK

не годи, все можно, у меня все работает прекрасно и так как мне нужно.

Int64 ★★★
(03.01.13 16:50:07 MSK) автор топика

Ответ на: комментарий от Int64 03.01.13 16:50:07 MSK

Пока работает на данном компиляторе. Вообще это говнокод. Мое ревью он бы не прошел.

Reset ★★★★★
(03.01.13 19:29:28 MSK)

Ответ на: комментарий от Reset 03.01.13 19:29:28 MSK

на другой компилятор я переходить вроде бы не собираюсь )

Int64 ★★★
(03.01.13 22:17:01 MSK) автор топика

Ссылка

        var result = '';
        var i = 0;
        var c, ucp;
        while (i < str.length) {
            c = str.charCodeAt(i);
            if (c <= 0x7f) {
                ucp = c;
            }
            else {
                var n;
                if ((c & 0xe0) == 0xc0) {
                    ucp = c & 0x1f;
                    n = 1;
                }
                else if ((c & 0xf0) == 0xe0) {
                    ucp = c & 0x0f;
                    n = 2;
                }
                else if ((c & 0xf8) == 0xf0) {
                    ucp = c & 7;
                    n = 3;
                }
                else {
                    return;
                }
                if (i >= str.length - n)
                    return;
                while (n--) {
                    c = str.charCodeAt(++i);
                    if ((c & 0xc0) != 0x80)
                        return;
                    ucp <<= 6;
                    ucp |= c & 0x3f;
                }
            }
            result += String.fromCharCode(ucp);
            i++;
        }
        return result;

anonymous
(05.01.13 09:34:25 MSK)