[D] Вывод юникодного текста посимвольно

0

0

Салют всем D-программерам!

Есть Debian GNU/Linux, 2.6.25, amd64. gdc 4.1.2, локаль - en_US.UTF8

Хочу вывести строку юникодную вначале полностью, затем посимвольно:

import std.stdio;
import std.string;
import std.c.locale;

void main()
{
    setlocale(LC_ALL, "");

    char[] str = "Вот это русский текст. And this is english text";
    writefln(str);

    foreach (char symbol; str)
    {
        writef("%s ", symbol);
    }
    writefln();
}

Полностью строка, выводится замечательно, а вот посимвольно никак:

$ ./second.e 
Вот это русский текст. And this is english text
Error: 4invalid UTF-8 sequence

Внимание, вопрос - что я сделал неправильно?

Ссылка

← Fatal error: Cannot re-assign $this

автоматический перенос строки с div →

s/строка, выводится/строка выводится/

JackYF ★★★★
(21.07.08 23:23:05 MSK) автор топика

Ссылка

D не нужен, есть Alef из Plan 9. C нужно заменять на Alef, UNIX на Plan 9.

anonymous
(22.07.08 00:23:47 MSK)

Видимо writef требует валидной юникодной строки, а ты подсовываешь ему половинку юникодного символа (char - 1 байт, в UTF-8 кириллица - 2)

// D в глаза не видел

anonymous
(22.07.08 01:03:18 MSK)

здесь явно используется char, такой пример у меня заработал:
auto str = "Вот это русский текст. And this is english text";
writefln(str);

foreach (wchar symbol; str)
{
write(symbol, " ");
}

bik ★★
(22.07.08 01:13:06 MSK)

- Используй Tango
- на форуме dsource.org больше вероятность получить ответ

ShprotX ★
(22.07.08 01:14:50 MSK)

Ответ на: комментарий от ShprotX 22.07.08 01:14:50 MSK

tango нет для второй версии. есть еще dprogramming.ru

bik ★★
(22.07.08 01:19:23 MSK)

Ссылка

Ответ на: комментарий от bik 22.07.08 01:13:06 MSK

>foreach (wchar symbol; str)

ИМХО, это "хак" на основании того, что для русского текста в UTF-8 используются 2-байтный символы. ИМХО, надо или преобразовать строку к UTF32 (через toUTF32()) и использовать "foreach(dchar...)", или определять размер каждого UTF-8 символа через stride().

mky ★★★★★
(22.07.08 01:19:52 MSK)

-writef("%s ", symbol); +writef("%c ", symbol);

Ы?

anonymous
(22.07.08 01:25:13 MSK)

Ответ на: комментарий от anonymous 22.07.08 00:23:47 MSK

Limbo удобнее, Alef фтопку.

anonymous
(22.07.08 01:26:05 MSK)

Ссылка

Ответ на: комментарий от anonymous 22.07.08 01:03:18 MSK

>Видимо writef требует валидной юникодной строки, а ты подсовываешь ему половинку юникодного символа (char - 1 байт, в UTF-8 кириллица - 2)

В D char - UTF-8, wchar - UTF-16, dchar UTF-32.

JackYF ★★★★
(22.07.08 02:13:57 MSK) автор топика

Ссылка

Ответ на: комментарий от ShprotX 22.07.08 01:14:50 MSK

>Используй Tango

У меня только phobos в наличии.

JackYF ★★★★
(22.07.08 02:14:49 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 22.07.08 01:25:13 MSK

-writef("%s ", symbol); +writef("%c ", symbol);

>Ы?

Ыгы. Шестнадцатиричные коды. Спасибо, ага ;)

JackYF ★★★★
(22.07.08 02:18:21 MSK) автор топика

Ссылка

Ответ на: комментарий от bik 22.07.08 01:13:06 MSK

>foreach (wchar symbol; str) >{ >write(symbol, " "); >}

Спасибо, так заработало. Судя по официальной вики, это не хак, это нормально поведение, но! Мой вариант должен работать тоже (здесь, по идее, идут дополнительные преобразования из UTF-8 в UTF-16 и обратно).

Пока буду обходиться wchar'ом, а там видно будет. Всем спасибо.

JackYF ★★★★
(22.07.08 02:22:06 MSK) автор топика

Ссылка

Ответ на: комментарий от mky 22.07.08 01:19:52 MSK

Это не хак а стандартная итерация по UTF-8 строке.

Только лучше dchar использовать.

~~Legioner~~ ★★★★★
(22.07.08 08:10:39 MSK)

Ответ на: комментарий от Legioner 22.07.08 08:10:39 MSK

>лучше dchar использовать

UTF-16/32 фтопку. 8 надо юзать.

anonymous
(22.07.08 13:14:30 MSK)

Ответ на: комментарий от anonymous 22.07.08 13:14:30 MSK

char[] str = "Привет мир";

foreach (dchar symbol; str) {
    write(symbol, " ");
} 

Я это имел в виду. А так - согласен, обычно UTF-8 рулит, редкие исключения - алгоритмы, требующие константного случайного доступа.

~~Legioner~~ ★★★★★
(22.07.08 15:50:15 MSK)