gcc символьный массив ERROR!!!

#include<iostream>
using namespace std;
int main()
{

        char A [19];
        string s="В начале было слово";

        for (int i=0; i<19; i++)
                A[i]=s[i];
        for (int i=0; i<19; i++)
                cout<<A[i];

        cout<<endl;
        return 0;
}

Вывод: В начале б(тут символ неизвестного символа (знак вопроса в квадратике));

Под виндой выводит всю строку нормально. ЧЯДНТ?

Ссылка

← Php + Javascript

[c++] C++0x и range-based for →

← 1 2 →

запускаю под geany выводит просто «В начале б» без символа.

mrXorg
(09.10.11 23:39:29 MSK) автор топика

Ссылка

Oh my God! My eyes! MY EYES!!

anonymous
(09.10.11 23:40:37 MSK)

Ответ на: комментарий от anonymous 09.10.11 23:40:37 MSK

xD помог бы лучше епрст)

mrXorg
(09.10.11 23:41:39 MSK) автор топика

Ответ на: комментарий от mrXorg 09.10.11 23:41:39 MSK

теперь и под geany неизвестный символ

mrXorg
(09.10.11 23:43:17 MSK) автор топика

Ссылка

UTF

умножай на 2

visual ★★★
(09.10.11 23:43:29 MSK)

Ответ на: комментарий от visual 09.10.11 23:43:29 MSK

а вообще лучше 4096

visual ★★★
(09.10.11 23:44:27 MSK)

Ответ на: комментарий от visual 09.10.11 23:43:29 MSK

спасибо

mrXorg
(09.10.11 23:45:31 MSK) автор топика

Ссылка

Ответ на: комментарий от visual 09.10.11 23:44:27 MSK

а вообще лучше 4096

не понял, что ты имеешь ввиду?

mrXorg
(09.10.11 23:46:14 MSK) автор топика

Ответ на: комментарий от mrXorg 09.10.11 23:46:14 MSK

char A [4096];

visual ★★★
(09.10.11 23:47:29 MSK)

Очевидно же: s[i] возвращает один байт строки, когда символы занимают по 2 байта.

gentoo_root ★★★★★
(09.10.11 23:48:41 MSK)

Ссылка

Ответ на: комментарий от visual 09.10.11 23:47:29 MSK

1. char A [4096]; зачем, скажи пожалуйста если не трудно. 2. если я хочу вывести из массива только букву б, как я ее должен выводить? Я просто не пойму принцип действия( Просто книгу еще не читал на счет этого, а лабу уже надо делать(((

mrXorg
(09.10.11 23:51:48 MSK) автор топика

Ответ на: комментарий от visual 09.10.11 23:47:29 MSK

Поднимаю ставки:

char A [8192];

ttnl ★★★★★
(09.10.11 23:55:13 MSK)

Ответ на: комментарий от mrXorg 09.10.11 23:51:48 MSK

Компилятор пишет строковую константу согласно локали, емнип.
Соответственно в винде получаем какой-нибудь cp1251 и всё хорошо выводится, а в юниксе получаем utf-8, где каждая буква весит по 2 байта (utf-8).

anonymous
(09.10.11 23:56:23 MSK)

Ссылка

Ответ на: комментарий от mrXorg 09.10.11 23:51:48 MSK

есть разница между однобайтными кодировками и многобайтными. В данном случае используется, скорее всего, UTF-8. При данной кодировке один символ может занимать от одного до шести байт (шесть - это экзотика, но тем не менее возможно). Поэтому при копировании первых 19 байт из UTF-8 строки «В начале было слово» будет скопировано «В начале б?»
Каждый символ кириллицы (за исключением пробела) занимаеи по два байта. Ищите в интернете информацию про многобайтные кодировки (и UTF-8 в частности), про то, как с ними работать (какие стандартные функции есть) и как конвертировать текст из одной кодировки в другую.

Slavaz ★★★★★
(09.10.11 23:58:26 MSK)

Ответ на: комментарий от Slavaz 09.10.11 23:58:26 MSK

блин, если пробелы по 1 байту, то тогда работать с массивом очень тяжело. Ведь надо знать количество перед символом который хочешь вывести получается((

mrXorg
(10.10.11 00:03:27 MSK) автор топика

Ответ на: комментарий от mrXorg 10.10.11 00:03:27 MSK

ведь надо знать количество пробелов*

mrXorg
(10.10.11 00:04:15 MSK) автор топика

Ссылка

#include <iostream>
#include <string>
using namespace std;
int main()
{
    string s = "В начале было слово";
    int ssize = s.size();
    cout << "// в исходной строке " << ssize << " байт, евпочя" << endl;
    char *A = new char[ssize];
    for (int i = 0; i < ssize; i++) {
        A[i] = s[i];
    }
    for (int i = 0; i < ssize; i++) {
        cout << A[i];
    }
    cout << endl;
    delete[] A;
}

anonymous
(10.10.11 00:05:07 MSK)

#include<iostream>
using namespace std;
int main()
{
wchar_t char A;
wstring s=L"В начале было слово";

for(wstring::iterator i = s.begin(); i!= s.end(); i++) {
A = *i;
wcout << A;
}

cout<<endl;
return 0;
}

Например.

anonymous
(10.10.11 00:05:19 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.10.11 00:05:07 MSK

Это жестоко

anonymous
(10.10.11 00:06:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.10.11 00:05:07 MSK

#include <iostream>
#include <string>
using namespace std;
int main()
{
    string s = "В начале было слово";
    int ssize = s.size();
    cout << "// в исходной строке " << ssize << " байт, евпочя" << endl;
    char *A = new char[ssize+1];       // быстрофикс
    for (int i = 0; i < ssize; i++) {
        A[i] = s[i];
    }
    A[ssize] = 0;                      // быстрофикс
    for (int i = 0; i < ssize; i++) {
        cout << A[i];
    }
    cout << endl;
    delete[] A;
}

anonymous
(10.10.11 00:07:38 MSK)

Ответ на: комментарий от ttnl 09.10.11 23:55:13 MSK

>Поднимаю ставки:

char A [8192];

Удваиваю

char A[16384];

visual ★★★
(10.10.11 00:08:14 MSK)

Ответ на: комментарий от anonymous 10.10.11 00:07:38 MSK

Быстроподнятое не считается упавшим?

anonymous
(10.10.11 00:08:27 MSK)

Ссылка

Ответ на: комментарий от visual 10.10.11 00:08:14 MSK

cat /proc/meminfo

MemTotal: 1025080 kB
MemFree: 110888 kB

Иду ва-банк:

char A[113549312];

ttnl ★★★★★
(10.10.11 00:10:30 MSK)

Ответ на: комментарий от anonymous 10.10.11 00:07:38 MSK

Кстати «фикс» даже ещё веселее, чем оригинал.
Хочу третий вариант!

anonymous
(10.10.11 00:11:16 MSK)

Ссылка

Ответ на: комментарий от ttnl 10.10.11 00:10:30 MSK

char A[113549313];

visual ★★★
(10.10.11 00:11:49 MSK)

тема решена

не оффтопьте ###################

mrXorg
(10.10.11 00:14:24 MSK) автор топика

Ответ на: комментарий от visual 10.10.11 00:11:49 MSK

>char A[113549313];

Не катит. Ва-банк только ва-банком бъется )

ttnl ★★★★★
(10.10.11 00:14:28 MSK)

Ссылка

Ответ на: комментарий от mrXorg 10.10.11 00:03:27 MSK

если есть желание работать с UTF-8 строкой как с массивом, то сначала нужно перевести строку в UCS-32 , в которой каждый символ превратится в 4 байта. тогда можно будет спокойно обращаться к символам как к элементам массива.

Slavaz ★★★★★
(10.10.11 00:17:55 MSK)

Ответ на: комментарий от visual 10.10.11 00:11:49 MSK

что делать, чтобы как в винде работало? Я поменял кодировку в geany на windows-1251 но не робит

mrXorg
(10.10.11 00:18:27 MSK) автор топика

Ответ на: комментарий от Slavaz 10.10.11 00:17:55 MSK

спасибо, желания нету, как сделать чтобы как под виндой было?

mrXorg
(10.10.11 00:19:06 MSK) автор топика

Ответ на: комментарий от mrXorg 10.10.11 00:14:24 MSK

Какой еще оффтоп? Люди тут тебе массив подбирают, а ты еще обижаешься!

Pavval ★★★★★
(10.10.11 00:20:01 MSK)

Ответ на: комментарий от mrXorg 10.10.11 00:18:27 MSK

на windows-1251 но не робит

терминал не знает данной кодировки?

mrXorg
(10.10.11 00:20:31 MSK) автор топика

Ссылка

Ответ на: комментарий от Pavval 10.10.11 00:20:01 MSK

mrXorg
(10.10.11 00:21:01 MSK) автор топика

Ссылка

подскажите пожалуйста как сделать, чтобы 1 символ = 1 байту был

mrXorg
(10.10.11 00:22:33 MSK) автор топика

Ссылка

Ответ на: комментарий от Slavaz 10.10.11 00:17:55 MSK

UCS-32LE и UCS-32BE есть, но ругается компилятор на них

mrXorg
(10.10.11 00:25:04 MSK) автор топика

Ответ на: комментарий от mrXorg 10.10.11 00:18:27 MSK

Ну надо не забыть ещё компилятору сказать, что строки надо в однобайтовой кодировке писать.
Эта зараза GCC упорно их в UTF пишет.
Где-то ключик был, надо в мане смотреть.

anonymous
(10.10.11 00:26:46 MSK)

Ответ на: комментарий от mrXorg 10.10.11 00:19:06 MSK

> спасибо, желания нету, как сделать чтобы как под виндой было?

Если не планируется никаких других символов, кроме русской кириллицы, то можно просто конвертнуть текст в любую однобайтную кодировку (KOI8-R, CP1251, IBM-866, ISO-8859-5) и работать «как под виндой». По окончании работы надо будет опять перевести в UTF-8, чтобы нормально отобразить на экране.

P.S. Это совсем неправильный путь, но если задача слишком узкоспециализирована и/или одноразовая, то вполне подойдёт и это решение.

P.P.S. как именно перекодировать текст:
man 3 iconv

Slavaz ★★★★★
(10.10.11 00:26:54 MSK)

Ответ на: комментарий от anonymous 10.10.11 00:26:46 MSK

Что-то там про charset, вестимо.

anonymous
(10.10.11 00:27:59 MSK)

Ссылка

Ответ на: комментарий от Slavaz 10.10.11 00:26:54 MSK

Да, в догонку: дабы полностью работать «как под виндой» (stricmp и прочее регистронезависимое) нужно ещё man setlocale почитать :)

Slavaz ★★★★★
(10.10.11 00:28:49 MSK)

Ответ на: комментарий от Slavaz 10.10.11 00:28:49 MSK

сделал кодировку ISO-8859-5, перепечатал текст - выводит только знаки вопросов вместо букв

mrXorg
(10.10.11 00:32:07 MSK) автор топика

Ответ на: комментарий от anonymous 10.10.11 00:26:46 MSK

-fexec-charset=charset

это то, в какой кодировке он строковые константы будет в исполняемый файл писать.

Это сильно неправильно всё, конечно. Но раз хочется.

anonymous
(10.10.11 00:33:33 MSK)

Ответ на: комментарий от anonymous 10.10.11 00:33:33 MSK

Ну то есть
-fexec-charset=charset
-finput-charset=charset

'charset' привести в соответствие с текущей локалью (кои8, допустим). И в такой же кодировке, естественно, исходник должен быть.

anonymous
(10.10.11 00:35:42 MSK)

Ссылка

Ответ на: комментарий от mrXorg 10.10.11 00:25:04 MSK

> UCS-32LE и UCS-32BE есть, но ругается компилятор на них

Ну вообще-то в UCS лучше конвертировать из системной кодировки (в данном случае из UTF-8), а не изначально хранить в этой кодировке.

ну если есть желание сразу хранить так, то: -fexec-charset=UCS4

Slavaz ★★★★★
(10.10.11 00:36:00 MSK)

Ответ на: комментарий от mrXorg 10.10.11 00:32:07 MSK

> сделал кодировку ISO-8859-5, перепечатал текст - выводит только знаки вопросов вместо букв
правильно. терминал не понимает ISO-8859-5.
надо назад в UTF-8 перегонять перед печатью на экран

Slavaz ★★★★★
(10.10.11 00:37:08 MSK)

Ответ на: комментарий от Slavaz 10.10.11 00:36:00 MSK

лицорука

anonymous
(10.10.11 00:37:43 MSK)

Ответ на: комментарий от Slavaz 10.10.11 00:37:08 MSK

перегоняю назад в ютф8, печатается снова «В начале б?»

mrXorg
(10.10.11 00:39:24 MSK) автор топика

Ссылка

Ответ на: комментарий от Slavaz 10.10.11 00:37:08 MSK

А вообще, начните с правильного пути: http://tldp.org/HOWTO/Unicode-HOWTO-6.html

Slavaz ★★★★★
(10.10.11 00:40:53 MSK)

Ответ на: комментарий от Slavaz 10.10.11 00:37:08 MSK

вы имеете ввиду, надо заполнить массив используя ISO-8859-5 и потом перед печатью программно вывести уже через ютф8?

mrXorg
(10.10.11 00:41:35 MSK) автор топика

Ответ на: комментарий от Slavaz 10.10.11 00:40:53 MSK

я там не найду по моей проблеме ничего

mrXorg
(10.10.11 00:43:17 MSK) автор топика

Ссылка

Ответ на: комментарий от mrXorg 10.10.11 00:41:35 MSK

да

Slavaz ★★★★★
(10.10.11 00:43:22 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Php + Javascript

Development

[c++] C++0x и range-based for →

Похожие темы