Как читать буфер памяти посимвольно в заданной кодировке?

Никак. Ибо тот же ютф8 имеет переменную длину кода символа. wchar_t для произвольной кодировки тоже никак есть коды большие чем wchar_t.

чтото_типа_getc(buf) ну да, а внутри парсинг кодировки, извлечение кода символа и возврат, и дай бог символ сам по себе, а не из нескольких закорючек и нескольких кодов, только не произвольной, её указывать надо, они разные. И даже одинаковые разные.

LINUX-ORG-RU ★★★★★
(09.07.22 22:31:13 MSK)
Последнее исправление: LINUX-ORG-RU 09.07.22 22:32:18 MSK (всего исправлений: 1)

Ответ на: комментарий от LINUX-ORG-RU 09.07.22 22:31:13 MSK

Ибо тот же ютф8 имеет переменную длину кода символа.

Это понятно, но ведь конвертеры строк из кодировки в кодировку по-любому работают посимвольно, т.к. иначе никак. Вот мне мечтается найти такое публичное API – хоть C linux-only (что-нибудь из glibc/iconv/…), хоть C++. Т.е. чтобы всё как в потрохах этих конвертеров, но вместо дописывания очередного сконвертированного символа в target buffer оно отдавало бы его мне.

dimgel ★★★★★
(09.07.22 22:33:48 MSK) автор топика
Последнее исправление: dimgel 09.07.22 22:36:16 MSK (всего исправлений: 3)

Ответ на: комментарий от dimgel 09.07.22 22:33:48 MSK

Аааа, ну один хрен надо кодировку то указывать. А то их как бы много. Не, ну есть определялки, но они как бы точно не вс могут определить.

iconv
wchar_t
int c = чтото_типа_getc(buf)

Чёт тип такого навреное, под себя переделать и норм наверное. Но кодировку всё равно надо указывать.

http://www.gnu.org/software/libc/manual/html_node/iconv-Examples.html

LINUX-ORG-RU ★★★★★
(09.07.22 22:39:04 MSK)

В смысле как-то https://github.com/skeeto/branchless-utf8/blob/master/utf8.h так но с произвольной кодировкой, а не utf8?

x3al ★★★★★
(09.07.22 22:41:41 MSK)

Ответ на: комментарий от LINUX-ORG-RU 09.07.22 22:39:04 MSK

Аааа, ну один хрен надо кодировку то указывать.

Ну так я указываю во второй строчке:

чтото_типа_set_charset_for_getc(argv[2]);

Сгодился бы и контекст, передаваемый в каждый вызов getc(), как по твоей ссылке (cd = iconv_open ("WCHAR_T", charset);); но дальше оно опять-таки по площадям шарашит, а не посимвольно (nconv = iconv (cd, &inptr, &insize, &wrptr, &avail);). Но видимо надо поковырять этот iconv, может найдётся что-нибудь типа iconv_getc(buf, cd).

dimgel ★★★★★
(09.07.22 22:42:45 MSK) автор топика

Ссылка

Ответ на: комментарий от x3al 09.07.22 22:41:41 MSK

Да. :)

dimgel ★★★★★
(09.07.22 22:43:28 MSK) автор топика

Ссылка

Но мой внутренний байтодрочер

Ну тебе же этот массив кодов символов нужен будет разок и всё. И да вот например buf[filesize] ну будет раскодированный массив в 4 раза больше вместо 1 метра 4 метра. Обработал, память освободил. Зато такты экономишь. Один раз всё пееркодировал в массив, его обработал освободил память и ляпота. Разве что тебе гигабайты текста нужно обрабатывать, тогда да. Можно экономить память, но в замен ты будешь жрать больше процессора. Идеального выхода нету, разве что ты изначально все входящие данные приведёшь к одной нужной кодировке и избежишь бесполезного кода в таком случае для всего и вся. Ну я так, мысли в слух я не программист.

LINUX-ORG-RU ★★★★★
(09.07.22 22:45:25 MSK)

Ответ на: комментарий от LINUX-ORG-RU 09.07.22 22:45:25 MSK

Обработал, память освободил. Зато такты экономишь. […] Разве что тебе гигабайты текста нужно обрабатывать, тогда да.

Читать буду исходники произвольного проекта, многопоточно. Так что – от 100 байт до гигабайтов.

Кроме того, мой личный опыт подсказывает, что даже при довольно скромных объёмах, память – ГОРАААЗДО более тормозная штука, чем один и тот же закешированный код работающей с ней функции. Хотя конечно, зависит от того, что там за функция getc(); но это и замерить можно. Да и даже если она тяжёлая – она будет выполнена в любом случае, независимо от того, куда пойдёт её результат: ко мне или в буфер. Так что её вызов можно сократить с обоих сторон уравнения.

dimgel ★★★★★
(09.07.22 22:50:33 MSK) автор топика
Последнее исправление: dimgel 09.07.22 23:00:41 MSK (всего исправлений: 3)

Ответ на: комментарий от dimgel 09.07.22 22:50:33 MSK

Читать буду исходники произвольного проекта, многопоточно.

Аааааа!1 так вот кто GitHub Copilot разработал. Попааааалсяяя, лавити ево. Хватайте за пятки!

LINUX-ORG-RU ★★★★★
(09.07.22 23:01:51 MSK)

Ответ на: комментарий от LINUX-ORG-RU 09.07.22 23:01:51 MSK

Copilot

Не разрабатывал я никаких ни ко-пилотов, ни ко-пилоток. :(

dimgel ★★★★★
(09.07.22 23:02:31 MSK) автор топика

Ответ на: комментарий от dimgel 09.07.22 23:02:31 MSK

Тогда ладна

LINUX-ORG-RU ★★★★★
(09.07.22 23:03:54 MSK)

Ссылка

Есть mbrtowc(). Парсит один широкий символ из многобайтовой последовательности, но использует глобальную локаль приложения, которую надо будет менять, чтобы её управлять.

xaizek ★★★★★
(09.07.22 23:23:37 MSK)

Ответ на: комментарий от xaizek 09.07.22 23:23:37 MSK

Прикольно, сенькс. Если разные сорцы в разных кодировках, можно и сгруппировать; хотя пока что я такое поддерживать не собираюсь.

dimgel ★★★★★
(09.07.22 23:29:05 MSK) автор топика

Ссылка

Ответ на: комментарий от dimgel 09.07.22 22:33:48 MSK

Это понятно, но ведь конвертеры строк из кодировки в кодировку по-любому работают посимвольно, т.к. иначе никак.

В общем случае не посимвольно. Потому что из нескольких символов одной кодировки может быть один символ другой. И даже один и тот же символ может превращаться в разные в зависимости от того, какие символы рядом.

monk ★★★★★
(09.07.22 23:29:17 MSK)

Ответ на: комментарий от monk 09.07.22 23:29:17 MSK

Что там на входе творится – мне вообще пофиг; вот если какая-нибудь входная последовательность даст два или более взаимосвязанных выходных символа, это будет веселее. Но надеюсь, какую-нибудь заковыристую букву внутри комментария я никогда не перепутаю с '\n' или "*/", этот комментарий завершающими. Т.е. никакая буква не развернётся в группу wchar_t, содержащую '\n' или '*', которые я могу спутать с конструкцией языка.

dimgel ★★★★★
(09.07.22 23:33:32 MSK) автор топика
Последнее исправление: dimgel 09.07.22 23:41:09 MSK (всего исправлений: 4)

Ссылка

Ответ на: удаленный комментарий

Понятно. :) В таком случае тут напрашивается довольно простое решение: да и пох, не мои проблемы.

dimgel ★★★★★
(09.07.22 23:47:44 MSK) автор топика

Ответ на: комментарий от xaizek 09.07.22 23:23:37 MSK

Есть mbrtowc().

Хотя… Если на каждый вызов оно лезет в getenv("LC_CTYPE"), парсит его, инициализирует что там нужно в потрохах на тему кодировки… Не, это будет кромешная дичь. Контекст необходим.

dimgel ★★★★★
(10.07.22 00:01:42 MSK) автор топика
Последнее исправление: dimgel 10.07.22 00:02:43 MSK (всего исправлений: 2)

Ответ на: комментарий от dimgel 09.07.22 23:47:44 MSK

Если ты ищешь конструкции из ASCII символов, то никакой модификатор не будет иметь код из ASCII набора.

И ещё тут, по-моему, непонятки с терминологией: один wchar_t - это code point, один или более code point - grapheme cluster. mbrtowc даёт первое, для деления на второе - можно заюзать utf8proc::utf8proc_grapheme_break(), но по-моему тебе не нужно.

ICU - говно, плюсовые codecvt - сырое, в сях тоже швах, вокруг боль и страдания.

Крестовый вариант чтения:

#include <fstream>
#include <locale>
#include <iostream>
using namespace std;

int main()
{
    auto loc = locale("en_US.UTF8");
    wfstream f("ff");
    f.imbue(loc);

    wchar_t val;
    while (f.get(val), f) {
        cout << val << endl;
    }
}

~~kvpfs~~ ★★
(10.07.22 00:03:37 MSK)

Ответ на: комментарий от kvpfs 10.07.22 00:03:37 MSK

Если ты ищешь конструкции из ASCII символов, то никакой модификатор не будет иметь код из ASCII набора.

Ага, гуд. Что-то такое смутно помнил, но слишком смутно.

один wchar_t - это code point, один или более code point - grapheme cluster

Мама, а можно я не пойду сегодня в школу?

Крестовый вариант чтения:

Спасибо за компактный пример (мне в гугле везде этот громоздкий codecvt попадается), но ifstream – сильно не та вещь, которую я стал бы использовать ради скорости. Где я выше упоминал «хоть C++», допускался и какой-нибудь самопал, например с контекстом инкапсулированным в класс.

dimgel ★★★★★
(10.07.22 00:04:39 MSK) автор топика
Последнее исправление: dimgel 10.07.22 00:22:17 MSK (всего исправлений: 3)

Ответ на: комментарий от dimgel 10.07.22 00:01:42 MSK

Я не думаю, что локаль перепарсивается на каждый чих. Она же даже без явного вызова setlocale() не применяется.

xaizek ★★★★★
(10.07.22 00:22:17 MSK)

Ответ на: комментарий от dimgel 10.07.22 00:01:42 MSK

На каждый, конечно же, не лезет. Необходимые таблицы загружаются/кэшируются после setlocale() (приложение) или newlocale()/uselocale() (thread).

~~dsdqmhsx~~ ★
(10.07.22 00:23:31 MSK)

Ответ на: комментарий от xaizek 10.07.22 00:22:17 MSK

Хм. Но если написано, что зависит от переменной окружения, значит в лучшем случае оно должно кешироваться и сбрасывать кеш при вызовах setenv(). Что-то как-то слишком сложно, хотя и не невозможно. Если в iconv ничего не найду, попробую и сравню скорости с конвертацией всего файла.

dimgel ★★★★★
(10.07.22 00:24:09 MSK) автор топика

Ответ на: комментарий от dsdqmhsx 10.07.22 00:23:31 MSK

Сенькс.

dimgel ★★★★★
(10.07.22 00:24:46 MSK) автор топика

Ссылка

Ответ на: комментарий от dimgel 10.07.22 00:24:09 MSK

Я про переменные не говорил. Локаль хранится как часть состояния libc.

xaizek ★★★★★
(10.07.22 00:26:41 MSK)

Ответ на: комментарий от dimgel 10.07.22 00:04:39 MSK

но ifstream

А есть какие-то замеры? Оно действительно сильно тормозит? Я никогда не заморачивался потестить.

ради скорости

я не знаю что там, но на всякий случай - для поиска ascii вообще не нужно конвертировать narrow кодировку в wchar_t.

допускался и какой-нибудь самопал, например с контекстом инкапсулированным в класс

есть сишное, можно велосипедить. Я костылил вокруг libiconv (но мне нужно было более, чем один лишь wchar_t).

~~kvpfs~~ ★★
(10.07.22 00:27:13 MSK)

Ответ на: комментарий от xaizek 10.07.22 00:26:41 MSK

Я про переменные не говорил.

Ну я это из man mbrtowc вычитал. Хотя вычитал неправильно. Как говорится, «но есть ньюанс»: «The behavior of mbrtowc() depends on the LC_CTYPE category of the current locale.» Так что да, всё должно быть чики-пуки.

dimgel ★★★★★
(10.07.22 00:28:01 MSK) автор топика

Ссылка

Ответ на: комментарий от kvpfs 10.07.22 00:27:13 MSK

А есть какие-то замеры? Оно действительно сильно тормозит? Я никогда не заморачивался потестить.

Вот эта моя приблуда умеет генерировать гигантский отладочный вывод. Когда я заменил в ней ostream на printf, даже с > /dev/null она ускорилась на порядки.

dimgel ★★★★★
(10.07.22 00:29:22 MSK) автор топика

Ответ на: комментарий от kvpfs 10.07.22 00:03:37 MSK

f.get(val), f

Какой смысл, если результатом f.get(val) и так является f?

utf8nowhere ★★★★
(10.07.22 00:30:02 MSK)

Ответ на: комментарий от utf8nowhere 10.07.22 00:30:02 MSK

на коленках писал, по памяти.

~~kvpfs~~ ★★
(10.07.22 00:31:56 MSK)

Ссылка

Ответ на: комментарий от kvpfs 10.07.22 00:27:13 MSK

я не знаю что там, но на всякий случай - для поиска ascii вообще не нужно конвертировать narrow кодировку в wchar_t.

Значит ли это, что в мультибайтовых символах все байты (кроме может быть первого) >127?

dimgel ★★★★★
(10.07.22 00:34:09 MSK) автор топика

Ответ на: комментарий от dimgel 10.07.22 00:29:22 MSK

А там случайно не было std::endl вместо \n? А то, если вставить fflush() после fprintf() скорость тоже может просесть.

xaizek ★★★★★
(10.07.22 00:37:00 MSK)

Ответ на: комментарий от xaizek 10.07.22 00:37:00 MSK

Не было. :) Про endl я знаю. Я ускорению, помнится, и сам удивился – т.к. по моим понятиям, там разница разве что в виртуальных вызовах (хотя и форматтеры крайне неудобные и уродские). С третьей стороны, у меня там не просто printf, а sprintf в буфер с последующим одним-единственным системным вызовом write(), который atomic и не требует доп.синхронизаций (а через cout я построчно выводил ЕМНИП с использованием спинлока), может ещё и в этом был фокус: сорц.

А может и endl был; иначе какой смысл в спинлоке если оно буфер не сбросит в конце оператора. Да, наверное был. Но это собственно не недостаток моего кода, а неизбежность если не хочешь чтобы вывод от разных потоков перемешался.

А то, если вставить fflush() после fprintf() скорость тоже может просесть.

А вот с atomic write() не проседает. :-P Но и с обычным printf() ускорение тоже было ЕМНИП заметное, и fflush() там тоже наверняка был, иначе никак. А то что я нахимичил – это уже байтодрочерство чисто прикола ради: посмотреть что получится.

dimgel ★★★★★
(10.07.22 00:40:07 MSK) автор топика
Последнее исправление: dimgel 10.07.22 01:06:33 MSK (всего исправлений: 6)

Ссылка

Ответ на: комментарий от dimgel 10.07.22 00:34:09 MSK

Значит ли это, что в мультибайтовых символах все байты (кроме может быть первого) >127?

ASCII символы будут <128, все остальные - больше.

Вот эта моя приблуда умеет генерировать гигантский отладочный вывод. Когда я заменил в ней ostream на printf, даже с > /dev/null она ускорилась на порядки.

Погуглил, первый попавшийся тест говорит, что разницы там нет.

~~kvpfs~~ ★★
(10.07.22 00:41:48 MSK)

Ответ на: комментарий от kvpfs 10.07.22 00:41:48 MSK

Разница есть и это общеизвестно. Хотя и не такая огромная, которой я у себя добился как описано выше.

Причём не только из-за виртуальных вызовов, а ещё например и потому, что printf("%s %s\n", "Hello", "World") – это один вызов, а cout << "Hello" << " " << "World" << "\n" – четыре. А если использовать форматирование, то и того больше.

dimgel ★★★★★
(10.07.22 00:43:59 MSK) автор топика
Последнее исправление: dimgel 10.07.22 00:47:30 MSK (всего исправлений: 2)

Ответ на: комментарий от dimgel 10.07.22 00:43:59 MSK

хз, может какой-нибудь formated input тормозит … . Вот другой тест ifstream vs mmap тык (nanxiao.me), так же без разницы. В общем не вижу причин не юзать std::*stream

~~kvpfs~~ ★★
(10.07.22 00:53:16 MSK)

Ссылка

Ответ на: комментарий от dimgel 10.07.22 00:43:59 MSK

Причём не только из-за виртуальных вызовов, а ещё например и потому, что printf(«%s %s\n», «Hello», «World») – это один вызов, а cout << «Hello» << " " << «World» << «\n» – четыре

Ну как бы сишному printf’у тут надо format string распарсить …

В общем ладно, если сишное io такое быстрое, то почему работает медленнее крестового?

#include <stdio.h>
 
int main()
{
	const char *s1 = "dkjfdkjfkdfjkd";
	const char *s2 = "dkjfdkjfkdfjkd";
	const char *s3 = "dkjfdkjfkdfjkd";

	FILE* fp = fopen("/tmp/rr", "w");
	for (int i = 0;  i < 10000000;  ++ i)
		fprintf(fp, "%s %s %s", s1, s2, s3);
}


#include <fstream>
using namespace std;
 
int main()
{
	const char *s1 = "dkjfdkjfkdfjkd";
	const char *s2 = "dkjfdkjfkdfjkd";
	const char *s3 = "dkjfdkjfkdfjkd";

	ofstream f("/tmp/rr2");
	for (int i = 0;  i < 10000000;  ++ i)
		f << s1 << ' ' << s2 << ' ' << s3;
}

$ gcc 1.c -O2 -o ce
$ g++ 2.cpp -O2 -o cppe
$ time ./ce
real    0m4.184s

$ time ./cppe
real    0m2.848s

$ cmp /tmp/rr /tmp/rr2

~~kvpfs~~ ★★
(10.07.22 01:53:53 MSK)

Ссылка

Непонятно что ты хочешь. Какое значение должна функция «чтото_типа_getc» возвращать?

firkax ★★★★★
(10.07.22 02:00:38 MSK)

Ссылка

Реализуй декодер заданной кодировки

mittorn ★★★★★
(10.07.22 02:06:35 MSK)

Ссылка

Ответ на: комментарий от dimgel 10.07.22 00:34:09 MSK

В utf-8 всё кроме ascii больше 127, в utf-1 нет.
для utf-1 поиск ascii может выдавать ложные срабатывания, потому и сделали полностью ascii-совместимый utf-8

mittorn ★★★★★
(10.07.22 02:10:33 MSK)

Честно говоря так и не понял, чем тебя iconv не устроил. Читаешь в буфер сколько-нибудь символов, конвертируешь во что-нибудь, с чем тебе удобно работать, в тот же UTF-8, скажем, и отрабатываешь сконвертированный кусок. Потом следующий и так далее. Хочешь по одному кодопоинту обрабатывать — конвертируй в UTF-32 и в выходном буфере под 4 байта место выделяй, хотя это и не слишком производительно будет, но на фоне I/O вероятно любой код будет достаточно быстрым. Но лучше — UTF-8 и буфер килобайтов на 16.

vbr ★★★★★
(10.07.22 05:52:03 MSK)
Последнее исправление: vbr 10.07.22 05:56:27 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от LINUX-ORG-RU 09.07.22 22:31:13 MSK

там еще коррекция ошибок есть из-за коллизий, те чтобы коныертировать строку в ютф, ее нужно всегда полностью читать, но в высокоуровневых языках можно читать посимвольно…

>>> open('test.txt', 'w').write('писька')
6
>>> open('test.txt').read(1)
'п'

но тут мне, кажется, что какая-то магия и содержимое файла для этого фокуса полностью в оперативку считывается всегда

~~tz4678_2~~
(10.07.22 09:38:30 MSK)

Ответ на: комментарий от tz4678_2 10.07.22 09:38:30 MSK

хотя в питоне могут и не заморачиваться c нормализацией и байты читаюься пока из них отдельный сивол не получится

~~tz4678_2~~
(10.07.22 09:42:32 MSK)

Ссылка

Ответ на: комментарий от mittorn 10.07.22 02:10:33 MSK

utf-1

А что насчёт UCS-2? Под вендой он вроде как довольно популярен.

dimgel ★★★★★
(10.07.22 14:06:52 MSK) автор топика

Ответ на: комментарий от dimgel 10.07.22 14:06:52 MSK

Он вообще насколько я знаю ограничен.
если utf-16 позволяет большой символ разбить на 2 слова, то ucs2 его просто не сможет закодировать и потеряет

mittorn ★★★★★
(10.07.22 14:48:34 MSK)

Ответ на: комментарий от mittorn 10.07.22 14:48:34 MSK

если utf-16 позволяет большой символ разбить на 2 слова, то ucs2 его просто не сможет закодировать и потеряет

Факт (см. example). Но вопрос был про… хм, вопрос был идиотский: ясен хрен что двухбайтную кодировку по байту парсить смысла вообще не имеет.

В общем, кину монетку или либо заюзаю mbrtowc() сразу, либо для начала забью.

dimgel ★★★★★
(10.07.22 14:53:38 MSK) автор топика

Ответ на: комментарий от dimgel 10.07.22 14:53:38 MSK

ИМХО лучше декодер притащить, а не заниматься этой свистопляской с локалью. У кого-ниюудь другая локаль и оно отвалится...

mittorn ★★★★★
(10.07.22 14:58:32 MSK)

Ответ на: комментарий от mittorn 10.07.22 14:58:32 MSK

Не понял. Локаль я буду временно менять программно перед парсингом файлов. С этой точки зрения не вижу разницы с логикой декодирования всего файла с помощью того же iconv().

dimgel ★★★★★
(10.07.22 15:01:00 MSK) автор топика

Ответ на: комментарий от dimgel 10.07.22 15:01:00 MSK

Не меняйте сука локаль
https://github.com/mpv-player/mpv/commit/1e70e82baa9193f6f027338b0fab0f507897...

mittorn ★★★★★
(10.07.22 19:55:13 MSK)

Ссылка

Похожие темы