Rust vs C

3

7

Я Rust не знаю.
Допустим решил я написать быстрый лексер (разбиватель токенов),как я делаю это в Си:

typedef struct {
    const char* text;
    size_t      text_len;
    size_t      text_pos;

    const char* token;
    size_t      token_len;
} lexer_t;
 
void lexer_next_token(lexer_t* lexer);

И я могу получить все токены без выделения памяти,я просто иду по тексту и ставлю lexer_t.token в начало токена, и в token_t.token_len записываю длинну токена.А в расте как сделать подобную вещь?Тоже без выделения памяти естественно (ну кроме стека,где выделяется код возврата и 2 size_t для функии next_token).Верней можно ли сделать такое в расте?

Ссылка

←	Конфлит имён с библиотечным кодом

Indent with tabs, align with spaces

→

← 1 2 3 4 5 6 7 8 9 10 →

Ответ на: комментарий от khrundel 25.09.17 09:48:52 MSK

Да пофиг, это абстрактный пример. Пусть чувак оформит свое виденье lexer_next_token и сделаю аналог нормально.

AntonyRF ★★★★
(25.09.17 09:54:42 MSK)

Ответ на: комментарий от AntonyRF 25.09.17 09:46:38 MSK

Спасибо,накидал простой код на С
https://pastebin.com/t37H6pem

linuhs_user ★
(25.09.17 10:03:51 MSK) автор топика

Ответ на: комментарий от AntonyRF 25.09.17 09:54:42 MSK

Я на расте не понимаю как это написать,поэтому и вопрос тут задал)Не со зла на С пишу..))

linuhs_user ★
(25.09.17 10:05:40 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 10:03:51 MSK

Спасибо,накидал простой код на С

https://linux.die.net/man/3/strtok

anonymous
(25.09.17 10:06:17 MSK)

Ответ на: комментарий от anonymous 25.09.17 10:06:17 MSK

https://linux.die.net/man/3/strtok

Он всё равно не поймёт, что это не лексер, хоть у него и вариант без записи '\0' в исходный буфер, чем strtok иногда плоха, например для mmap на файл.

vodz ★★★★★
(25.09.17 10:11:26 MSK)

Ответ на: комментарий от anonymous 25.09.17 10:06:17 MSK

Щас аргументированно отвечу)подожди,я сонный не могу понять баг..))

linuhs_user ★
(25.09.17 10:12:47 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 10:03:51 MSK

Ох, ну придётся подождать, а то тут параллельно ещё работать заставляют =)

AntonyRF ★★★★
(25.09.17 10:17:54 MSK)

Ответ на: комментарий от AntonyRF 25.09.17 10:17:54 MSK

Без проблем,хоть завтра)
https://pastebin.com/SkKXvk5e
Я тут 1 if добавил и изменил i+1 на i в середине,но вдруг это сильно повлияет на алгоритм

linuhs_user ★
(25.09.17 10:21:45 MSK) автор топика

Ответ на: комментарий от anonymous 25.09.17 10:06:17 MSK

https://pastebin.com/SkKXvk5e
И так,я добавил 1 if и как видишь мой лексер стал лучше стртока.Выведет hello , world

linuhs_user ★
(25.09.17 10:22:43 MSK) автор топика

Ответ на: комментарий от vodz 25.09.17 10:11:26 MSK

Это ты не можешь понять что можно добавить различные параметры к токену.

linuhs_user ★
(25.09.17 10:27:04 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 10:22:43 MSK

Вот, смотри, написал твой парсер на комбинаторах, совсем без аллокаций и с нормальным энумом по типу.

https://play.rust-lang.org/?gist=ec99845a6d4a920e67da31b51c638b7b&version...

Печатает

Ident("Hello")
Comma
Space
Ident("World")
"!"

pftBest ★★★★
(25.09.17 10:30:22 MSK)

Ответ на: комментарий от pftBest 25.09.17 10:30:22 MSK

Он возвращает слайсы на оригинальную строку?

linuhs_user ★
(25.09.17 10:35:48 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 10:35:48 MSK

Да, конечно, я же говорю, без аллокаций

pftBest ★★★★
(25.09.17 10:37:33 MSK)

Ответ на: комментарий от pftBest 25.09.17 10:30:22 MSK

Вот, смотри, написал твой парсер
extern crate nom;

читер ;)

anonymous
(25.09.17 10:46:14 MSK)

Ссылка

Ответ на: комментарий от pftBest 25.09.17 10:37:33 MSK

А сделаешь с пропуском пробелов и чтоб захватывал только слова A-Za-z и запятые?Сравнить с Си надо)

linuhs_user ★
(25.09.17 10:52:44 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 10:52:44 MSK

Все остальное должен пропускать

linuhs_user ★
(25.09.17 10:54:32 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 10:54:32 MSK

Ты хочешь скорость работы сравнить?

pftBest ★★★★
(25.09.17 10:55:53 MSK)

Ответ на: комментарий от pftBest 25.09.17 10:55:53 MSK

А зачем мне тогда такой лексер то нужен?)Да хочу

linuhs_user ★
(25.09.17 11:00:02 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 11:00:02 MSK

Ну требования разные бывают. В таком виде как сейчас парсер работает с юникод строками, и понимает и русские и китайские буквы, можешь убедится написав «Привет Мир» вместо «Hello world» и оно успешно его распарсит.

Если тебе юникод не нужен и нужна сырая производительность на латинских буквах, то работать надо не со строками, а с байтами как в сишке. Но для этого парсер надо подправить.

pftBest ★★★★
(25.09.17 11:13:36 MSK)

Ответ на: комментарий от pftBest 25.09.17 11:13:36 MSK

Я реализую юникоды)Хотя можно проще,пусть разбивает все на токены,пробелы это разделители которые не сохраняются,а запятые тоже разделители но сохраняются

linuhs_user ★
(25.09.17 11:22:20 MSK) автор топика

Ответ на: комментарий от pftBest 25.09.17 11:13:36 MSK

Вообще-то utf-8 как раз придумали для того, чтобы не приставали с вопросами как работать: с байтами или символами. Ничего же не меняется. Какая разница в «привет» и в «п©я─п╦п╡п╣я┌» и тем более в пробельных символах? Нате вам многобайтные разнобайтодлинные строки и мучайтесь с вашими папуасскими языками сами, если вам нужны токены «еще» == «ещё»

vodz ★★★★★
(25.09.17 11:32:17 MSK)

Пц вы срач развели. Ну хочет человек сперва разбить текст на разумно выглядящие токены а потом ихуже парсить не морочась от тип символов. Так це умно.

Мое возражение только в том, что надо просто сделать вектор со смещениями. Т.е вектор из пар (начало, конец)

~~ckotinko~~ ☆☆☆
(25.09.17 11:33:47 MSK)

Ответ на: комментарий от vodz 25.09.17 11:32:17 MSK

Так фишка в том что раст проверяет корректность всех этих многобайтных символов когда преобразует из байт в строку, чтобы все по стандарту было.

pftBest ★★★★
(25.09.17 11:34:42 MSK)

Ссылка

Ответ на: комментарий от ckotinko 25.09.17 11:33:47 MSK

Ну хочет человек сперва разбить текст

Да наздоровье. Но у нас свобода слова. Другой человек хочет ему объяснить, что это не лексер и вообще эталонное ненужно, ибо бесполезное пожирание памяти.

Так це умно.

Вы сами то поняли что сказали? Умно потому что человек хочет?! Ну ахренеть доказательство!

vodz ★★★★★
(25.09.17 11:41:08 MSK)

Ответ на: комментарий от vodz 25.09.17 11:41:08 MSK

Ну ахренеть доказательство!

Выпий яду уже)Я тебя просил показать пример,а ты «типо не увидел».Слишком толсто

linuhs_user ★
(25.09.17 11:42:54 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 11:22:20 MSK

Так хорошо, а как мерять будешь? Читать текст из файла? Давай сразу определимся по формату, мне самому интересно стало насколько юникод повлияет на скорость.

pftBest ★★★★
(25.09.17 11:44:54 MSK)

Ответ на: комментарий от pftBest 25.09.17 11:44:54 MSK

Какое нибудь предложение размножить на 10 Мб,и пусть из файла читает.А мерять через time только умею))Как правильно?

linuhs_user ★
(25.09.17 11:46:00 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 11:46:00 MSK

Интересно, а такой парсер из 2-х строк подойдёт? =)

fn main() {
    let v: Vec<&str> = "Hello, World!".split(|c| c == ' ' || c == ',').collect();
    println!("{:?}", v);
}

https://play.rust-lang.org/?gist=ec99845a6d4a920e67da31b51c638b7b&version...

AntonyRF ★★★★
(25.09.17 11:52:30 MSK)

Ответ на: комментарий от AntonyRF 25.09.17 11:52:30 MSK

[«Hello», "", «World!»]

Запятая потерялась)

linuhs_user ★
(25.09.17 11:54:18 MSK) автор топика

Ссылка

Ответ на: комментарий от ckotinko 25.09.17 11:33:47 MSK

Мое возражение только в том, что надо просто сделать вектор со смещениями. Т.е вектор из пар (начало, конец)

Зачем хранить смещение, если можно сразу хранить указатель? Потом же удобней будет работать.

anonymous
(25.09.17 11:55:02 MSK)

Ссылка

Ответ на: комментарий от AntonyRF 25.09.17 11:52:30 MSK

Надо так:
«Hello, World!» -> [«Hello» and "," and «World!»]

linuhs_user ★
(25.09.17 11:55:27 MSK) автор топика

Ответ на: комментарий от vodz 25.09.17 09:42:40 MSK

Всегда интересовал вопрос, какой диагноз у взрослых людей, прибегающих к такому детсадовскому «аргументу».

А какой диагноз у тех, кто уходит от сути вопроса и разговаривает сам с собой? Чего вы прицепились к лексеру? Перечитайте еще раз вопрос ТСа и спрячьте свой снобизм как можно глубже.

andreyu ★★★★★
(25.09.17 12:51:11 MSK)

Ответ на: комментарий от andreyu 25.09.17 12:51:11 MSK

vodz, ты забил ветку своим выпендрежем «я знаю как пишут сканеры!», а на вопрос ТС не ответил.

anonymous
(25.09.17 12:54:23 MSK)

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 11:55:27 MSK

Вот, сделал пример который просто считает количество токенов первого и второго типа и пропускает пробелы. Его можно взять за базу чтобы начать оптимизировать.

https://play.rust-lang.org/?gist=644e31bafffef563f46d587728ecbed8&version...

pftBest ★★★★
(25.09.17 12:57:02 MSK)
Последнее исправление: pftBest 25.09.17 12:57:17 MSK (всего исправлений: 1)

Ответ на: комментарий от linuhs_user 25.09.17 07:08:10 MSK

Вот тебе allocation-free парсер без извращений с указателями, unsafe и паник: https://github.com/RazrFalcon/libsvgparser

~~RazrFalcon~~ ★★★★★
(25.09.17 13:00:55 MSK)
Последнее исправление: RazrFalcon 25.09.17 13:02:00 MSK (всего исправлений: 1)

Ответ на: комментарий от RazrFalcon 25.09.17 13:00:55 MSK

Лучше devel ветку смотреть, там свежее: https://github.com/RazrFalcon/libsvgparser/tree/devel

~~RazrFalcon~~ ★★★★★
(25.09.17 13:11:39 MSK)

Ответ на: комментарий от RazrFalcon 25.09.17 13:11:39 MSK

Спасибо,разберусь после тестов с парсером pftBest)

linuhs_user ★
(25.09.17 13:18:06 MSK) автор топика

Ссылка

Ответ на: комментарий от vodz 25.09.17 11:41:08 MSK

Да, это не лексер. я с вами согласен.

Штука в том, что совмещение лексера с ковырянием в символах настолько усложнит программу, что лучше сделать так. Чел прав идеологически и копает в правильном направлении. Сперва раскрошить на заведомо однородные недотокены, а потом их уже конкретно разобрать в нормальные токены.

бесполезное пожирание памяти

Не жидитесь. Ну неужели вы думаете, что в нормальной программе может быть файл размером в хотя бы полмегабайта? это уже необслуживаемый код. Подход с вектором дает нам максимум 5 мегабайт памяти для мегабайтного файла при условии что там все токены по одному символу и пробелов нет. У вас нет пяти мегабайт? Выкиньте свой 486й и купите хотя бы пентиум-2.

~~ckotinko~~ ☆☆☆
(25.09.17 13:22:35 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 11:22:20 MSK

заведи сперва вектор из пар (size_t, size_t). можно даже (uint,uint). Не думаю что тебе файл в 2 гигабайта встретится. Просто иди по файлу и выделяй последовательности явно напоминающие токены. Даже не парсь их. Составь список возможных токенов и типов символов входящих в них. Можно regex написать, или просто finite state machine с strchr для определения попадания в допустимый набор использовать. Если язык допускает разночтения уже на этом уровне - выкинь его нах, настрадаешься потом. Этот язык уже не распарсиваемый. Для уникода в utf8 есть GLib с набором функций для хождения по тексту.

https://developer.gnome.org/glib/stable/glib-Unicode-Manipulation.html

Тебе сейчас местные алени расскажут «как надо», хотя сами они парсеров никогда не писали. Они просто «художники, они так видят».

~~ckotinko~~ ☆☆☆
(25.09.17 13:29:14 MSK)

Ответ на: комментарий от pftBest 25.09.17 12:57:02 MSK

cargo build --release
...
time ./target/release/speed-lexer
real	0m0,329s
user	0m0,329s
sys	0m0,000s

gcc my.c
...
time ./a.out
real	0m0,273s
user	0m0,256s
sys	0m0,017s

https://pastebin.com/B2DuVjcE
Сейчас попробую в char32_t транслировать

linuhs_user ★
(25.09.17 13:43:31 MSK) автор топика

Ответ на: комментарий от ckotinko 25.09.17 13:29:14 MSK

Спасибо,за ссылку особенно

linuhs_user ★
(25.09.17 13:49:09 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 13:49:09 MSK

вообще то что тут пишут в коментах - атас атасный. ты не олимпиаде, где надо минимум памяти использовать. абсолютно правильно работу поделить на обслуживаемые непересекающиеся этапы. сделал раз, убедился что на выходе нормальные данные, токены четко огорожены спереди и сзади.

сделал два - прошел по токенам, опознал скобки, keywords, выделил scopeы.

если у тебя редактор, то ты уже можешь например по вводу { или } понимать, что перепарсивать надо за пределами текущего scope(но делать это надо по таймеру - через 3-5 секунд после того, как кончили клацать). а пока чел пишет - только в пределах scope.

сделал три - выделил выражения. может что-то подсветил.

быстрый лексер на практике во-первых не нужен - последовательное приближение может быть быстрее самого алгоритмически-быстрого лексера просто потому что оно дружелюбнее к кэшу. во-вторых, а зачем? +-15% от времени компиляции погоды не сделают а в IDE как я выше писал, надо перепарсивать минимум возможного. В идеале скобки {} (для С например) должны быть вообще принудительными и нередактируемыми. Я вот так и сделал, например.

~~ckotinko~~ ☆☆☆
(25.09.17 14:00:14 MSK)

Ответ на: комментарий от ckotinko 25.09.17 13:29:14 MSK

Не подскажешь как прочесть файл в массив char32_t (Unicode)?

linuhs_user ★
(25.09.17 14:03:28 MSK) автор топика

Ссылка

Ответ на: комментарий от ckotinko 25.09.17 14:00:14 MSK

А я обычно парсю лиспы да хтмль)Мне этого хватает,пока не занимался чем то сложным

linuhs_user ★
(25.09.17 14:04:52 MSK) автор топика

Ссылка

Ответ на: комментарий от pftBest 25.09.17 12:57:02 MSK

unsafe

Отличная история.

anonymous
(25.09.17 14:06:38 MSK)

Ответ на: комментарий от anonymous 25.09.17 14:06:38 MSK

Почему нет? Ты знаешь вообще зачем он там?

pftBest ★★★★
(25.09.17 14:08:58 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 13:43:31 MSK

Выложи датасет.

anonymous
(25.09.17 14:09:54 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 10:21:45 MSK

Без проблем,хоть завтра)
https://pastebin.com/SkKXvk5e

Вот мой пример, он хоть и не 100% точная копия, но постарался сделать похоже:

https://play.rust-lang.org/?version=stable&mode=release

AntonyRF ★★★★
(25.09.17 14:11:15 MSK)

Ответ на: комментарий от pftBest 25.09.17 14:08:58 MSK

Почему нет? Ты знаешь вообще зачем он там?

Это неважно зачем он там - важно то, что он там есть. Как же безопасность?

anonymous
(25.09.17 14:11:35 MSK)

Ответ на: комментарий от anonymous 25.09.17 14:11:35 MSK

Она тут не нарушается

pftBest ★★★★
(25.09.17 14:12:00 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 7 8 9 10 →

←	Конфлит имён с библиотечным кодом

Development

Indent with tabs, align with spaces

→

Похожие темы