Rust vs C

3

7

Я Rust не знаю.
Допустим решил я написать быстрый лексер (разбиватель токенов),как я делаю это в Си:

typedef struct {
    const char* text;
    size_t      text_len;
    size_t      text_pos;

    const char* token;
    size_t      token_len;
} lexer_t;
 
void lexer_next_token(lexer_t* lexer);

И я могу получить все токены без выделения памяти,я просто иду по тексту и ставлю lexer_t.token в начало токена, и в token_t.token_len записываю длинну токена.А в расте как сделать подобную вещь?Тоже без выделения памяти естественно (ну кроме стека,где выделяется код возврата и 2 size_t для функии next_token).Верней можно ли сделать такое в расте?

Ссылка

←	Конфлит имён с библиотечным кодом

Indent with tabs, align with spaces

→

← 1 2 3 4 5 6 7 8 9 10 →

help me? ~~RazrFalcon~~

linuhs_user ★
(25.09.17 07:08:10 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 07:08:10 MSK

Можно сделать unsafe указатель,вызывать сишные memcmp,но для этого ли делался раст?)

linuhs_user ★
(25.09.17 07:19:37 MSK) автор топика

Ссылка

Какой-то у вас странный лексический парсер. Толку то от такой структуры? Токены должны быть пронумерованы, идентификаторы — выставлена ссылка на таблицу с типами/значениями. А ваш парсер - ровно половина от всей работы и сам по себе не интересен. По сути потом потребуется ещё проход: читать токены с неудобным интерефейсом start/len и вся «быстрость» будет коту под хвост.

vodz ★★★★★
(25.09.17 07:25:16 MSK)

Ответ на: комментарий от vodz 25.09.17 07:25:16 MSK

Ну добавь в структуру их мысленно,и текущую линию,позицию,etc.Я упрощенно написал,но это самое быстрое что я смог придумать,и мне интересно как делается ЭТО в расте.

с неудобным интерефейсом

man define,inline

linuhs_user ★
(25.09.17 07:27:34 MSK) автор топика

Ссылка

Ответ на: комментарий от vodz 25.09.17 07:25:16 MSK

Я делал от скуки себе лисп-интерпретатор,только добавил в стрктуру bool token_is_string; не знаю какие проблемы ты здесь видишь.

linuhs_user ★
(25.09.17 07:29:48 MSK) автор топика

указатель на текст + его длина — это как раз строковый слайс.
Тебе только нужно дополнительно указывать время жизни твоего лексера.

O02eg ★★★★★
(25.09.17 08:05:05 MSK)
Последнее исправление: O02eg 25.09.17 08:05:34 MSK (всего исправлений: 1)

Ответ на: комментарий от O02eg 25.09.17 08:05:05 MSK

Slice это разве не оверхед?А как будет выглядеть увеличение слайса?Или нужно завести допольнительную переменную длинны токена в функции?

linuhs_user ★
(25.09.17 08:08:58 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 07:29:48 MSK

Я упрощенно написал

Это тот самый случай, когда «ненужно». Сжираем постоянно расширяющуюся память при чтении вместо разумного одного буфера и пачки структур со значениями emun-а ключевых слов или указателя на структуру идентификаторов, где имена аллокируются ровно один раз и в виде удобного zero-terminating.

vodz ★★★★★
(25.09.17 08:11:42 MSK)

Ответ на: комментарий от vodz 25.09.17 08:11:42 MSK

Ты просто не осилил мою идею

linuhs_user ★
(25.09.17 08:16:27 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 08:16:27 MSK

Ты просто не осилил мою идею

Ясен пень, как можно осилить то, чего нет. Тупо расставить start/len на постоянно расширяющейся памяти и назвать это «лексером»...

vodz ★★★★★
(25.09.17 08:20:19 MSK)

Ответ на: комментарий от vodz 25.09.17 08:20:19 MSK

И память у тебя еще какая то расширяется

linuhs_user ★
(25.09.17 08:21:45 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 08:21:45 MSK

Это не у меня, а у вас.

Детский сад этот уже начинает доставать. Если есть что сказать конкретно, а не в виде «сам дурак» то напрягитесь. Тренировать головную мышцу — это полезно.

vodz ★★★★★
(25.09.17 08:24:25 MSK)

Ответ на: комментарий от vodz 25.09.17 08:24:25 MSK

Показывай где память расширяется

linuhs_user ★
(25.09.17 08:25:41 MSK) автор топика

Ответ на: комментарий от vodz 25.09.17 07:25:16 MSK

лексический парсер

:-)

anonymous
(25.09.17 08:26:25 MSK)

Ссылка

И я могу получить все токены без выделения памяти,я просто иду по тексту и ставлю lexer_t.token в начало токена, и в token_t.token_len записываю длинну токена

Как это без выделения памяти? Где же хранится lexer_t.token? Поверх входного файла записывается? Как оно влезает?

anonymous
(25.09.17 08:32:41 MSK)

Ответ на: комментарий от anonymous 25.09.17 08:32:41 MSK

char* text = "hello world";
char* token = &text[6];
size_t token_len = 5;

printf("%*.s\n",(int)token_len,token); // world

linuhs_user ★
(25.09.17 08:34:10 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 08:34:10 MSK

Ну так это не «без выделения памяти». Для произвольного текста память под указатель и длину выделять придётся. Хоть бы в виде линейного буфера.

anonymous
(25.09.17 08:36:14 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 08:25:41 MSK

Показывай где память расширяется

Память при разборе всегда пожирается, так как лексический анализатор не в курсе, на какой стадии находится синтаксический. Но одно дело пожирать память на (лисповские) TOKEN_IS_DEFVAR и т п, вы постояно увеличиваете память буфера чтения исходника на ваши *text/start/len. То есть по сути это не лексер, а входной аллокатор с предварительной расстановки позиций у токенов. Всё бы ничего, если б это действительно было кому-то надо.

vodz ★★★★★
(25.09.17 08:39:15 MSK)

Ответ на: комментарий от anonymous 25.09.17 08:36:14 MSK

Ну под структуру,и текст выделить память конечно придеться.Хотя можно и fread/fseek/etc читать,но вдруг текст придет не из файла. Я имею виду что не надо выделять память под каждый токен,и все такое

linuhs_user ★
(25.09.17 08:39:34 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 08:08:58 MSK

slice это пара (указатель_на_начало, длина), т.е. то, что ты и сделал.

~~Legioner~~ ★★★★★
(25.09.17 08:43:28 MSK)

Ответ на: комментарий от anonymous 25.09.17 08:36:14 MSK

Зачем выделять, если можно сделать mmap.

~~Legioner~~ ★★★★★
(25.09.17 08:44:13 MSK)

Ответ на: комментарий от vodz 25.09.17 08:39:15 MSK

память буфера чтения

Что это?

а входной аллокатор

Аллоцировать не обязательно,можно сохранять позицию и длинну.
-------------------------------
Я вижу процесс таким Текст -> Мой лексер -> Генерируем AST -> Парсим AST
и где тут выделение памяти кроме как под текст,стрктуру лексера,ветвей AST я не вижу (ну еще память может выделятся когда по AST проходимся,но это уже не то)

linuhs_user ★
(25.09.17 08:44:33 MSK) автор топика

Ответ на: комментарий от Legioner 25.09.17 08:43:28 MSK

Понял, а как его в расте увеличивать?Или его надо уже создать с длинной?

linuhs_user ★
(25.09.17 08:45:53 MSK) автор топика

Ответ на: комментарий от Legioner 25.09.17 08:44:13 MSK

mmap в понимирке это не выделение памяти?

anonymous
(25.09.17 08:45:54 MSK)

Ответ на: комментарий от anonymous 25.09.17 08:36:14 MSK

Для произвольного текста

А типа для предыдущего примера под token и token_len память не выделялась. :)

vodz ★★★★★
(25.09.17 08:46:57 MSK)

Ответ на: комментарий от vodz 25.09.17 08:46:57 MSK

В/на стеке.

anonymous
(25.09.17 08:48:04 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 08:45:53 MSK

Надо присвоить ему новое значение.

~~Legioner~~ ★★★★★
(25.09.17 08:49:02 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.09.17 08:45:54 MSK

Это уже операционная система решит, где там и сколько выделять, а не ты со своими кольцевыми буферами и прочими ритуальными плясками.

~~Legioner~~ ★★★★★
(25.09.17 08:50:00 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 08:44:33 MSK

Аллоцировать не обязательно,можно сохранять позицию и длинну.

А следующий проход будет снова читать из файла по этим позициям?! Охренеть нужный лексер.

vodz ★★★★★
(25.09.17 08:51:29 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 08:45:53 MSK

с длиннной

anonymous
(25.09.17 08:51:30 MSK)

Ссылка

Ответ на: комментарий от Legioner 25.09.17 08:50:00 MSK

Всё с вами понятно.

anonymous
(25.09.17 08:52:54 MSK)

Ссылка

Ответ на: комментарий от vodz 25.09.17 08:51:29 MSK

Ну сохрани нужные для прохода секции,мне этот лексер не для многопроходных текстов надо.

linuhs_user ★
(25.09.17 08:54:29 MSK) автор топика

Ответ на: комментарий от anonymous 25.09.17 08:48:04 MSK

В/на стеке.

А это типа не память :) Это мало того, что память, так ещё и ограниченная и медленная при первом расширении. Ладно бы сказали, что в регистрах оно бы поместилось :))

vodz ★★★★★
(25.09.17 08:55:32 MSK)

Ответ на: комментарий от linuhs_user 25.09.17 08:54:29 MSK

Ну сохрани нужные для прохода секции

Причём тут ваши «ну», если речь ровно о том, а) почему ваш лексер эталонное ненужно и б) как на самом деле делается.

не для многопроходных текстов надо.

Вы так нихрена не поняли. Ваш лексер потому и бесполезен, что требует второй проход обязательно - надо понять что за токены скрываются в ваших *text, вместо того, чтобы как положенно лексеру вписать в структуру сразу TOKEN_XXX.

vodz ★★★★★
(25.09.17 08:59:19 MSK)

Ответ на: комментарий от vodz 25.09.17 08:55:32 MSK

32 битных регистров как раз хватает на стрктуру и функцию)

linuhs_user ★
(25.09.17 08:59:32 MSK) автор топика

Ссылка

Ответ на: комментарий от vodz 25.09.17 08:59:19 MSK

надо понять что за токены скрываются в ваших *text

Текст там скрывается.Его получить можно

вписать в структуру сразу TOKEN_XXX

Что это такое?Тип токена?Я и говорю добавь в стрктуру enum token_type;

linuhs_user ★
(25.09.17 09:01:05 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 09:01:05 MSK

Что это такое?

Это то, для чего лексер и нужен, работа у него такая, если вы не в курсе.

Я и говорю добавь в стрктуру enum token_type;

Тяжёлый случай. Нахрена добавлять, если надо заменять ваши ненужные text ?

vodz ★★★★★
(25.09.17 09:05:34 MSK)

Ответ на: комментарий от vodz 25.09.17 09:05:34 MSK

Тяжёлый случай

Может тогда тебе стоит сейчас уже обратиться к врачу?

если надо заменять ваши ненужные text

Какой смысл заменять?В памяти ничего не занимает,читай вместо текста тип токена,если он есть.Что не так?Тогда показывай мне пример,код какой нибудь который надо лексить/парсить,и где конкретно в моем лексере будет проблема

linuhs_user ★
(25.09.17 09:08:25 MSK) автор топика

Вот тоби решение на Расте. Я немного схалявничал с итераторами (skip_while), но замена на нормальную итерацию в общем тривиальна http://goo.gl/h5SSMR

&str - толстый указатель, фактически состоит из указателя на начало и длины.

khrundel ★★★★
(25.09.17 09:10:05 MSK)
Последнее исправление: khrundel 25.09.17 09:13:58 MSK (всего исправлений: 2)

Ответ на: комментарий от khrundel 25.09.17 09:10:05 MSK

Так понятнее, спасибо.Попробую сейчас свой набросать

linuhs_user ★
(25.09.17 09:19:22 MSK) автор топика

Ссылка

Ответ на: комментарий от khrundel 25.09.17 09:10:05 MSK

Можно было и типаж итератора сделать.

O02eg ★★★★★
(25.09.17 09:20:25 MSK)

Ссылка

Ответ на: комментарий от khrundel 25.09.17 09:10:05 MSK

Я вообщем неосилил)),а чем плох skip_while?

linuhs_user ★
(25.09.17 09:38:40 MSK) автор топика

Ответ на: комментарий от linuhs_user 25.09.17 09:08:25 MSK

Может тогда тебе стоит сейчас уже обратиться к врачу?

Всегда интересовал вопрос, какой диагноз у взрослых людей, прибегающих к такому детсадовскому «аргументу». Слабоумие? Нет нет, это не вам, для вас этот вопрос риторический.

Какой смысл заменять?

Какой смысл оставлять ненужное?

В памяти ничего не занимает

Похоже всё тщетно. Проще забанить вас.

vodz ★★★★★
(25.09.17 09:42:40 MSK)

Ответ на: комментарий от vodz 25.09.17 09:42:40 MSK

к такому детсадовскому «аргументу»

Говорить про диагнозы и говорить что знаешь какую то истину,это 'по взрослому' ага))

Похоже всё тщетно. Проще забанить вас.

Лол

linuhs_user ★
(25.09.17 09:44:46 MSK) автор топика

Ссылка

Ответ на: комментарий от linuhs_user 25.09.17 09:38:40 MSK

Ну, подразумевается, что лексический анализ сложнее сравнения с пробелом. Что-нибудь типа 0x123 скипвайлом не распарсить

khrundel ★★★★
(25.09.17 09:44:58 MSK)

Ответ на: комментарий от khrundel 25.09.17 09:44:58 MSK

Ну добавить в него побольше проверок для разбивающих элементов к примеру,я думал что он тормозной просто.

linuhs_user ★
(25.09.17 09:46:06 MSK) автор топика

Подозреваю, что будет типа

struct lexer_t {
    text: &'static str,
    token: &'static str,
} 

impl lexer_t {
    fn lexer_next_token(&self) {
        // ...
    }
}

upd: Пропущены поля специально т.к. скорее всего они нам не понадобятся.

Но лучше, напишите как Вы видите lexer_next_token и я сделаю компилируемый аналог на расте

AntonyRF ★★★★
(25.09.17 09:46:38 MSK)
Последнее исправление: AntonyRF 25.09.17 09:48:10 MSK (всего исправлений: 1)

Ответ на: комментарий от linuhs_user 25.09.17 09:46:06 MSK

Обещают, что оптимизатор всё заинлайнит, не должен быть тормозным. Сам не проверял.

khrundel ★★★★
(25.09.17 09:47:36 MSK)

Ссылка

Ответ на: комментарий от AntonyRF 25.09.17 09:46:38 MSK

Статик не покатит, вряд ли кому нужен лексер, умеющий парсить только строковые литералы

khrundel ★★★★
(25.09.17 09:48:52 MSK)

Неправильно ты задачу поставил. В С еще можно на месте декодировать всякие base64, URL encoding, убирать двойные кавычки, добавлять \0 вместо разделителей и пр. А потом по частям раздать в другие функции или хранить как уже готовые данные. Можно и на Rust, конечно, но будет сложнее и для написания и для использования.

anonymous
(25.09.17 09:51:39 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 7 8 9 10 →

←	Конфлит имён с библиотечным кодом

Development

Indent with tabs, align with spaces

→

Похожие темы