Проблемы с regex.h

0

1

Пытаюсь разбить строку на токены, выцепить числа, строки и т д, использую regex.h. Ф-ция

regexec(&(tok_regex[i].regex), str, 1, match, 0)

записывает в match->rm_so номер, соответствующий первому элементу совпавшей строки, в match->rm_eo — оконечному. Для всех необходимых регулярок оно возвращает ожидаемые значения, а вот для строки

"^[A-Za-z]+"

возвращает match->rm_so = 0, match->rm_eo = 0. Так же не должно быть, как вытащить строку?

Полный листинг:

http://pastebin.com/E2J9Ndjc

http://pastebin.com/wXPXrDXj

Ссылка

← Подавить предупреждение initialization from incompatible pointer type

Отправка html документа в теле письма через Mutt →

Наверно надо regcomp с REG_NEWLINE флагом

Elyas ★★★★★
(30.07.15 15:02:03 MSK)

Ты можешь обоснованно объяснить почему ты не используешь lex?

beastie ★★★★★
(30.07.15 15:05:10 MSK)

Ответ на: комментарий от beastie 30.07.15 15:05:10 MSK

наверное html парсит

anonymous
(30.07.15 15:21:21 MSK)

Ответ на: комментарий от beastie 30.07.15 15:05:10 MSK

Да я потом перепишу на lex, но сейчас у меня уже есть прототип лексического анализатора на питоне (он достаточно простой, потому быстрее было написать его руками), хотел просто переписать на си, заодно разобраться в сишных регулярках, но регулярки отказываются работать, или работают как-то не так.

Например для строки

12.1+12i blablabla

и регулярки

"^(\\-)?[0-9]*\\.?[0-9]*((\\+|\\-)[0-9]*\\.?[0-9]*i)?"

match->rm_so = 0, match->rm_eo = 8.

А для

blablabla 12.1+12i

"^[A-Za-z]+"

match->rm_so = 0, match->rm_eo = 0.

Есть идеи, почему так?

Freyr69 ★★★
(30.07.15 15:44:19 MSK) автор топика
Последнее исправление: Freyr69 30.07.15 15:45:15 MSK (всего исправлений: 1)

Ответ на: комментарий от Elyas 30.07.15 15:02:03 MSK

Не, не работает.

Freyr69 ★★★
(30.07.15 15:44:31 MSK) автор топика

Ссылка

Ответ на: комментарий от Freyr69 30.07.15 15:44:19 MSK

На вскидку:

"^([A-Za-z]+)"

PS: пиши сразу на lex/yacc. Это в мульён раз проще и производительней, чем переписывать лапшу на regex.

beastie ★★★★★
(30.07.15 15:58:40 MSK)
Последнее исправление: beastie 30.07.15 15:59:56 MSK (всего исправлений: 1)

Ответ на: комментарий от beastie 30.07.15 15:58:40 MSK

Ага, спасибо, перепишу сразу, да, нашел и косяк.

Freyr69 ★★★
(30.07.15 16:06:54 MSK) автор топика

Ссылка

Генератор лексеров прямо из регулярок (генерит код в пару раз быстрее lex): http://re2c.org/manual.html

Пример лексера языка C: https://github.com/skvadrik/re2c/blob/master/re2c/examples/c.re

sf ★★★
(31.07.15 22:36:31 MSK)

Ответ на: комментарий от sf 31.07.15 22:36:31 MSK

О, спасибо.

Freyr69 ★★★
(01.08.15 10:35:24 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 30.07.15 15:21:21 MSK

Я парсю HTML регулярками и ничего!

anonymous
(01.08.15 15:15:27 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Подавить предупреждение initialization from incompatible pointer type

Development

Отправка html документа в теле письма через Mutt →

Похожие темы