[regexp][noob] Глупый вопрос по регулярке.

есть строка вида '*tag *tag2 *tag3 More text...'

Хочу получить список тегов и текст, например, ('tag', 'tag2', 'tag3','More text...')

Написал такое выражение '(?:\*([\w]+)(?:\s|))+[\s]+(.+)'

что то не очень работает, хотя в теории должно работать. засада в повторении группы, у меня всегда получается ('tag3','More text...'), т.е. только последний тег и текст.

Где я ошибся?

Ссылка

← Разыскивается дока по Agile

Audio codecs development →

Сижу пытаюсь разобраться при помощи вот этого сайтеца http://realcode.ru/regexptester/

Apkawa
(21.11.10 20:30:55 MSK) автор топика

Ссылка

Если я правильно понял постановку задачи, с помощью только регулярных выражений такое невозможно, более правильно тут написать грамматику на yacc/bison

annoynimous ★★★★★
(21.11.10 20:34:14 MSK)

описывается выражением (\*(\w+)\s+)*(.*)
но вытащить из одних и тех же скобок несколько выражений ИМХО невозможно

FollowTheRabbit ★
(21.11.10 20:38:11 MSK)

Ссылка

Ответ на: комментарий от annoynimous 21.11.10 20:34:14 MSK

получается, что надо разбирать регуляркой в два этапа, сначала вытащить теги, потом остальное.

Apkawa
(21.11.10 20:47:38 MSK) автор топика

/(\*\w+|\S.*)/g

arsi ★★★★★
(21.11.10 20:52:09 MSK)

Ответ на: комментарий от arsi 21.11.10 20:52:09 MSK

>/(\*\w+|\S.*)/g
*tag1 not_a_tag *tag2 *tag3 More text...

FollowTheRabbit ★
(21.11.10 20:56:57 MSK)

Ответ на: комментарий от FollowTheRabbit 21.11.10 20:56:57 MSK

> *tag1 not_a_tag *tag2 *tag3 More text...

стартовый топик читал, нет?

arsi ★★★★★
(21.11.10 21:00:34 MSK)

Ответ на: комментарий от arsi 21.11.10 20:52:09 MSK

Это всё ещё регулярное выражение? Какая будет регулярная грамматика для него?

~~Yareg~~ ★★★
(21.11.10 21:05:37 MSK)

Ссылка

Ответ на: комментарий от arsi 21.11.10 21:00:34 MSK

>стартовый топик читал, нет?

Бывают случаи некорректного ввода. Например тег из 2 слов. И даже корректная строка вида «*tag1 *tag2 *tag3 More text *not_a_tag...» Будет обработана неправильно. В «more text» не запрещены строки вида «*not_a_tag», например «2 *3=6», так что я бы не стал использовать регулярку не зная на 100%, что получу именно то, что нужно, в т.ч. при возможных некорректных аргументах.

FollowTheRabbit ★
(21.11.10 21:37:36 MSK)

Ответ на: комментарий от FollowTheRabbit 21.11.10 21:37:36 MSK

ты зачем сам с собой споришь?

*tag1 not_a_tag *tag2 *tag3 More text...

это будет «*tag1 More text...», потому, что

В «more text» не запрещены строки вида «*not_a_tag»

или и правда стартовый топик не читал?

arsi ★★★★★
(21.11.10 21:44:57 MSK)

Ответ на: комментарий от arsi 21.11.10 21:44:57 MSK

туплю. вижу то, чего не было

FollowTheRabbit ★
(21.11.10 21:59:02 MSK)

Ссылка

Ответ на: комментарий от Apkawa 21.11.10 20:47:38 MSK

Проблема не в этом. На регулярных выражениях невозможно сказать «делай что-то, пока не...», т.е. грубо говоря, сделать рекурсию или цикл с неизвестным заранее числом повторений. Для такой задачи надо комбинировать что-то вроде:
1. Разбить строку на tag1 и остаток
2. В остатке искать tag2
...
пока не закончится список тегов.

как только закончился, в ответе список тегов + остаток, не содержащий ни одного из них.

annoynimous ★★★★★
(21.11.10 22:25:15 MSK)

Ответ на: комментарий от annoynimous 21.11.10 22:25:15 MSK

Кстати, в своем первом совете я был не прав. Тебе нужен не yacc/bison, в (f)lex — генератор лексических анализаторов. Он как раз и занимается тем, что генерирует список лексемм из заданной строки.

annoynimous ★★★★★
(21.11.10 22:29:29 MSK)