[regexp] простая задачка

0

0

Надо разделить текстовую строчку по знакам препинания и EOL. Нужно сохранить разделители, чтобы потом можно было собрать абзац (все элементы запихиваются в базу).

Я сделал вот такое (python):

re.split("([\.,:;!\?]?\s)", S)

Но возвращает лишние значения в конце списка. Подскажите более грамотный регексп, плиз.

Да, в конце строки может не оказаться EOL (напр. конец файла).

Ссылка

← Поддержка сопирайта в исходниках. Правка даты.

прога на С + alsa →

Да, забыл сказать - знаки препинания нужны только те, что указаны.

frpaul ★★
(19.02.10 12:56:14 MSK) автор топика

Ссылка

напиши хоть, что должно получиться, а то совершенно непонятно.

anonymous
(19.02.10 13:01:38 MSK)

если правильно понял, как-то так:

pat = re.compile(r'[\.,:;!\?\n]|[^\.,:;!\?\n]+', re.M | re.S | re.U)
tokens = pat.findall(text)

только это, питона не знаю, хз что я там написал, но вроде работает :)

arsi ★★★★★
(19.02.10 13:09:27 MSK)

Ссылка

Ответ на: комментарий от anonymous 19.02.10 13:01:38 MSK

У меня должен получиться список типа ['слово', 'пробел', 'слово', 'запятая пробел'].

Сомневаюсь, что whitespace символы вообще нужно сохранять, кроме EOL. Но проблема именно в последнем. EOL нужно записать - из-за него же появляются лишние элементы в конце списка (строка оканчивается на EOL).

frpaul ★★
(19.02.10 13:14:04 MSK) автор топика

Ответ на: комментарий от frpaul 19.02.10 13:14:04 MSK

А лучше даже list of tuples (извините, не помню как эти тупли по русски). [(word, splitter),(word, splitter)]

frpaul ★★
(19.02.10 13:16:44 MSK) автор топика

Ответ на: комментарий от frpaul 19.02.10 13:16:44 MSK

>tuples
переводят как кортеж

dimon555 ★★★★★
(19.02.10 13:20:55 MSK)

Ссылка

Ответ на: комментарий от frpaul 19.02.10 13:14:04 MSK

> 'запятая пробел'

тогда примерно так:

\r?\n|\r|[,:;!\?]?\.*\s|[^\.,:;!\?\s]+

> EOL нужно записать - из-за него же появляются лишние элементы в конце списка (строка оканчивается на EOL).

не распарсил…

arsi ★★★★★
(19.02.10 13:21:10 MSK)

Ответ на: комментарий от arsi 19.02.10 13:21:10 MSK

> EOL нужно записать - из-за него же появляются лишние элементы в >конце списка (строка оканчивается на EOL).

Nevermind. Суть в том, что мой регексп работает нормально, пока в конце строки, которую я пытаюсь парсить, не поставишь EOL. Тогда в списке появляются лишние элементы (eol'ы). Не пойму откуда берутся.

frpaul ★★
(19.02.10 13:28:33 MSK) автор топика

Ссылка

Ответ на: комментарий от arsi 19.02.10 13:21:10 MSK

попробовал так:
[,:;!\?]?\.*\s|[^\.,:;!\?\s]+
(отрезал начало с переводами каретки).

пропали лишние EOL в полученном списке.

Пытаюсь понять, как работает регексп:
Группа (после или (|) - понятно: ловим чистое слово без указанных знаков препинания и white space.
А с первой частью я что-то не разберусь.

frpaul ★★
(19.02.10 14:16:04 MSK) автор топика

юзай re.compile - оно в 2 раза быстрее

VladimirMalyk ★★★★★
(19.02.10 14:21:09 MSK)

Ответ на: комментарий от VladimirMalyk 19.02.10 14:21:09 MSK

>юзай re.compile - оно в 2 раза быстрее

Да, спасибо, уже заюзал. Просто пока в стадии отладки регекспа - это некритично.

frpaul ★★
(19.02.10 14:26:35 MSK) автор топика

Ссылка

Ответ на: комментарий от frpaul 19.02.10 14:16:04 MSK

> А с первой частью я что-то не разберусь.

[,:;!\?]?\.*\s

хм… не, лучше так: «[,:;!\?]*\.*\s», а то варианты «!!!», «!?..» и т.п. отлавливать не будет, только «...», «!..», «?..», … :(
а если русаб парсить, то тогда вообще «[\.,:;!\?]*\s» для всяких там «....?», «...!...!!...» и т.п. ;)

arsi ★★★★★
(19.02.10 14:40:27 MSK)

Ответ на: комментарий от arsi 19.02.10 14:40:27 MSK

Я догадался и выпилил \.* - в этих текстах таких сочетаний нету. Ну разве что многоточие. Хм... :) Тогда \.{1, 3} что ли?

В общем проблему я вычислил.
Строки почему-то оканчиваются _пробелом_ и eol.
Плюс к тому - \r и \n распознаются по-отдельности, а надо - заодно «\r\n».

frpaul ★★
(19.02.10 15:01:01 MSK) автор топика

Ответ на: комментарий от frpaul 19.02.10 15:01:01 MSK

Еще раз поясню: «слово» один элемент, все что после «слова» (означенные знаки препинания и whitespace'ы) - другой элемент. Когда то, что идет после слова - сегментируется на более мелкие детали, то нарушается чередование слов и служебных символов в итоговом списке.

frpaul ★★
(19.02.10 15:05:27 MSK) автор топика

Ответ на: комментарий от frpaul 19.02.10 15:01:01 MSK

> Тогда \.{1, 3} что ли?

тогда лучше либо «(?:\.{3}|[\.,:;!\?])?\s», либо «(?:\.\.{2}?|[,:;!\?])?\s», ИМХО.

Плюс к тому - \r и \n распознаются по-отдельности, а надо - заодно «\r\n».

ну я же писал с самого начала: «\r?\n|\r|…», и будут распознаваться «\r\n», «\n» и «\r» как одна лексема.

arsi ★★★★★
(19.02.10 15:10:06 MSK)

Ответ на: комментарий от frpaul 19.02.10 15:05:27 MSK

> «слово» один элемент, все что после «слова» (означенные знаки препинания и whitespace'ы) - другой элемент.

pat = re.compile(r'[\.,:;!\?\s]+|[^\.,:;!\?\s]+', re.M | re.S | re.U)
tokens = pat.findall(text)

;)

arsi ★★★★★
(19.02.10 15:15:20 MSK)

Ответ на: комментарий от arsi 19.02.10 15:10:06 MSK

>тогда лучше либо «(?:\.{3}|[\.,:;!\?])?\s», либо «(?:\.\.{2}?|[,:;!\?])?\s», ИМХО.

Вы молодец, оно работает.

Осталось сделать так, чтобы знак препинания + пробел + EOL воспринималось парсером как одна группа. Я не сообразил пока.
Можно вначале тупо отрезать EOL rstrip'ом, а потом отдельно приклеивать к последнему элементу списка. Но это, конечно, не «тру»...

frpaul ★★
(19.02.10 15:26:25 MSK) автор топика

Ответ на: комментарий от arsi 19.02.10 15:15:20 MSK

И, кстати, в группе [] ескейпить разве надо?

frpaul ★★
(19.02.10 15:28:07 MSK) автор топика

Ответ на: комментарий от frpaul 19.02.10 15:28:07 MSK

> И, кстати, в группе [] ескейпить разве надо?

надо, но не всё ;) «[», «?», «*» и т.п. можно не эскейпить, но привычка же :)

arsi ★★★★★
(19.02.10 15:33:34 MSK)

Ссылка

Ответ на: комментарий от frpaul 19.02.10 15:26:25 MSK

> Осталось сделать так, чтобы знак препинания + пробел + EOL воспринималось парсером как одна группа. Я не сообразил пока.

«+» после «\s» :)

arsi ★★★★★
(19.02.10 15:36:00 MSK)

Ответ на: комментарий от arsi 19.02.10 15:36:00 MSK

:)) Точно!
Проверил - работает, как надо.
С меня пиво :)

frpaul ★★
(19.02.10 15:41:29 MSK) автор топика

Ответ на: комментарий от frpaul 19.02.10 15:41:29 MSK

Не надо!

С меня пиво :)

Не надо, он коту все равно отдаст!

anonymous
(21.02.10 03:32:04 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Поддержка сопирайта в исходниках. Правка даты.

Development

прога на С + alsa →

Не надо!

Похожие темы