Поиск по регулярному выражению в массиве небольших строк

С регулярками ты будешь парсить несколько часов.

Cactus64k ★
(13.05.15 15:01:56 MSK)

y not awk?

yoghurt ★★★★★
(13.05.15 15:03:50 MSK)

Ответ на: комментарий от Cactus64k 13.05.15 15:01:56 MSK

Можт, слепить в одну строку, прогнать, ну а потом как-нибудь отколупать точное место вхождения, если оно там вообще есть?

dann ★
(13.05.15 15:06:16 MSK) автор топика

Ответ на: комментарий от yoghurt 13.05.15 15:03:50 MSK

Нет, не подойдёт.

dann ★
(13.05.15 15:06:54 MSK) автор топика

Ссылка

Считай хеш, сортируй, ищи бинарным поиском.

post-factum ★★★★★
(13.05.15 15:08:41 MSK)

Если длина строки 10 символов нахер не нужны никакие выкрутасы. тут основная просадка будет приходится не на регекспы, а на перебор массива. Глупость какая-то. Это имело бы смысл, если бы строки были длинными.

anonymous
(13.05.15 15:11:51 MSK)

Ответ на: комментарий от post-factum 13.05.15 15:08:41 MSK

А не, говно советую, ты же регекспы хочешь.

А ты их точно хочешь?

post-factum ★★★★★
(13.05.15 15:14:07 MSK)

Ответ на: комментарий от post-factum 13.05.15 15:08:41 MSK

То есть вместо перебора \Theta (n), делать \Theta(n log n).

Толково.

aedeph_ ★★
(13.05.15 15:14:33 MSK)
Последнее исправление: aedeph_ 13.05.15 15:14:53 MSK (всего исправлений: 1)

Ответ на: комментарий от aedeph_ 13.05.15 15:14:33 MSK

А regexp у тебя О(1) ?

anonymous
(13.05.15 15:15:21 MSK)

Ответ на: комментарий от anonymous 13.05.15 15:11:51 MSK

Поиск по регулярному выражению в массиве небольших строк (комментарий)

dann ★
(13.05.15 15:24:26 MSK) автор топика

Ответ на: комментарий от post-factum 13.05.15 15:14:07 MSK

Тож задумался. Вообще, в приложении могло бы сильно пригодиться.

dann ★
(13.05.15 15:26:14 MSK) автор топика

Ссылка

может отсортировать, если это поможет сузить границы, где матчить регулярное выражение, то получите выигрыш

~~IvanR~~ ★★★
(13.05.15 15:28:18 MSK)

Ссылка

Ответ на: комментарий от anonymous 13.05.15 15:15:21 MSK

Конечно.

aedeph_ ★★
(13.05.15 15:31:40 MSK)

Ссылка

Ответ на: комментарий от aedeph_ 13.05.15 15:14:33 MSK

Это почему? Бинарный поиск — O(log(n)).

post-factum ★★★★★
(13.05.15 15:32:35 MSK)

Ответ на: комментарий от post-factum 13.05.15 15:32:35 MSK

Считай хеш, сортируй, ищи бинарным поиском.

\Theta(n) + \Theta(n log n) + \Theta(log n)

aedeph_ ★★
(13.05.15 15:33:55 MSK)
Последнее исправление: aedeph_ 13.05.15 15:34:16 MSK (всего исправлений: 1)

Ответ на: комментарий от dann 13.05.15 15:06:16 MSK

Ну тут несколько вариантов.
1. Бинарное дерево поиска - если будешь искать не один раз
2. Сравнение результата fgets - если будешь искать один раз
3. Дерево, у которого в каждом узле содержится массив указателей на символы слова. Забыл как оно называется.
К примеру: есть слово «привет» В первом узле по индексу 'п' указатель на второй узел. Во втором узле по индексу 'р' указатель на третий узел и тд.

Cactus64k ★
(13.05.15 15:34:53 MSK)

Ответ на: комментарий от aedeph_ 13.05.15 15:33:55 MSK

Вставка в отсортированный массив — это по сложности тот же бинарный поиск.

post-factum ★★★★★
(13.05.15 15:36:01 MSK)

Ответ на: комментарий от dann 13.05.15 15:06:16 MSK

Какого вида регулярки?

aedeph_ ★★
(13.05.15 15:36:55 MSK)

Ответ на: комментарий от post-factum 13.05.15 15:36:01 MSK

Вставка в отсортированный массив

n раз по

это по сложности тот же бинарный поиск.

\Theta(log n)

А ты в ядрах так же хорошо разбираешься, как в алгоритмах?

aedeph_ ★★
(13.05.15 15:38:26 MSK)

Ответ на: комментарий от aedeph_ 13.05.15 15:38:26 MSK

Может, ему нужно данные постепенно накапливать, а искать быстро.

А ты в ядрах так же хорошо разбираешься, как в алгоритмах?

Если тебя интересует этот вопрос, можешь создать отдельный топик и резвиться там.

post-factum ★★★★★
(13.05.15 15:41:25 MSK)

Ответ на: комментарий от post-factum 13.05.15 15:41:25 MSK

Может, ему нужно данные постепенно накапливать, а искать быстро.

А почему ты не спросил это у него?

aedeph_ ★★
(13.05.15 15:46:49 MSK)

Ответ на: комментарий от aedeph_ 13.05.15 15:46:49 MSK

А ты?

post-factum ★★★★★
(13.05.15 15:47:02 MSK)

Ответ на: комментарий от aedeph_ 13.05.15 15:36:55 MSK

Общего вида.

dann ★
(13.05.15 15:47:56 MSK) автор топика

Ответ на: комментарий от post-factum 13.05.15 15:47:02 MSK

Ну, так сортировку и бинарный поиск не я же предлагал. А то, что надо, я у него спросил, а именно вид регулярок. Бинарный поиск над специально подготовленным массивом имеет смысл только для достаточно ограниченного множества.

aedeph_ ★★
(13.05.15 15:50:14 MSK)

Ссылка

Ответ на: комментарий от aedeph_ 13.05.15 15:46:49 MSK

Накапливание промежуточных резулататов не подойдёт, всё же насколько быстро будет расти объём накапливаемых данных?

dann ★
(13.05.15 15:52:32 MSK) автор топика

Ссылка

Ответ на: комментарий от post-factum 13.05.15 15:47:02 MSK

Насколько быстро будет расти объём накапливаемых данных?

dann ★
(13.05.15 15:53:39 MSK) автор топика

Ответ на: комментарий от dann 13.05.15 15:47:56 MSK

Можешь покурить сырцы грепа или какой-нибудь другой быстрой реализации именно регулярок на предмет разнообразных ускорений в частных случаях, но так или иначе ответ тебе будет - нет, только молодость, только перебор.

aedeph_ ★★
(13.05.15 15:54:06 MSK)

Ответ на: комментарий от dann 13.05.15 15:53:39 MSK

Лучше конкретнее опиши задачу, которую ты решаешь.

post-factum ★★★★★
(13.05.15 15:57:18 MSK)

Ответ на: комментарий от dann 13.05.15 15:24:26 MSK

Ну да, это может дать прирост, че то не подумал. По сути, единственно верный вариант, в данном случае. Так и делай.

anonymous
(13.05.15 16:08:21 MSK)

Ссылка

Ответ на: комментарий от aedeph_ 13.05.15 15:54:06 MSK

Полистаю. Со сваливанием в одну большую строку не заморачиваться?

dann ★
(13.05.15 16:12:40 MSK) автор топика

Ответ на: комментарий от dann 13.05.15 16:12:40 MSK

В grep'е и sed'е такие оптимизации есть (месим не разбивая по \n, потом разберёмся), это ускоряет с точки зрения чтения большими кусками.

При определённых обстоятельствах это может и замедлить, так как разрешает больше строк, которые потом будут выброшены, при учёте границ.

aedeph_ ★★
(13.05.15 16:16:46 MSK)

Ответ на: комментарий от post-factum 13.05.15 15:57:18 MSK

Дано:

Список строк, длинной порядка миллионов элементов; строки, длинной порядка десятков символов; произвольное регулярное выражение.

Найти:

1) строки, в которых встречается данное регулярное выражение,

2) указать точные места вхождений.

dann ★
(13.05.15 16:19:14 MSK) автор топика

Ответ на: комментарий от aedeph_ 13.05.15 16:16:46 MSK

Спасибо!

dann ★
(13.05.15 16:21:15 MSK) автор топика

Ссылка

Ответ на: комментарий от dann 13.05.15 16:19:14 MSK

Как и где эти строки хранятся?

post-factum ★★★★★
(13.05.15 16:29:50 MSK)

Ответ на: комментарий от post-factum 13.05.15 16:29:50 MSK

Односвязный список, в каждой вершине хранится указатель на строку.

dann ★
(13.05.15 16:33:16 MSK) автор топика

Ответ на: комментарий от dann 13.05.15 16:33:16 MSK

Т.е., ты эти строки скопом откуда-то подгружаешь в память?

post-factum ★★★★★
(13.05.15 16:38:38 MSK)

Ответ на: комментарий от post-factum 13.05.15 16:38:38 MSK

Совершенно верно.

dann ★
(13.05.15 16:44:15 MSK) автор топика

Неужели си такой медленный? Я щас попробовал на JS массив из миллиона строк, при худшем для регулярок случае (совпадение в конце строки) с наполнением другого массива выполняется за 424 ms на слабой машине. Че там оптимизировать, спрашивается?

anonymous
(13.05.15 16:55:42 MSK)

Ответ на: комментарий от anonymous 13.05.15 16:55:42 MSK

Интересно.

dann ★
(13.05.15 16:58:58 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 13.05.15 16:55:42 MSK

Можете выложить ваш бенчмарк?

~~Weres~~ ★★★
(13.05.15 17:00:26 MSK)

Ответ на: комментарий от anonymous 13.05.15 16:55:42 MSK

И да, регуляркой по целой строке быстрей — 260ms

anonymous
(13.05.15 17:03:42 MSK)

Ссылка

Ответ на: комментарий от Weres 13.05.15 17:00:26 MSK

Это anonimous наверняка опять пустые циклы считает.

aedeph_ ★★
(13.05.15 17:04:10 MSK)

Ссылка

Ответ на: комментарий от Weres 13.05.15 17:00:26 MSK


arr=read("tmp").split("\n")

re=/foo/
newArr=[]

console.time(1)
for(var i=0; i<arr.length; i++){var el=arr[i]; if(re.test(el)) newArr.push(el)}
console.timeEnd(1)


// ::: 1: 426ms

anonymous
(13.05.15 17:05:24 MSK)

Ссылка

Ответ на: комментарий от dann 13.05.15 16:44:15 MSK

Предлагаю считать хэши и сортировать при вставке прямо во время загрузки.

post-factum ★★★★★
(13.05.15 17:14:09 MSK)

Ответ на: комментарий от anonymous 13.05.15 16:55:42 MSK

Не думаю, что в конце строки — это худший случай, наверное, облом в середине регулярного выражения при обработке похожей подстроки, стоящей в середине проверяемой строки...

dann ★
(13.05.15 17:34:23 MSK) автор топика

Ссылка

Ответ на: комментарий от post-factum 13.05.15 17:14:09 MSK

Хотя нафига тебе хеш? Строки ровно по 10 символов? Рассматривай эти 10 символов как 80-битное значение и сортируй по нему.

post-factum ★★★★★
(13.05.15 17:36:58 MSK)

Ссылка

Ответ на: комментарий от Cactus64k 13.05.15 15:34:53 MSK

Дерево, у которого в каждом узле содержится массив указателей на символы слова. Забыл как оно называется.

Таких деревьев есть несколько видов. Trie ( https://en.wikipedia.org/wiki/Trie ), radix tree и т.п.

Для поиска подстрок за O(m), где m - длина ключа, используют (редко) еще и суффиксные деревья/суффиксные массивы. У них есть фича - размер индекса получается больше размера данных.

Ну и делать на них «поиск по регулярному выражению» будет скорее всего непросто.

На десятках мегабайт можно вообще не особо париться, даже перебор должен работать достаточно быстро

Deleted
(13.05.15 17:38:57 MSK)

Ответ на: комментарий от post-factum 13.05.15 17:14:09 MSK

Здесь уже тонкости. Об этом подумал (и ещё раз подумал, когда предлагали, построение дополнительных структур для поиска). Косяк в том, что загрузка «не совсем тривиальный процесс», и привинчивать такую «предобработку налету» теперь целый квест.

dann ★
(13.05.15 17:40:18 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 13.05.15 16:55:42 MSK

Теоретики вашу мать. Цифр нет, кода нет, тестов нет - но надо оптимизировать.

KISS matherfakers

anonymous
(13.05.15 18:01:02 MSK)

Ссылка

Ответ на: комментарий от Deleted 13.05.15 17:38:57 MSK

Кто ж знал что у него задача с помощью регуляро найти строки? ОП сам не сознавался, пока не спросили. Я то думал кто то опять задумал решить проблему поиска подстроки через регулярки.

Cactus64k ★
(13.05.15 18:48:59 MSK)

Ссылка

Похожие темы