Поиск подстрок в строке

0

1

Собственно есть set с некоторыми уникальными значениями (это не только слова, но и группы слов, например 'visual studio'). Есть строки, приходяшие в цикле, надо искать в строках все вхождения всех подстрок из set-а. Как это сделать по людски не изобретая велосипедов? Например, в строке содержится «разработка на c# в visual studio», в set-е содержится 'c#', 'visual studio', 'java'. Надо найти факт наличия в строке и 'c#' и 'visual studio'. Просто цикл в цикле, который по штучке берёт и ищет элементы из set-а в строке забахать, наверное, не самый красивый вариант.

Ссылка

← Анлицизм или Translit в именах переменных?

Подскажите регулярку POSIX →

Просто цикл в цикле, который по штучке берёт и ищет элементы из set-а в строке забахать, наверное, не самый красивый вариант.

Из-за таких тэгов как «visual studio» вряд ли получится по другому.

tags = {'c#', 'visual studio', 'java'}
text = 'разработка на c# в visual studio'

print(tags & set(text.split(' ')))
print({*filter(lambda x: x in text, tags)})

{'c#'}
{'visual studio', 'c#'}

vvn_black ★★★★★
(31.07.19 13:21:17 MSK)
Последнее исправление: vvn_black 31.07.19 13:23:49 MSK (всего исправлений: 1)

Ответ на: комментарий от vvn_black 31.07.19 13:21:17 MSK

Важно ещё чтобы в c# c не находило.

peregrine ★★★★★
(31.07.19 13:28:14 MSK) автор топика

Ответ на: комментарий от peregrine 31.07.19 13:28:14 MSK

filter(lambda x: f' {x} ' in text, tags) или регулярка.

vvn_black ★★★★★
(31.07.19 13:32:25 MSK)

Ответ на: комментарий от vvn_black 31.07.19 13:32:25 MSK

теряет visual studio

peregrine ★★★★★
(31.07.19 13:41:10 MSK) автор топика

Ответ на: комментарий от peregrine 31.07.19 13:41:10 MSK

f' {x} ' in f' {text} ' ))

vvn_black ★★★★★
(31.07.19 13:43:25 MSK)

Ответ на: комментарий от vvn_black 31.07.19 13:43:25 MSK

Будет пропускать c опять. Не столь тривиально, как кажется на первый взгляд.

peregrine ★★★★★
(31.07.19 13:44:46 MSK) автор топика
Последнее исправление: peregrine 31.07.19 13:45:12 MSK (всего исправлений: 2)

Ответ на: комментарий от peregrine 31.07.19 13:44:46 MSK

tags = {'c#', 'visual studio', 'visual', 'java', 'c', 'разработка на'}
text = 'разработка на c# в visual studio'

print(tags & set(text.split(' ')))
print({*filter(lambda x: f' {x} ' in f' {text} ', tags)})

{'c#', 'visual'}
{'c#', 'visual', 'visual studio', 'разработка на'}

vvn_black ★★★★★
(31.07.19 13:45:42 MSK)

Ответ на: комментарий от vvn_black 31.07.19 13:45:42 MSK

Вот спасибо. Выручил.

peregrine ★★★★★
(31.07.19 13:47:44 MSK) автор топика

Ответ на: комментарий от peregrine 31.07.19 13:47:44 MSK

Хотя странно как-то. На маленьких данных нормально работает, но на больших строках фигня получается. Возвращает просто set() vvn_black. И самое обидное, непонятно, откуда такое происходит и что виновно.

peregrine ★★★★★
(31.07.19 14:48:03 MSK) автор топика
Последнее исправление: peregrine 31.07.19 14:49:20 MSK (всего исправлений: 2)

Ответ на: комментарий от peregrine 31.07.19 14:48:03 MSK

Пример бы текста и тэгов, на которых не работает.

vvn_black ★★★★★
(31.07.19 14:50:41 MSK)

Ответ на: комментарий от vvn_black 31.07.19 14:50:41 MSK

Точка или запятая после «тега».

i-rinat ★★★★★
(31.07.19 14:51:30 MSK)

Ответ на: комментарий от i-rinat 31.07.19 14:51:30 MSK

ааа, если там предложение и тэг в конце, тогда да - не найдётся. Текст можно предварительно «приготовить», заменить на пробелы всю пунктуацию.

vvn_black ★★★★★
(31.07.19 14:52:37 MSK)
Последнее исправление: vvn_black 31.07.19 14:54:20 MSK (всего исправлений: 1)

Ответ на: комментарий от vvn_black 31.07.19 14:52:37 MSK

Точно. Уже сам нашел.

peregrine ★★★★★
(31.07.19 15:02:30 MSK) автор топика

Ссылка

Если у тебя текста очень много, то лучше разбить его на слова, привести всё к одному регистру, а потом пройтись по словам слева направо, проверяя, нет ли совпадения от текущего слова в словаре тегов. Если среди тегов много таких, что начинаются с одинаковых слов, можно использовать что-то вроде Ахо-Корасик, только символы будут не отдельные буквы, а целые слова.

i-rinat ★★★★★
(31.07.19 15:07:05 MSK)

Ответ на: комментарий от vvn_black 31.07.19 14:52:37 MSK

заменить на пробелы всю пунктуацию.

работает до следующего

Салтыков-Щедрин, Михаил Евграфович

anonymous
(31.07.19 15:11:32 MSK)

Ответ на: комментарий от anonymous 31.07.19 15:11:32 MSK

КемелКейсом записывать в таких случаях.

anonymous
(31.07.19 15:13:52 MSK)

Ссылка

Ответ на: комментарий от anonymous 31.07.19 15:11:32 MSK

Ну мне 100% точность не требуется, т.к. я датасет скриптом собираю, который по определению не 100% точный, т.к. данные писали люди, в том числе и с ошибками. Запятые и точки слишком часто встречаются, чтобы их игнорировать.

peregrine ★★★★★
(31.07.19 15:23:19 MSK) автор топика

Ссылка

Ответ на: комментарий от vvn_black 31.07.19 14:52:37 MSK

Зачем ты адовый быддокод выдаёшь, когда сам знаешь, что следует юзать регулярки?

~~WitcherGeralt~~ ★★
(31.07.19 20:12:18 MSK)

Ссылка

Ответ на: комментарий от i-rinat 31.07.19 15:07:05 MSK

Ты думаешь, их так много, что регуляркой будет не эффективно, или что?

~~WitcherGeralt~~ ★★
(31.07.19 20:14:12 MSK)

Ответ на: комментарий от WitcherGeralt 31.07.19 20:14:12 MSK

не эффективно

Пока устраивает O(N×M), сгодится, хоть и не эффективно. Но если станет не хватать, есть куда двигаться.

i-rinat ★★★★★
(31.07.19 20:24:44 MSK)

Ссылка

Создай FSM для каждого элемента в set и линейно иди по строке. Быстро, но по памяти будет не очень.

xpahos ★★★★★
(31.07.19 20:59:23 MSK)

Ссылка

По хорошему, если тегов будет действительно много и будет длинные строки, по которым ты ищешь теги, то стоит использовать что-нибудь вроде алгоритма Рабина-Карпа, который позволяет за один проход по строке искать в ней несколько подстрок одновременно. Может даже есть для питона что-то готовое.

anonymous
(31.07.19 21:38:08 MSK)

Ответ на: комментарий от anonymous 31.07.19 21:38:08 MSK

Всем спасибо. Данные уже собраны. Там всего-то пол гига текста перелопатить надо было и в скорости особой важности не было, т.к. всё упирается в скорость сайта, откуда берутся данные.

peregrine ★★★★★
(01.08.19 07:27:26 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Анлицизм или Translit в именах переменных?

Development

Подскажите регулярку POSIX →

Похожие темы