Анализ текста: поиск пар слов

Находишь все вхождения «первого слова» и строишь историю слов после него на глубину поиска. Получаешь индекс «второго слова» в полученных строках (или NA). Всё.

psv1967 ★★★★★
(31.03.15 15:51:53 MSK)

очевидно же: https://regex101.com/r/qV4yZ3/1

anonymous
(31.03.15 15:53:07 MSK)

Ссылка

Ответ на: комментарий от psv1967 31.03.15 15:51:53 MSK

задача, действительно, несложная и можно решать так в лоб, но есть еще вопрос эффективности, пар может быть больше одной, а текстов тысячи.. наверняка же уже есть эффективные реализация для подобных случаев

cs
(31.03.15 16:28:01 MSK) автор топика

Ответ на: комментарий от cs 31.03.15 16:28:01 MSK

Раз так, значит строишь эту матрицу (она вообще именная :) ) один раз на имеющую для тебя смысл глубину поиска (иам же если надо нормализацию и всякие фичи для слова считаешь, да и свёртки тоже)

Потом первым запросом выбираешь все строки в первой позиции имеющие нужное тебе слово. Вторым запросом... как выше вообщем.

Если нужно «вообще всё», то сразу начинаешь заполнять гигантскую кросстаблицу — все первые слова vs всех остальных слов

Бежишь по построенной именной матрице и приплюсовывашь по ячейкам кросстаблицы согласно строке-слову и столбцу-слову

для кросстаблицы естественно строят индексы ускоряющие доступ к номеру столбца — строки по приписанному им слову

psv1967 ★★★★★
(31.03.15 16:42:53 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Вопрос знатокам языка D

Development

В linux есть список установленных приложений? →

Похожие темы