СОРМ на коленке

http://php-nlp-tools.com/ ?

~~nagibator~~ ☆
(18.01.15 14:43:17 MSK)

полнотекстовый поиск?

exception13 ★★★★★
(18.01.15 14:44:19 MSK)

не проще ли прикрутить индексатор из lucene

Deleted
(18.01.15 14:47:12 MSK)

Ответ на: комментарий от exception13 18.01.15 14:44:19 MSK

Не совсем. Авторастановка тегов для новостей распарсеных с сайтов конкурентов ;)

Suntechnic ★★★★★
(18.01.15 14:58:28 MSK) автор топика

Ответ на: комментарий от Deleted 18.01.15 14:47:12 MSK

Хм... там уже есть сфинкс. Выполнять поиск по нужным тегам и если новость нашлась просто сопоставлять?

Suntechnic ★★★★★
(18.01.15 15:01:49 MSK) автор топика

Ссылка

Ответ на: комментарий от nagibator 18.01.15 14:43:17 MSK

Спасибо, но я как-то и правда не подумал о полнотекстовой индексации и использовании поиска для этого. Но все равно почитаю.

Suntechnic ★★★★★
(18.01.15 15:18:28 MSK) автор топика

Ответ на: комментарий от Suntechnic 18.01.15 15:18:28 MSK

Мне как то понадобилось сопоставить 2 таблицы из разных источников без каких либо общих ключей. На подмогу пришел полнотекстовый поиск из postgresql и записи были успешно сопоставлены по наименованию несмотря на разброд и шатание в наименованиях.

exception13 ★★★★★
(18.01.15 15:37:52 MSK)

Проблемы - словоформы. Как лучше всего это сделать кроме регулярок в цикле?

Стемминг.

https://bitbucket.org/Balancer/bors-core/src/99397da2ae4a99a5a4821c142e8ac777...

Пример использования:
https://bitbucket.org/Balancer/bors-core/src/99397da2ae4a99a5a4821c142e8ac777...

метод normalize()

~~KRoN73~~ ★★★★★
(18.01.15 15:39:34 MSK)

Ответ на: комментарий от Suntechnic 18.01.15 14:58:28 MSK

Авторастановка тегов для новостей распарсеных с сайтов конкурентов ;)

Вот, как раз у меня выше пример с ключевыми словами :)

Вообще, самый быстрый (ИМХО) поиск группы тегов в тексте — это нормализовать стеммером все ключевые слова, нормализовать весь текст и искать в нём теги по одному просто по подстроке. Если сохранить в тексте порядок слов, то можно искать и склоняемые словосочетания.

Хм... там уже есть сфинкс

Он, кстати, уже умеет стемминг. Но для анализа именно отдельных документов не подходит. Там другая задача — поиск документов, содержащих ключевые слова.

~~KRoN73~~ ★★★★★
(18.01.15 15:44:22 MSK)

Ссылка

Ответ на: комментарий от KRoN73 18.01.15 15:39:34 MSK

Что такое стемминг вообще? Сам делал?

Suntechnic ★★★★★
(18.01.15 15:46:38 MSK) автор топика

Ответ на: комментарий от exception13 18.01.15 15:37:52 MSK

Искал имя из одного списка в другом?

Suntechnic ★★★★★
(18.01.15 15:47:20 MSK) автор топика

Ответ на: комментарий от Suntechnic 18.01.15 15:47:20 MSK

банальный join через функции полнотекстового поиска. естественно с последующей ручной поверкой полученного сопоставления.

exception13 ★★★★★
(18.01.15 15:51:53 MSK)

Ссылка

Ответ на: комментарий от Suntechnic 18.01.15 15:46:38 MSK

Что такое стемминг вообще?

Не честная морфология, а отбрасывание суффиксов/окончаний. Типа:

«честная», «честный», «честные» -> «честн»
«стемминг», «стеммингом», «стеммингами» -> «стемминг»

Соответственно, если сравнивать результат преобразования, то получается учёт склонений. В отличие от честной морфологии (если интересно — см. пример https://bitbucket.org/Balancer/blib-morfology-ru ) работает очень быстро, но могут быть ложные срабатывания (особенно в Сфинксе — там алгоритм жёстче, например, «саяны» и «САУ» обе превращаются в «са»).

Сам делал?

Нет, там ссылка на первоисточник в шапке: http://forum.dklab.ru/php/advises/HeuristicWithoutTheDictionaryExtractionOfAR...

~~KRoN73~~ ★★★★★
(18.01.15 15:59:50 MSK)

Ответ на: комментарий от KRoN73 18.01.15 15:59:50 MSK

Круто, надо запомнить.

~~nagibator~~ ☆
(18.01.15 16:01:58 MSK)

Ссылка

Ответ на: комментарий от KRoN73 18.01.15 15:59:50 MSK

В отличие от честной морфологии работает очень быстро

А, главное забыл, не требует словаря. А то вариант с phpMorphy по ссылке тащит с собой словарь мегабайт на 10.

~~KRoN73~~ ★★★★★
(18.01.15 16:03:30 MSK)

Ответ на: комментарий от KRoN73 18.01.15 15:59:50 MSK

Ага, уже прочел в вики. Я примерно это и собирался своять побыстрому. Спасибо. Попробую заюзать.

Suntechnic ★★★★★
(18.01.15 16:08:52 MSK) автор топика

Ссылка

Ответ на: комментарий от KRoN73 18.01.15 16:03:30 MSK

А зачем там у тебя свой лоукейс? Чем лучше встроенного?

Suntechnic ★★★★★
(18.01.15 19:24:25 MSK) автор топика

Ответ на: комментарий от Suntechnic 18.01.15 19:24:25 MSK

А зачем там у тебя свой лоукейс? Чем лучше встроенного?

Движок изначально расчитывался на работу на самых разных конфигурациях. Кодировки — KOI8-R, CP1251, UTF-8. Наличие/отсутствие mb_string. Наличие/отсутствие mbstring_overload и т.п. Поэтому у меня стоит «генератор» обёрток в зависимости от настроек. В принципе, сегодня уже не актуально, так как utf-8 и mb_string — норма, но, во-первых, есть ещё legacy-проекты, во-вторых, смысла особого переписывать нет, производительности выиграешь копеечно.

~~KRoN73~~ ★★★★★
(18.01.15 19:46:37 MSK)

Ссылка

Ответ на: комментарий от Suntechnic 18.01.15 19:24:25 MSK

Вот, что по кейсам, в самом конце:

https://github.com/Balancer/bors-core/blob/master/classes/bors/funcs.php

Там и просто унификация. Типа, нету mb_ucfirst(), так что приходится эмулировать и т.п.

Но всё это лютое legacy, корнями уходящее в 15-летнюю давность, а конкретно юникодность — почти ровно 10 лет назад: http://www.balancer.ru/g/p351760

Забавно: http://forums.balancer.ru/tech/forum/2003/05/t20608--buduschee-za-utf-8.html :)

~~KRoN73~~ ★★★★★
(18.01.15 19:51:49 MSK)

Ответ на: комментарий от KRoN73 18.01.15 19:51:49 MSK

)))

Забавно. Я так далек был в то время от компьютера (((

Кстати столкнулся с такой проблемой - по тегу «дума» срабатывает текст «госдума» - это плохо, потому что включение может оказаться вовсе не тем чем надо. Сделал return таким: return ' '.join(' ', $keywords).' '; Так как тэги тоже гонятся через нормализацию, они обиваются пробелами по краям и на подслово уже не сработают. Как ты с этим не столкнулся? Или как иначе решил?

Suntechnic ★★★★★
(18.01.15 19:57:21 MSK) автор топика

Ответ на: комментарий от Suntechnic 18.01.15 19:57:21 MSK

по тегу «дума» срабатывает текст «госдума»

Ищи не тупо подстроку. Собирай текст документа после стеммирования через пробелы и ищи тег, окружив его пробелами (или другим символом, но пробел ничем не хуже, я же для лучшей видимости дальше использую подчёркивание). Т.е. из текста «депутатам госдумы» получаешь «_депутат_госдум_» (не забудь окружить пробелами результат, чтобы крайние слова найти тоже — у меня в function bors_text_clear() так и сделано — именно для этого) и ищешь подстроки тегов «_дум_» или «_госдум_».

~~KRoN73~~ ★★★★★
(18.01.15 20:13:33 MSK)

Ответ на: комментарий от Suntechnic 18.01.15 19:57:21 MSK

Упустил.

Так как тэги тоже гонятся через нормализацию, они обиваются пробелами по краям и на подслово уже не сработают

Ну так для этого и идёт оббивка пробелами. Как же тогда у тебя в «госдум» находится подстрока «_дум_»? trim() не делаешь?

~~KRoN73~~ ★★★★★
(18.01.15 20:14:59 MSK)

Ответ на: комментарий от KRoN73 18.01.15 20:13:33 MSK

Ну дык я же и написал что так и сделал. Для этого достаточно ретарн в твоем же классе отбить пробелами ;)

Suntechnic ★★★★★
(18.01.15 20:35:44 MSK) автор топика

Ссылка

Ответ на: комментарий от KRoN73 18.01.15 20:14:59 MSK

Так не было пробелов - говорю же - это я сейчас добавил. Сейчас нормально всё работает. Спасибо - сэкономил несколько часов мне минимум. )))

Suntechnic ★★★★★
(18.01.15 20:36:57 MSK) автор топика

Ссылка

Ответ на: комментарий от KRoN73 18.01.15 20:14:59 MSK

А есть какие-нибудь продуманные приемы как бороться с ложными срабатываниями? Например какой нибудь Франц Клинцевич выскажется и бах - тэг Франция...

Suntechnic ★★★★★
(19.01.15 18:30:36 MSK) автор топика

https://tech.yandex.ru/mystem/

r_asian ★☆☆
(19.01.15 22:28:19 MSK)

Ссылка

Возьмите словарь для орфоправок и выдерните оттуда всё по базовой форме, если слов не много. Или с яндексовского сервиса.

Потом автогенереными регулярками. Для вашего случая это будет самый простой вариант. Если текстов много - тогда полнотекстный поиск.

На коленке автоматизировать словоформы не советую. Сами вы максимум стеммер осилите, а стеммеры для русского работают говёно. Надо хотя бы AOT.

Vit ★★★★★
(19.01.15 23:22:16 MSK)

Ссылка

Ответ на: комментарий от Suntechnic 19.01.15 18:30:36 MSK

Надо матчить по границам слов, а не подстроки. Регулярки умеют.

А если омонимы типа «стекло», то без лексического анализа никак.

Vit ★★★★★
(19.01.15 23:25:25 MSK)

Ответ на: комментарий от Vit 19.01.15 23:25:25 MSK

Та по границе слов же. Но текст нормализован стеммингом, так что Франция превратилась во франц. И Франц тоже. r_asian предложил вроде вариант - сейчас пробую. Возможно сделаю одновременно со стеммингом. Текстов не много и они не большие. Так что можно поэксперементировать.

Suntechnic ★★★★★
(19.01.15 23:45:09 MSK) автор топика

Ответ на: комментарий от Suntechnic 19.01.15 23:45:09 MSK

Потому что надо не текст нормализовывать кривыми алгоритмами, а словоформы в запрос добавлять.

Vit ★★★★★
(19.01.15 23:50:06 MSK)

Ответ на: комментарий от Vit 19.01.15 23:50:06 MSK

В смысле словоформы в запрос добавлять?

Вообще разобрался с mystem - это веселее, так как он разбирает в исходные формы, но еще круче tomita-parser - вот что я попробую завтра прикрутить.

Suntechnic ★★★★★
(20.01.15 00:13:58 MSK) автор топика

Ответ на: комментарий от Suntechnic 20.01.15 00:13:58 MSK

В смысле словоформы в запрос добавлять?

Ну регекспом искать не «яйцо» а «яйцо|яйцы|яйцев». Когда объемы небольшие, работать будет хорошо.

Стеммеры для русского - это говнище by design. Для приведения к базовым словоформам надо aot.

Лучше только полноценный лексический анализ. Что-то есть от яндекса, но оно все огороженное.

Vit ★★★★★
(20.01.15 00:50:17 MSK)

Ответ на: комментарий от Vit 20.01.15 00:50:17 MSK

А, понятно. Но апетит же он такой - вовремя еды приходит. Я уже хочу назначения тегов типа «нефть подорожала» и «нефть подешевела», а это уже будет трудно регекспами. Вот думаю для этого как раз томиту заюзать - оно же для этого сделано. Новостей не много. Тексты очень короткие у каждой - два-три предложения.

Suntechnic ★★★★★
(20.01.15 01:30:28 MSK) автор топика

Ответ на: комментарий от Suntechnic 20.01.15 01:30:28 MSK

Тогда только готовые решения.

в sphix serach есть aot. С синтаксическим анализом дела не имел.

Vit ★★★★★
(20.01.15 01:44:52 MSK)

Ссылка

Ответ на: комментарий от Suntechnic 19.01.15 18:30:36 MSK

А есть какие-нибудь продуманные приемы как бороться с ложными срабатываниями?

Универсального автоматического нет. Или с ручной проверкой, или со сложностями и отсутствием срабатывания (честная морфология по словарю), или просто, но с ложными срабатываниями (стемминг).

Обычно чаще мирятся с ложными срабатываниями, они бывают нечасто, менее критичны с точки зрения доступа к данным (лишняя статья наносит меньше вреда, чем отсутствие статьи) и, если понадобится, вручную проверить срабатывания проще, чем их отсутствия :)

~~KRoN73~~ ★★★★★
(20.01.15 12:16:16 MSK)

Ссылка

Ответ на: комментарий от KRoN73 18.01.15 15:39:34 MSK

сэр, можете высказаться на вот эту тему? Хочу сделать поиск «по вопросу» для FAQ, есть готовые либы?

~~stevejobs~~ ★★★★☆
(21.01.15 14:37:47 MSK)

Ссылка

Похожие темы