LINUX.ORG.RU

Как искать «похожие темы» на форуме?

 ,


0

2

Есть такая модная фича, когда в бложиках показывают ссылки на «похожие записи», или в конце тем форума показывают ссылки на «похожие темы». Интересует варианты, как cделать подобное. Самое примитивное, что приходит в голову, проиндексировать топики в sphinxsearch, и потом искать в заголовках

(название темы)/1

То есть, «должно совпадать хотя бы одно слово, с сортировкой по релевантности». Но наверняка есть много нюансов, например:

- какой критерий поиска
- какой критерий сортировки
- учитывать ли «давность» найденного
- показывать только предыдущие темы, или более свежие тоже
- искать только по заголовкам или по содержанию первого поста тоже

и т.п.

Если кто-то решал подобную задачу, или знает где она решалась грамотно - поделитесь пожалуйста.

★★★★★

Походу на лоре это явно сделано с помощью тегов и заголовка. И возможно релевантность по кол-ву коментов + свежесть.

Noob_Linux ★★★★
()
Ответ на: комментарий от greenman

Меня интересует практический опыт качественных реализаций, с пояснениями «почему так лучше».

То что на лоре напоминает «на кого бог пошлет».

Vit ★★★★★
() автор топика

перекюринговывай шедуллеры с максимально независимыми транзакционными пулами кросс-трейтов на матрице состояний, только парсер китайской грамматики не забудь подключить иначе может заглючть. И циклы, больше циклов используй

anonymous
()
Ответ на: комментарий от Noob_Linux

next step of evolution, after pony. it seems, russian «liberaststism» has come from pony-land

anonymous
()
Ответ на: комментарий от Vit

есть компании, которые занимаются такими разработками и предоставляют их в виде СааС и всяческих АПИ для интеграций. Вроде, у яши тоже есть что-то похожее. Точно не вспомню названий, на Хабре проскакивало. гуглите. Самому на коленке такое не реализовать за просто так, либо в очень простом виде (теги, поиск по заголовкам).

anonymous
()
Ответ на: комментарий от anonymous

Мне надо локальное. Полазал там-сям, на коленке действительно у всех только (теги + частичный матчинг заголовков).

Но все равно остаются нюансы с фильтрацией/сортировкой, которые перечислены в первом посте, и которыми никто не заморачивается почему-то.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

приблизиельно ясно как это делать: обучить нейронку определять категории контента, создать многомерное пространство векторов-категорий, вычисляя расстояние между векторами-категориями определять ближайшие релевантные материалы, добавить тюнингованых мелочей (теги, заголовки, авторы, что в голову прийдет).

anonymous
()
3 марта 2017 г.

Если ты хочешь хороший вариант, то тут надо решать так же, как это делается с вычислением релевантности на «больших» поисковиках.

Т.е. нужено какое-то количество качественных оценок качества ранжирования (сделанных реальными людьми). Потом на основании этих оценок высчитывается одно число, характеризующее эффективность работы алгоритма ранжирования. Далее каким-то способом находится формула ранжирования, которая дает максимум этой оценки качества.

maxcom ★★★★★
()
Последнее исправление: maxcom (всего исправлений: 1)
Ответ на: комментарий от maxcom

Я хочу хороший вариант, но я реалист, поэтому работаю с тем что есть :). Смысловую категоризацию мне сейчас не потянуть.

Ты рассказываешь слишком общие вещи (про какие-то количества и какие-то способы). А меня интересует прикладная инфа. Например, что зависимость от даты надо сделать логарифмической, через 3 года вес уменьшать в 2 раза, а через 10 лет в 10. Если кто-то подобное проделывал на реальных проектах, была бы интересно узнать подробности.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

Например, что зависимость от даты надо сделать логарифмической, через 3 года вес уменьшать в 2 раза, а через 10 лет в 10. Если кто-то подобное проделывал на реальных проектах, была бы интересно узнать подробности.

Придумать набор сигналов которые надо учитывать в формуле релевантности не сложно. Основной вопрос в настройке того как эти сигналы будут влиять на релевантность. А тут уже без наличия простого способа оценить итоговое качество ничего хорошего сделать не получится.

maxcom ★★★★★
()
Ответ на: комментарий от maxcom

Придумать набор сигналов которые надо учитывать в формуле релевантности не сложно.

Тогда почему вместо того чтобы просто назвать эти сигналы, каждый мне рассказывает про сложности настройки, оценки, и нейронки?

Vit ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.