LINUX.ORG.RU

Data mining - анализ текста


0

2

Какие существуют open-source библиотеки/технологии по дата-майнингу?

Интересует прежде всего: 1. Как классифицировать текст в соответствующую категорию (к примеру: финансы, спорт, ИТ...) 2. Как понять что два текста про один сюжет. (грубо говоря как яднекс.новости находит новости по одной и той же теме, но от разных СМИ)

Знаю про существование такого сервиса как OpenCalais, но не хотелось бы каждый раз отправлять запрос к ним.

(желательно, но не обязательно на питоне)


> как яднекс.новости находит новости по одной и той же теме
прайд офисных хомячков?

anonymous
()
Ответ на: комментарий от anonymous

>прайд офисных хомячков?

да, это у них есть, но для других целей. новости сортирует ИИ.

xhat
() автор топика

Если по-пролетарски, то можно выдернуть реализацию наивного bayes из любой спаморезки, etc.

as33 ★☆☆
()

naive bayes подойдет. Вообще на эту тему есть хорошая книжка - Programming Collective Intelligence...

а если надо сложнее - то NLTK (питон), lingpipe, etc.

P.S. ну и вообще - http://www.mloss.org и ищи по описанию

ott ★★★★★
()
Ответ на: комментарий от ott

Programming Collective Intelligence - читал несколько глав

а вот за ссылке на mloss премного благодарен!

xhat
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.