LINUX.ORG.RU

Машинное обучение TF-IDF автотегирование

 , ,


0

1

Пытаюсь решить задачу, у меня программа сгенерировала достаточно много тегов, я их нормализовал, убрал повторяющиеся итд. Теперь хочу обучить алгоритм так, чтобы из этих тегов выбрал самые важные, слышал про TF-IDF но как я понял он генерирует фичи из текста, т.е. их потом можно положить в какойнить DecisionTree и обучить, но какой формат данных должен быть тогда на выходе? так же текст? или какая-то структура данных? до этого только с числами работал.

★★★

tf-idf тебе не подойдет, он строит для слова и корпуса текстов некоторое отношение f(количество упоминаний на текст; количество текстов, в которых упоминалось слово). Как это присобачить к тегам, я не понимаю.

S-Mage ★★ ()
Последнее исправление: S-Mage (всего исправлений: 1)
Ответ на: комментарий от Int64

Я-то откуда знаю, это ж твоя задача. В сферической задаче в вакууме я бы руками расставил десяток самых важных, а остальные просто по частоте встречаемости рассортировал.

S-Mage ★★ ()

В некоторые классификаторы встроено определение важности фич в процессе обучения. Например, в XGBoost это xgboost.Booster.get_fscore (Питон) и xgb.importance (R). В R gbm - influence. Если надо сократить число фич до обучения, то это методы минимизации размерности от PCA и далее

Bell ()

У тебя теги к документам привязаны? Сколько тегов у одного документа в среднем?.. Если 1-2, то TF-IDF конечно не о том. А если от 10 то уже можно попробовать. В одном проекте выбирали значимые слова для базы где документ это строка из 3-5 слов, в итоге проще всего оказалось руками отфильтровать (набор слов - тысячи).

ei-grad ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.