Машинное обучение TF-IDF автотегирование

0

1

Пытаюсь решить задачу, у меня программа сгенерировала достаточно много тегов, я их нормализовал, убрал повторяющиеся итд. Теперь хочу обучить алгоритм так, чтобы из этих тегов выбрал самые важные, слышал про TF-IDF но как я понял он генерирует фичи из текста, т.е. их потом можно положить в какойнить DecisionTree и обучить, но какой формат данных должен быть тогда на выходе? так же текст? или какая-то структура данных? до этого только с числами работал.

Ссылка

← Сортировка списка множеств по степени пересечения с данной

Почему сохранение любого файла вызывает редеплой на GlassFish в NetBeans? →

tf-idf тебе не подойдет, он строит для слова и корпуса текстов некоторое отношение f(количество упоминаний на текст; количество текстов, в которых упоминалось слово). Как это присобачить к тегам, я не понимаю.

S-Mage ★★
(29.11.15 11:31:10 MSK)
Последнее исправление: S-Mage 29.11.15 11:34:04 MSK (всего исправлений: 1)

Ответ на: комментарий от S-Mage 29.11.15 11:31:10 MSK

а что нужно тогда?

Int64 ★★★
(29.11.15 11:34:33 MSK) автор топика

Ответ на: комментарий от Int64 29.11.15 11:34:33 MSK

Я-то откуда знаю, это ж твоя задача. В сферической задаче в вакууме я бы руками расставил десяток самых важных, а остальные просто по частоте встречаемости рассортировал.

S-Mage ★★
(29.11.15 11:39:27 MSK)

Ссылка

Ответ на: комментарий от Int64 29.11.15 11:34:33 MSK

тебе нужно feature selection

shty ★★★★★
(29.11.15 15:01:48 MSK)

Ссылка

В некоторые классификаторы встроено определение важности фич в процессе обучения. Например, в XGBoost это xgboost.Booster.get_fscore (Питон) и xgb.importance (R). В R gbm - influence. Если надо сократить число фич до обучения, то это методы минимизации размерности от PCA и далее

Bell
(29.11.15 17:26:41 MSK)

Ссылка

У тебя теги к документам привязаны? Сколько тегов у одного документа в среднем?.. Если 1-2, то TF-IDF конечно не о том. А если от 10 то уже можно попробовать. В одном проекте выбирали значимые слова для базы где документ это строка из 3-5 слов, в итоге проще всего оказалось руками отфильтровать (набор слов - тысячи).

ei-grad ★★★★★
(30.11.15 15:33:56 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Сортировка списка множеств по степени пересечения с данной

Development

Почему сохранение любого файла вызывает редеплой на GlassFish в NetBeans? →

Похожие темы