История изменений
Исправление shkolnick-kun, (текущая версия) :
Вернулся к проекту.
Попробовал имбеддинги Laser, это векторные представления предложений(я подавал туда тупо весь пост), мультиязычные, типа zero-shot.
Вот результаты для LinearSVC поверх этих самы имбеддингов (данные и разметка - как тут).
--------------------------------
Пункт правил: 5.1
--------------------------------
Accuracy: 0.8041543026706232
Precision: 0.7935103244837758
Recall: 0.45210084033613446
F1: 0.576017130620985
ROC AUC: 0.8328708638325688
--------------------------------
Пункт правил: 4.6
--------------------------------
Accuracy: 0.9782393669634025
Precision: 0.990909090909091
Recall: 0.7171052631578947
F1: 0.83206106870229
ROC AUC: 0.968897762454264
--------------------------------
Пункт правил: 4.3, 5.3, 5.2
--------------------------------
Accuracy: 0.7799208704253214
Precision: 0.7817089452603472
Recall: 0.9084561675717611
F1: 0.840330104054539
ROC AUC: 0.8276909138825004
Что точно можно сказать, так это то, что спам с их помощью действительно можно детектить эффективно…
Вопрос с качеством разметки никуда не делся, придется заниматься SSL/PU-learning…
Исходная версия shkolnick-kun, :
И снова здравствуйте.
Вернулся к проекту.
Попробовал имбеддинги Laser, это векторные представления предложений(я подавал туда тупо весь пост), мультиязычные, типа zero-shot.
Вот результаты для LinearSVC поверх этих самы имбеддингов (данные и разметка - как тут).
--------------------------------
Пункт правил: 5.1
--------------------------------
Accuracy: 0.8041543026706232
Precision: 0.7935103244837758
Recall: 0.45210084033613446
F1: 0.576017130620985
ROC AUC: 0.8328708638325688
--------------------------------
Пункт правил: 4.6
--------------------------------
Accuracy: 0.9782393669634025
Precision: 0.990909090909091
Recall: 0.7171052631578947
F1: 0.83206106870229
ROC AUC: 0.968897762454264
--------------------------------
Пункт правил: 4.3, 5.3, 5.2
--------------------------------
Accuracy: 0.7799208704253214
Precision: 0.7817089452603472
Recall: 0.9084561675717611
F1: 0.840330104054539
ROC AUC: 0.8276909138825004