LINUX.ORG.RU

История изменений

Исправление shkolnick-kun, (текущая версия) :

Вернулся к проекту.

Попробовал имбеддинги Laser, это векторные представления предложений(я подавал туда тупо весь пост), мультиязычные, типа zero-shot.

Вот результаты для LinearSVC поверх этих самы имбеддингов (данные и разметка - как тут).

--------------------------------
Пункт правил: 5.1
--------------------------------
 Accuracy: 0.8041543026706232
Precision: 0.7935103244837758
   Recall: 0.45210084033613446
       F1: 0.576017130620985
  ROC AUC: 0.8328708638325688
--------------------------------
Пункт правил: 4.6
--------------------------------
 Accuracy: 0.9782393669634025
Precision: 0.990909090909091
   Recall: 0.7171052631578947
       F1: 0.83206106870229
  ROC AUC: 0.968897762454264
--------------------------------
Пункт правил: 4.3, 5.3, 5.2
--------------------------------
 Accuracy: 0.7799208704253214
Precision: 0.7817089452603472
   Recall: 0.9084561675717611
       F1: 0.840330104054539
  ROC AUC: 0.8276909138825004

Что точно можно сказать, так это то, что спам с их помощью действительно можно детектить эффективно…

Вопрос с качеством разметки никуда не делся, придется заниматься SSL/PU-learning…

Исходная версия shkolnick-kun, :

И снова здравствуйте.

Вернулся к проекту.

Попробовал имбеддинги Laser, это векторные представления предложений(я подавал туда тупо весь пост), мультиязычные, типа zero-shot.

Вот результаты для LinearSVC поверх этих самы имбеддингов (данные и разметка - как тут).

--------------------------------
Пункт правил: 5.1
--------------------------------
 Accuracy: 0.8041543026706232
Precision: 0.7935103244837758
   Recall: 0.45210084033613446
       F1: 0.576017130620985
  ROC AUC: 0.8328708638325688
--------------------------------
Пункт правил: 4.6
--------------------------------
 Accuracy: 0.9782393669634025
Precision: 0.990909090909091
   Recall: 0.7171052631578947
       F1: 0.83206106870229
  ROC AUC: 0.968897762454264
--------------------------------
Пункт правил: 4.3, 5.3, 5.2
--------------------------------
 Accuracy: 0.7799208704253214
Precision: 0.7817089452603472
   Recall: 0.9084561675717611
       F1: 0.840330104054539
  ROC AUC: 0.8276909138825004