LINUX.ORG.RU

Проект Нейромодератор

 , ,


5

6

Точнее «нейрокрыса»: т.к. модераторских полномочий у меня нет, я лишь могу сделать скрипты, которые будут отписываться в специальный тред

Тема навеяна Бан без причины (комментарий)

Суть такова: буду пилить набор скриптов для «выявления подозрительных сообщений», обучать буду на текстах с LORа, которые были удалены модераторами.

Когда доделаю попрошу модераторов оценить качество работы сабжа.

На данный момент:

  • скачан архив тредов с января по май 2019;
  • идет первичный анализ данных;
  • идет подготовка к разметке данных.

Проблема: модераторы указывают причины вручную (или не указывают совсем), соответственно:

  • есть сомнения в качестве разметки,
  • текстовую разметку придется превращать в разметку для классификации;

Для решения проблемы сформированы:

Да, разделитель в файлах - точка с запятой.

Прошу модераторов поглядеть в файлы по ссылкам и внести свои пожелания по классам для разметки, корректировки таблицы соответствия.

cast @jollheef, @Shaman007, @maxcom

Апдейт 1 (13.06.2019)

По результатам обсуждения тут решил:

  • В качестве положительных примеров брать удаленные модераторам вручную сообщения, для которых указаны нормальные причины а не всякий треш.

  • В качестве отрицательных - оставленные модераторами собщения из тех же топиков, что и удаленные.

  • Если данных хватать не будет - добью неудаленными из других топиков.

Пришлось немного переформатировать датасет (датафрейм pandas), т.к. раннее там не было ссылок сообщение-топик.

В эти выходные сделаю обучающую выборку и попробую сделать бинарный классификатор.

Если получится, - на следующей неделе буду пилить нейромодератора нейроябеду.

Апдейт 2 (16.06.2019)

Апдейт 3 (16.06.2019)

Апдейт 4 (16.06.2019)

Апдейт 5 (17.06.2019)

Апдейт 6 (22.06.2019)

Апдейт 7 (22.06.2019)

Апдейт 8 (27.06.2019)

Апдейт 9 (30.06.2019)

Апдейт 10(05.07.2019)

Апдейт 11(14.09.2019)

Апдейт 12(08.12.2019)

Проект на GitHub

Тестовый тред

Надо еще определятор стиля речи добавить, и фотографирования рожи злостного нарушителя с вебки, так же на компьютерах пользователей должны майнятся биткоины и потом киллерам в даркнете будут отправлятся задания по убийству самых плохих пользователей!

Deleted ()

нейронные сети

Хватит канифолить мозги с этими так называемые сетями, какой алгоритм, статистику, вероятность заложишь - такой результат и получишь. И не забывайте добавлять что они искусственные!!! Как можно моделировать то, что не изучено, работа мозга тайна из тайн.

anonymous ()
Ответ на: комментарий от peregrine

Внесут бан твоему нейромодератору за флуд, а потом и тебя забанят.

Ничего подобного. Идея давно витает в облаках, но пока ни у кого не доходили руки сделать.

Банить за подобное никто не будет (по крайней мере, я – точно буду против).

Deleted ()
Ответ на: комментарий от RazrFalcon

Владимир

У царя все суждения типа - «всех и вся нужно помножить на ноль, так как они пустой ноль» /при чем это касается не только форумчан, а буквально всего/.

anonymous ()
Ответ на: комментарий от RazrFalcon

Опередил. Царь в таком случае вообще аккаунты не сможет создавать, они через пару-тройку постов будут улетать в бан. Придется прогибаться и менять манеру поведения и речи. Все ради множения на ноль :)

anonymous ()

Легко перетренировать же будет, пишешь такой свою очередную простынку, да вставляешь в серёдке словцо, модератор подгорает - сообщение удаляет, машинка учится.

BRATISLAVA ()

Префикс «Нейро» зачем? Я понимаю что красиво, но правильнее наверное «Авто». А если кто-то сделает на реальных нейросетке которая сможет определять скрытый мат и тонкие оскорбления?

LINUX-ORG-RU ()
Ответ на: комментарий от Deleted

Вместе с теми, кто с ним «на серьезных щах» ведет дискуссию.

Модератору только бы кого-нибудь забанить, как царю кого-нибудь поделить на ноль. Два сапога - пара. Одни (цари) делят на ноль, другие - банят. Вот такая вот «несерьезная» дискуссия. Главное, чтобы односторонне обученная нейросетка недогадалась, а то всех дискутеров перебанит/заспамит. (Может быть это хорошо, что весь агр конденсируется вокруг царя, а не неизвестно где разрастается метастазами)

anonymous ()
Ответ на: комментарий от RazrFalcon

Потому что чтобы знать, что это очередная инкарнация «царя» нужна достаточная выборка с его высказываниями. Если бы вместо бана, были бы «царские» зведочки, то собеседник бы сразу знал с кем общается, а не использовал бы односторонее обученную нейросетку для идентификации царя.

anonymous ()
Ответ на: комментарий от Deleted

Именно.

Пока данных должно хватить на бинарный классификатор (удалять или нет?).

Если бинарный классификатор «зайдет», дособеру данные и сделаю категориальную (или ещё какую) классификацию «удаляемых» сообщений, и, возможно, - оценку снимаемого скора.

shkolnick-kun ★★★★ ()
Ответ на: комментарий от shkolnick-kun

Это одна из гипотез, которые я пробую проверить.

На живых людях, все ради «царя». Поздравляю, «царь» вас победил. Крепостное право, играем в азартные игры на крестьян.

anonymous ()

обучать буду на текстах с LORа, которые были удалены модераторами.

Сайчас у каждого модератора свои заскоки, а твоя нейросеть будет сочетать их все, ты уверен, что оно надо?

ya-betmen ★★★★★ ()
Ответ на: комментарий от ya-betmen

Сайчас у каждого модератора свои заскоки, а твоя нейросеть будет сочетать их все, ты уверен, что оно надо?

он видимо думает что его не коснется, иначе хз как объяснить то что кто то в здравом уме пилит всякое дерьм* вроде систем тотального слежения и дронов с электрошоком и лазерными пушками

BLOBster ()
Ответ на: комментарий от Deleted

если добавить к мрачной картине продукцию Boston Dynamics, беспилотные автомобили которые можно взломать и управлять ими удаленно и прочие падающие боинги с ИИ, становится совсем не смешно

BLOBster ()
Ответ на: комментарий от BLOBster

если добавить к мрачной картине

Есть одно НО. Маркетологи сильно приукрашают уровень данных технологий. Это и понятно. А тот, кто хоть чуть ковырялся с этим, знает, какое кол-во «фокусов-покусов» и пр. лажи для этой «красоты» применяется. Так что, то о чём вы грезите, не так уж и близко. И ещё не скоро от всей «лажи» удасться избавиться.

Deleted ()