LINUX.ORG.RU

Избранные сообщения Vit

Проект Нейромодератор

Форум — Development

Точнее «нейрокрыса»: т.к. модераторских полномочий у меня нет, я лишь могу сделать скрипты, которые будут отписываться в специальный тред

Тема навеяна Бан без причины (комментарий)

Суть такова: буду пилить набор скриптов для «выявления подозрительных сообщений», обучать буду на текстах с LORа, которые были удалены модераторами.

Когда доделаю попрошу модераторов оценить качество работы сабжа.

На данный момент:

  • скачан архив тредов с января по май 2019;
  • идет первичный анализ данных;
  • идет подготовка к разметке данных.

Проблема: модераторы указывают причины вручную (или не указывают совсем), соответственно:

  • есть сомнения в качестве разметки,
  • текстовую разметку придется превращать в разметку для классификации;

Для решения проблемы сформированы:

Да, разделитель в файлах - точка с запятой.

Прошу модераторов поглядеть в файлы по ссылкам и внести свои пожелания по классам для разметки, корректировки таблицы соответствия.

cast @jollheef, @Shaman007, @maxcom

Апдейт 1 (13.06.2019)

По результатам обсуждения тут решил:

  • В качестве положительных примеров брать удаленные модераторам вручную сообщения, для которых указаны нормальные причины а не всякий треш.

  • В качестве отрицательных - оставленные модераторами собщения из тех же топиков, что и удаленные.

  • Если данных хватать не будет - добью неудаленными из других топиков.

Пришлось немного переформатировать датасет (датафрейм pandas), т.к. раннее там не было ссылок сообщение-топик.

В эти выходные сделаю обучающую выборку и попробую сделать бинарный классификатор.

Если получится, - на следующей неделе буду пилить нейромодератора нейроябеду.

Апдейт 2 (16.06.2019)

Апдейт 3 (16.06.2019)

Апдейт 4 (16.06.2019)

Апдейт 5 (17.06.2019)

Апдейт 6 (22.06.2019)

Апдейт 7 (22.06.2019)

Апдейт 8 (27.06.2019)

Апдейт 9 (30.06.2019)

Апдейт 10(05.07.2019)

Апдейт 11(14.09.2019)

Апдейт 12(08.12.2019)

Проект на GitHub

Тестовый тред

 , ,

shkolnick-kun ()

Курс лекций «Современный и эффективный С++»

Форум — Development

На Хабре выложили список лекций, посвященный языку C++. Рассматриваются такие темы как: С++11, C++14, C++17, STL, метапрограммирование, неопределенное поведение.

 , , ,

Dvorak ()

Замена сервера Linux.org.ru

Новости — Linux.org.ru
Группа Linux.org.ru

Компания Ittelo (ООО «Серверный Флот»), специализирующаяся на продаже б/у серверов и комплектующих, предоставила нам сервер для сайта Linux.org.ru. Сервер не новый, но по характеристикам превосходит используемое нами сейчас оборудование, ресурсов которого нам недавно стало не хватать.

Сейчас наш сайт работает на двух двухядерных чипах Xeon 5140 (анонсированных еще в 2006 году) и 12Gb оперативной памяти FB-DIMM DDR2. Предоставленный нам сервер оборудован двумя четырехядерными чипами Xeon E5620 и 48Gb оперативной памяти. По нашим расчетам в оперативной памяти будет закеширована вся БД сайта и индекс полнотекстового поиска, также теперь у нас будет запас по ресурсам CPU.

Замену сервера произведем в течение ближайших двух-трех недель — за это время мы установим в сервер жесткие диски, установим операционную систему (скорее всего CentOS 7), подготовим нужное нам ПО и решим вопросы с установкой оборудования в стойку. Сам переход на новый сервер постараемся сделать с минимальным downtime'ом.

>>> Ittelo.ru

 , ,

maxcom ()

Анонсирован Fontello — генератор иконочных шрифтов для веба

Новости — Интернет
Группа Интернет

На днях открылся публично проект Fontello, предназначенный для тех, кто делает современные вебсайты и выкладывает графику в виде шрифтов. Его цель — максимально упростить работу с подобными шрифтами (объединение глифов из разных источников, выкидывание лишнего, генерация сопутствующих файлов). Fontello позволяет выбрать те иконки, которые потребуются для вашей конкретной задачи, и собирает из них фонт минимального размера.

В проект включены 3 самых популярных свободных иконочных шрифта — Entypo, Awesome и Iconic. Также сделана подборка Brandico, специально для иконок мессенджеров и социальных сервисов — их часто не хватает в других коллекциях.

Помимо вебсайта, авторы подготовили набор утилит font-builder для упрощенной генерации шрифтов из SVG-изображений. Это чем-то похоже на генератор от Font Squirrel, но специально для иконок и с открытым исходным кодом. Автоматизировано все, включая хинтинг. Font Builder уже используется для генерации Entypo и показал хорошие результаты.

Также в планах проекта сделать иконочный шрифт, наполняемый по принципу «crowd source».

Исходные коды Fontello распространяются под лицензией MIT.

>>> Подробности

 , ,

Vit ()