LINUX.ORG.RU

Новый алгоритм градиентного бустинга от Яндекса

 , ,


2

2

Компания «Яндекс» представила новый алгоритм градиентного бустинга на деревьях решений CatBoost. Также опубликован исходный код и ряд утилит для обучения и визуализации его результатов под лицензией Apache 2.0.

Градиентный бустинг активно используется в машинном обучении. Алгоритм CatBoost отличается поддержкой категориальных параметров «из коробки», а на тестах (с открытыми датасетами и исходным кодом) демонстрирует лучшие результаты, чем основные конкуренты: LightGBM, XGBoost, H2O.

>>> Репозиторий на GitHub

>>> Подробности

★★

Проверено: jollheef ()

Красавы. А под какой лицензией?

Sociopsih ★★ ()
Ответ на: комментарий от Sociopsih

А можно поподробнее, какой diff между bsd- и апач- лицензиями тебя так настораживает?

PtiCa ★★★★★ ()

Надо сказать шефу, чтобы разрешил нам опубликовать алгоритм контракогерентного демиксалайзинга

buddhist ★★★★★ ()
Последнее исправление: buddhist (всего исправлений: 1)

Алгоритм градиентного коучинга как-то актуальнее.

cantus ()

Кто разбирается вот в этом всём? Об чем там вкраце?

anonymous ()
Ответ на: комментарий от anonymous

Как проще компами дурить народ.

P.S. Все эти нейроные сети попытки приблизить Матрицу.

mx__ ★★★ ()

Прямо собрание социалистов. Ко-ко-ко, мозги работают на торгашей.

anonymous ()
Ответ на: комментарий от anonymous

Очередной «конкурент» XGBoost/LightGBM. Правда, у названных сообщество больше и за плечами опыт использования как в соревнованиях (Kaggle и иже с ними), так и промышленный.
А тут еще все сыровато.

Solace ★★ ()

class TClass {
public:
int Size;
int GetSize() {
return Size;
}
};
TClass object;
int GetValue();
void SetValue(int val);

На территории России Delphi и C++ Builder были популярны как нигде больше (еще бы им не быть популярными при цене в 50 рублей за диск).

dees ()
Ответ на: комментарий от Solace

У Яндекса опыт в этой области очень большой, причем с какого-то там 200* года, когда стали MatrixNet использовать. Но последний по природе проприетарный, поэтому используется только Яндексом и партнерами, а CatBoost следующий шаг. Так что кавычки тут не очень уместны: это действительно конкурент.

rymis ★★ ()
Ответ на: комментарий от dees

9 месяцев назад меня это бесило, сейчас абсолютно все равно, хотя до этого я писал на чистом C в userspace и ядре FreeBSD и в рамках GObject'а. Стиль, кстати, из конца 90х, так что все ожидаемо.

rymis ★★ ()

А мой одноклассник опубликовал алгоритм градиентного спуска. Круто, да?

Nefalius ()
Ответ на: комментарий от Nefalius

Если сделал его сам в школе, молодец. Я в 5-ом классе изобрёл треугольник Лапласа. Когда учительница рассказала мне, что его уже 200 лет назад Лаплас открыл, я с одной стороны обрадовался, так как понял, что сделал не хрень собачью, а что-то и правда стоящее. Но всё равно огорчился. Может быть, твой однклассик станет приличным уёным.

Vudod ★★★★★ ()
Ответ на: комментарий от ecko

Что понятно?

Я не знаю, есть ли об этом в code style, но stroka вместо str это фишка.

namezys ★★★★ ()
Ответ на: комментарий от rymis

Так что кавычки тут не очень уместны: это действительно конкурент.

Когда использовать начнут - может стать конкурентом. А пока это так.

Solace ★★ ()
Ответ на: комментарий от slaykovsky

Если сдохнет Яндекс - вы сильно переживать будете? А если кушать будет нечего - сильнее будете переживать или так же?

Можно сколько угодно зарабатывать биткойны и заниматься прочей симуляцией бурной деятельности. Но если на земле перестанут работать те люди, на которых действительно мир стоит - всё это IT-шное великолепие просто тихо по *** пойдёт.

DRVTiny ★★★★★ ()
Ответ на: комментарий от DRVTiny

Если тебя бросил парень, это ещё не повод здесь ныть про то что все пид...сы, а ты д’Артаньян. Яндекс делает дело, в отличие от здешних ыкспердов.

anonymous ()
Ответ на: комментарий от Nefalius

И чо? Реализовать стохастический градиентный спуск и просто градиентный спуск - это, в общем-то, учебная задача.

Пост про другое.

Octagon ()
Ответ на: комментарий от DRVTiny

Если яндекс сдохнет - эти ребята пойдут в другое место работать.

Остальное какой-то непонятный поток сознания.

slaykovsky ()

Сейчас как раз шумиха вокруг машинного обучения. Своевременно

dave ★★★★★ ()

А в чем суть этого бустинга вообще? Соединить алгоритмы вместе в большой костыль?

anonymous ()
Ответ на: комментарий от Vudod

треугольник Лапласа

Эрудированная учительница. Треуг. Паскаля знаю (бином. коэф.), а Лапласа - увы. Это что?

the1 ()

Новый алгоритм градиентного бустинга

Нужно по-русски: cвежеиспечённое предписание наикрутейшего усовершенствования :)

quickquest ★★★★★ ()
Ответ на: комментарий от anonymous

Как обычно в машинном обучении: приблизить целевую функцию с помощью некоей модели. В данном случае модель это сумма очень простых деревьев выбора, что-то вроде:

if (value1 < CONST1) {
   if (value2 < CONST2) {
     return RESULT121;
  } else {
     return RESULT122;
  }
} else {
  if (value2 < CONST3) {
    return RESULT 221;
  } else {
     return RESULT 222;
  }
}

Только выбор более глубокий и подобных «деревьев выбора» очень много, а результат получается как сумма всех выбраных значений.

Могут встречаться и другие бустинги, с другими базовыми функциями.

Получается, что каждая функция очень простая, но в результате мы можем аппроксимировать очень сложные фукнции.

rymis ★★ ()

а если янукс решит что люди это враги ?

zoloz ()
Ответ на: комментарий от Octagon

Я думал Яндекс проспонсирует нас шоколадкой и каникулами.

Nefalius ()
Ответ на: комментарий от PtiCa

Апач это такая лицензия, под которой солидные фирмы выкладывают разный ненужный и неподдерживаемый хлам. Раньше такое просто выбрасывалось на помойку безо всяких лицензий.

Lucky ()

Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.

Приличное использование.

anonymous ()
Ответ на: комментарий от PtiCa

Уверен никакой. Просто нужно пошуметь.

ii8_ ★★★★ ()
Ответ на: комментарий от Vudod

Не знаю, что такое треугольник Лапласа, но открыть что-либо Лапласа в 12 лет это эпично. Герр Гаусс перелогиньтесь.

mos ★★★★★ ()
Ответ на: комментарий от anonymous

Так вот чем авторы SOMA упарывались

mos ★★★★★ ()

Статья вроде про ML, а комментах танцпол развели.

Где модеры вообще?

theLastOfCats ()
Ответ на: комментарий от anonymous

А можно мне, как человеку плохо знающему плюсы, пояснить в чем проблема с этим кодом?

rymis ★★ ()
Ответ на: комментарий от anonymous

они там вообще плюсы знают на каком уровне?

Поздравляю, ты нашел до чего докопаться. Ты - Герой.

anonymous ()

бустинга от Яндекса

А алгоритм установки Яндекс.Бара, Спутника, Защитника и прочей вирусни на компьютеры пользователей они будут выкладыать на GitHub?

EXL ★★★★★ ()
Последнее исправление: EXL (всего исправлений: 1)

наконец то товарищу «AP» ответили )) ,ато он вначале думал что его коменты никого не вставляют
люди ачо вы про такси завелись ,в месте где вы сейчас вас зомбировали таксоманией ?
гугл конечно лучше в поиске ,там найти желаемое больше вариантов ,ну и оформления ядовито жёлтого нету
это всё зависит в первую очередь от популярности поисковой системы : кто из владельцев сайтов вставляет robots.txt от гугла в корень сайта ? правильно все в мире ,а кто от яндекса ? правильно никто так как в бразилии никто не знает про яндекс .,есть же гугл.
второе это мощность вычислительной системы гугла ,от этого зависит скорость обновления и соответственно лучшие результаты поиска .

zoloz ()
Ответ на: комментарий от Nefalius

Круто, конечно. Большинство школьников не знают про градиентный спуск.

peregrine ★★★★★ ()
Ответ на: комментарий от DRVTiny

Если сдохнет Яндекс - вы сильно переживать будете?

Сильно, это значит IT сфера в РФ загнется и мне, скорее всего, станет нечего кушать - придется искать трактор. А за деньги еду и из Африки привезут.

peregrine ★★★★★ ()
Ответ на: комментарий от DRVTiny

гы-гы

Когда-то тесть устроил экскурсию по горно-обогатительному комбинату, году в 1989. Магнитные сепараторы, грохоты, грузовики камацу для возить руду из карьера, трубопровод с пульпой тоже из карьера, производство окатышей, ну еще много чего.

А еще там стоял промышленный комр от HP. А на нем крутился софт, который управлял все заслонками и прочим железным барахлом на обогатительной фабрике и фабрике окомкования. На всем оборудовании также стояли локальные системы управления, которые были аналоговыми, стояли как резерв. Потом тесть сказал, что они посчитали как упадет производительность фабрик, если этот HP остановится. Теоретический предел 18% от номинальной производительности с HP.

Мечтай дальше на счет ненужности IT.

anonymous ()

Зачем вообще нужна эта машина Лернинга не понятно.

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.