LINUX.ORG.RU

Новый алгоритм градиентного бустинга от Яндекса

 , ,


2

2

Компания «Яндекс» представила новый алгоритм градиентного бустинга на деревьях решений CatBoost. Также опубликован исходный код и ряд утилит для обучения и визуализации его результатов под лицензией Apache 2.0.

Градиентный бустинг активно используется в машинном обучении. Алгоритм CatBoost отличается поддержкой категориальных параметров «из коробки», а на тестах (с открытыми датасетами и исходным кодом) демонстрирует лучшие результаты, чем основные конкуренты: LightGBM, XGBoost, H2O.

>>> Репозиторий на GitHub

>>> Подробности

★★

Проверено: jollheef ()
Ответ на: комментарий от anonymous

Очередной «конкурент» XGBoost/LightGBM. Правда, у названных сообщество больше и за плечами опыт использования как в соревнованиях (Kaggle и иже с ними), так и промышленный.
А тут еще все сыровато.

Solace ★★ ()

class TClass {
public:
int Size;
int GetSize() {
return Size;
}
};
TClass object;
int GetValue();
void SetValue(int val);

На территории России Delphi и C++ Builder были популярны как нигде больше (еще бы им не быть популярными при цене в 50 рублей за диск).

dees ()
Ответ на: комментарий от Solace

У Яндекса опыт в этой области очень большой, причем с какого-то там 200* года, когда стали MatrixNet использовать. Но последний по природе проприетарный, поэтому используется только Яндексом и партнерами, а CatBoost следующий шаг. Так что кавычки тут не очень уместны: это действительно конкурент.

rymis ★★ ()
Ответ на: комментарий от dees

9 месяцев назад меня это бесило, сейчас абсолютно все равно, хотя до этого я писал на чистом C в userspace и ядре FreeBSD и в рамках GObject'а. Стиль, кстати, из конца 90х, так что все ожидаемо.

rymis ★★ ()
Ответ на: комментарий от Nefalius

Если сделал его сам в школе, молодец. Я в 5-ом классе изобрёл треугольник Лапласа. Когда учительница рассказала мне, что его уже 200 лет назад Лаплас открыл, я с одной стороны обрадовался, так как понял, что сделал не хрень собачью, а что-то и правда стоящее. Но всё равно огорчился. Может быть, твой однклассик станет приличным уёным.

Vudod ★★★★★ ()
Ответ на: комментарий от slaykovsky

Если сдохнет Яндекс - вы сильно переживать будете? А если кушать будет нечего - сильнее будете переживать или так же?

Можно сколько угодно зарабатывать биткойны и заниматься прочей симуляцией бурной деятельности. Но если на земле перестанут работать те люди, на которых действительно мир стоит - всё это IT-шное великолепие просто тихо по *** пойдёт.

DRVTiny ★★★★★ ()
Ответ на: комментарий от DRVTiny

Если тебя бросил парень, это ещё не повод здесь ныть про то что все пид...сы, а ты д’Артаньян. Яндекс делает дело, в отличие от здешних ыкспердов.

anonymous ()
Ответ на: комментарий от anonymous

Как обычно в машинном обучении: приблизить целевую функцию с помощью некоей модели. В данном случае модель это сумма очень простых деревьев выбора, что-то вроде:

if (value1 < CONST1) {
   if (value2 < CONST2) {
     return RESULT121;
  } else {
     return RESULT122;
  }
} else {
  if (value2 < CONST3) {
    return RESULT 221;
  } else {
     return RESULT 222;
  }
}

Только выбор более глубокий и подобных «деревьев выбора» очень много, а результат получается как сумма всех выбраных значений.

Могут встречаться и другие бустинги, с другими базовыми функциями.

Получается, что каждая функция очень простая, но в результате мы можем аппроксимировать очень сложные фукнции.

rymis ★★ ()
Ответ на: комментарий от zoloz

Если не убьет себя, то возможна некоторая вероятность, что начнет атомы перерабатывать на скрепки. То есть, навредить может даже без осознания того, что люди враги.

Впрочем, до ИИ еще не так уж и близко.

anonymous ()
Ответ на: комментарий от PtiCa

Апач это такая лицензия, под которой солидные фирмы выкладывают разный ненужный и неподдерживаемый хлам. Раньше такое просто выбрасывалось на помойку безо всяких лицензий.

Lucky ()

Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.

Приличное использование.

anonymous ()

бустинга от Яндекса

А алгоритм установки Яндекс.Бара, Спутника, Защитника и прочей вирусни на компьютеры пользователей они будут выкладыать на GitHub?

EXL ★★★★ ()
Последнее исправление: EXL (всего исправлений: 1)

наконец то товарищу «AP» ответили )) ,ато он вначале думал что его коменты никого не вставляют
люди ачо вы про такси завелись ,в месте где вы сейчас вас зомбировали таксоманией ?
гугл конечно лучше в поиске ,там найти желаемое больше вариантов ,ну и оформления ядовито жёлтого нету
это всё зависит в первую очередь от популярности поисковой системы : кто из владельцев сайтов вставляет robots.txt от гугла в корень сайта ? правильно все в мире ,а кто от яндекса ? правильно никто так как в бразилии никто не знает про яндекс .,есть же гугл.
второе это мощность вычислительной системы гугла ,от этого зависит скорость обновления и соответственно лучшие результаты поиска .

zoloz ()
Ответ на: комментарий от DRVTiny

Если сдохнет Яндекс - вы сильно переживать будете?

Сильно, это значит IT сфера в РФ загнется и мне, скорее всего, станет нечего кушать - придется искать трактор. А за деньги еду и из Африки привезут.

peregrine ★★★★★ ()
Ответ на: комментарий от DRVTiny

гы-гы

Когда-то тесть устроил экскурсию по горно-обогатительному комбинату, году в 1989. Магнитные сепараторы, грохоты, грузовики камацу для возить руду из карьера, трубопровод с пульпой тоже из карьера, производство окатышей, ну еще много чего.

А еще там стоял промышленный комр от HP. А на нем крутился софт, который управлял все заслонками и прочим железным барахлом на обогатительной фабрике и фабрике окомкования. На всем оборудовании также стояли локальные системы управления, которые были аналоговыми, стояли как резерв. Потом тесть сказал, что они посчитали как упадет производительность фабрик, если этот HP остановится. Теоретический предел 18% от номинальной производительности с HP.

Мечтай дальше на счет ненужности IT.

anonymous ()