LINUX.ORG.RU

Поясните по правило Армихо (Armijo)

 ,


2

1

Всем доброго времени суток!
Поясните, что такое в правиле Armijo (https://en.wikipedia.org/wiki/Wolfe_conditions) направление спуска (search direction). В статье на вики оно обозначено р катое. Где-то я встречал намеки на то, что это градиент минимизируемой функции взятый с обратным знаком. Так ли это?

★★★

зависит от выбранного метода оптимизации. в конце статьи в качестве примера приводится квазиньютоновский метод и расчёт направления спуска для него

jtootf ★★★★★
()
Ответ на: комментарий от jtootf

Эмм, а «физический» смысл этой переменной вы можете объяснить? В градиентном спуске, я так понимаю, направление спуска - градиент с минусом?

LIKAN ★★★
() автор топика
Ответ на: комментарий от LIKAN

Ну так открой ссылку на вики, что я тебе дал :) Грубо говоря, это и есть ненулевой градиент (каламбур, да). Но он удобен как локальный термин со своими условиями.
P.S. Если реально не понял ссылку из вики - объясню ближе к вечеру, на работе не очень удобно.

Solace ★★
()
Ответ на: комментарий от LIKAN

wiki

Using this definition, the negative of a non-zero gradient is always a descent direction...

Solace ★★
()
Ответ на: комментарий от Solace

Более менее разобрался.:) Но подробности лишними точно не будут! Ещё одно маленькое уточнение. При помощи правило Армихо в частности рассчитывается скорость обучения (спуска) альфа для градиентного спуска, который, как правило осуществляется по нескольким параметрам. Так вот, нужно ли эту оптимальную альфу рассчитывать для каждого параметра отдельно?

LIKAN ★★★
() автор топика
Ответ на: комментарий от LIKAN

Alpha - это learning rate по сути, она может быть большой - тогда ты можешь не попасть в минимум. Может быть малой, тогда вычисления будут более долгими.

Но принципиальной разницы нет, я обычно подбирают при валидации.

Это по сути численный параметр точности вычисления.

Solace ★★
()
Последнее исправление: Solace (всего исправлений: 1)
Ответ на: комментарий от Solace

Хмм, что такое альфа я как раз понимаю. Альфа считается при помощи правила Армихо. Только вот если спуск оптимизирует сразу несколько параметров целевой ф-ции, то это правило нужно запускать для каждого параметра отдельно. Те скорость обучения для каждого параметра будет своя. Я все правильно понимаю?

LIKAN ★★★
() автор топика

Как тебе правильно сказали в первом комментарии — зависит от метода. Фраза «направление поиска» тебе понятна? Так вот в градиентных методах — это градиент/отрицательный градиент.

buddhist ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.