LINUX.ORG.RU

Поясните по правило Армихо (Armijo)

 ,


2

1

Всем доброго времени суток!
Поясните, что такое в правиле Armijo (https://en.wikipedia.org/wiki/Wolfe_conditions) направление спуска (search direction). В статье на вики оно обозначено р катое. Где-то я встречал намеки на то, что это градиент минимизируемой функции взятый с обратным знаком. Так ли это?


зависит от выбранного метода оптимизации. в конце статьи в качестве примера приводится квазиньютоновский метод и расчёт направления спуска для него

jtootf
()
Ответ на: комментарий от jtootf

Эмм, а «физический» смысл этой переменной вы можете объяснить? В градиентном спуске, я так понимаю, направление спуска - градиент с минусом?

LIKAN
() автор топика
Ответ на: комментарий от LIKAN

Ну так открой ссылку на вики, что я тебе дал :) Грубо говоря, это и есть ненулевой градиент (каламбур, да). Но он удобен как локальный термин со своими условиями.
P.S. Если реально не понял ссылку из вики - объясню ближе к вечеру, на работе не очень удобно.

Solace
()
Ответ на: комментарий от LIKAN

wiki

Using this definition, the negative of a non-zero gradient is always a descent direction...

Solace
()
Ответ на: комментарий от Solace

Более менее разобрался.:) Но подробности лишними точно не будут! Ещё одно маленькое уточнение. При помощи правило Армихо в частности рассчитывается скорость обучения (спуска) альфа для градиентного спуска, который, как правило осуществляется по нескольким параметрам. Так вот, нужно ли эту оптимальную альфу рассчитывать для каждого параметра отдельно?

LIKAN
() автор топика
Ответ на: комментарий от LIKAN

Alpha - это learning rate по сути, она может быть большой - тогда ты можешь не попасть в минимум. Может быть малой, тогда вычисления будут более долгими.

Но принципиальной разницы нет, я обычно подбирают при валидации.

Это по сути численный параметр точности вычисления.

Solace
()
Последнее исправление: Solace (всего исправлений: 1)
Ответ на: комментарий от Solace

Хмм, что такое альфа я как раз понимаю. Альфа считается при помощи правила Армихо. Только вот если спуск оптимизирует сразу несколько параметров целевой ф-ции, то это правило нужно запускать для каждого параметра отдельно. Те скорость обучения для каждого параметра будет своя. Я все правильно понимаю?

LIKAN
() автор топика

Как тебе правильно сказали в первом комментарии — зависит от метода. Фраза «направление поиска» тебе понятна? Так вот в градиентных методах — это градиент/отрицательный градиент.

buddhist ☕☕☕☕
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.