История изменений
Исправление kirill_rrr, (текущая версия) :
А почему именно avx512? avx2 в тестах вроде же даёт отставание на процентов 10-20 всего.
Нужно много каналов памяти. Много процессоров. Чтоб получать результат не за 20 минут.
Так там же по 8 каналов на материнку. Больше только у намного более дорогого железа. То что цпу типа занят, но по факту стоит и ждёт, мало греясь это такая багофича что надо ловить момент: поиграть частотами вниз чтобы он ждал потребляя ещё меньше, и пусть работают контроллеры памяти а не ядра.
Там нужно думать как запустить половину вычислений на одном проце и одной памяти, а другую на другой. Кажется, ровно тем же методом, как распределяются вычисления по компам сети
Метод тот же, но физической сети между кластерами не будет. В самом худшем случае - вииртуальная между виртуалками. А вообще, разве этот вопрос не решён в самих нейронках? Их же изначально под серверы и кластеры разрабатывали, а не под сферический 1024-канальный SMT-процессор спетабайтом равноудалённой оперативки. В конце концов несколько видеокарт с отдельными и довольно небольшими видеопамятями это задача посложнее.
Опять же упирается в сеть. Диск скорей сетевой, NFS
Это то зачем? 4 сата-портов или 1 PCIe под плату-расширитель не найдётся? Или я чего то не знаю и модели в процессе работы нужно свопиться десятками терабайт?
Да и собственно 20 минут это вполне приемлимо - я например сейчас решаю задачу найти кнопочный смартфон. Это отсёрфить 2-3 сотни сайтов, 50-100 из них надо прочиать. Вот если бы это могла сделать нейронка... Вручную это часов 16-24. И такие задачи - грепнуть интернет - периодически возникают.
Исходная версия kirill_rrr, :
А посему именно avx512? avx2 в тестах вроде же даёт отставание на процентов 10-20 всего.
Нужно много каналов памяти. Много процессоров. Чтоб получать результат не за 20 минут.
Так там же по 8 каналов на материнку. Больше только у намного более дорогого железа. То что цпу типа занят, но по факту стоит и ждёт, мало греясь это такая багофича что надо ловить момент: поиграть частотами вниз чтобы он ждал потребляя ещё меньше, и пусть работают контроллеры памяти а не ядра.
Там нужно думать как запустить половину вычислений на одном проце и одной памяти, а другую на другой. Кажется, ровно тем же методом, как распределяются вычисления по компам сети
Метод тот же, но физической сети между кластерами не будет. В самом худшем случае - вииртуальная между виртуалками. А вообще, разве этот вопрос не решён в самих нейронках? Их же изначально под серверы и кластеры разрабатывали, а не под сферический 1024-канальный SMT-процессор спетабайтом равноудалённой оперативки. В конце концов несколько видеокарт с отдельными и довольно небольшими видеопамятями это задача посложнее.
Опять же упирается в сеть. Диск скорей сетевой, NFS
Это то зачем? 4 сата-портов или 1 PCIe под плату-расширитель не найдётся? Или я чего то не знаю и модели в процессе работы нужно свопиться десятками терабайт?
Да и собственно 20 минут это вполне приемлимо - я например сейчас решаю задачу найти кнопочный смартфон. Это отсёрфить 2-3 сотни сайтов, 50-100 из них надо прочиать. Вот если бы это могла сделать нейронка... Вручную это часов 16-24. И такие задачи - грепнуть интернет - периодически возникают.