LINUX.ORG.RU

Dell PowerEdge R910 для нищебродов?


0

1

Я нашел себе партнера-спонсора, предоставляющего сервер для сшивки панорамы. Кстати, очень-очень-очень крутой сервер. Но сейчас не об этом. Об этом будет пресс-релиз по итогам.

Посмотрев на цены «у дилера», я решил, ради хохмы, погуглить комплектуху. Вышло забавно:

Одно из предложений мамок для 910-го: http://www.scsistuff-store.com/servlet/the-12294/Dell-PowerEdge-R910-Server/D...

На ебее и в других местах еще находил. Цены от 600 баксов до 900 фунтов. Т.е. совершенно вменяемо.

Только вот memory riser'ы дорогие: http://www.ebay.com/itm/Dell-R910-Memory-Riser-Board-for-Dell-PowerEdge-R910-... от 200 баксов.

Т.е. на «мать + райзеры до 64 слотов рамы» стоят от 2400 баксов. Но 64 слота рамы это вам не в тапки..

Процы (E7) можно на ебее ESки брать.

Короче на будущее я себе приметил, что это не так уж нереально.

Вопрос: А чего комплектуха такая подозрительно дешевая на фоне стоимости сервера?

Вопрос: А как они умудрились на проц повесить по 16 планок памяти? Вместо 8.


Ответ: Потому что платформа E7 устарела. Кто-то побыстрее сливает, потому что Интел выпускает новую. Кто попроворнее, уже наверняка имеет интеловские ЕСки, только новые, Бродвелловские. Которые скорее всего будут 2-4 килобакса пер штука и каждый 250 гфлопс ориентировочно (чистых, а не надувательских как в видяшках).

sanaris
()
Ответ на: комментарий от sanaris

Хотя если интелы поднажмут, то отожмут из Хасвелла 400-500 гигафлопс. Чему я в общем буду рад как юзер АМД, ибо это хороший пендель в зеленую задницу. Но мне кажется штеуд специально сливается и ниче не релизит, чтобы откач кеша был подольше наверняка.

sanaris
()
Ответ на: комментарий от anonymous

В сервачном нет понятия БУ. Потому что всё тестируется и очень завязано на доверии.

sanaris
()

Если в матерях я более чем уверен, то вот «на ебее ЕСки» - очень сомнительно. Не, купить четыре камня под сокет можно. Но только нифига это не будут «те самые 10-ядерники». А скорее всего еще с предыдущего апгрейда. А отдавать пятихатку за просроченные камни, предыдущего поколения, когда новое выходит уже. Та платформа даже 1600 память не держит. Когда новые системы есть под 3000 оверклочную.

sanaris
()
Ответ на: комментарий от sanaris

Да и вообще, я разочарован в сервачном сегменте пост-2009 эпохи. Клепается, в общем, шлак тот же самый что обычным юзверям, только заворачивается в коробку с другой надписью и подписывается «производительные...». Про бенчмарки вообще забыли, что такое.

sanaris
()
Ответ на: комментарий от sanaris

В десктопе тоже давно 4 канала, но по 2 модуля на канал, а тут по 4. Вот что удивило. Интересно, каков там оверхед?

dk-
() автор топика
Ответ на: комментарий от sanaris

http://www.ebay.com/sch/i.html?_trksid=m570.l3201&_nkw=Xeon E7 ES&_sa...

Я пообщался с одним железячником из какой-то лаборатории тестирующей серверы (он давал сервер на ЕСках в предварительный тест). Он сказал, что ЕС это нормально. Лучше не брать самые первые степпинги, но нормально, и если продавец надежный, то проблем точно не будет.

А их относительно низкую цену он пояснил тем, что в продакшен это все равно не Ъ, да и выдаются они типа под гарантии возврата, но бесплатно, т.е. продавец на них неплохо зарабатывает на самом деле. После того, как сделал свое дело.

dk-
() автор топика
Ответ на: комментарий от sanaris

Да и вообще, я разочарован в сервачном сегменте пост-2009 эпохи.

Fusion IO не похоже на такой продукт, а вышли карты недавно

ihanick
()
Ответ на: комментарий от ihanick

Это скорее для датабазников продукт. Да, датабазникам полегче, чем ХПЦшникам.

Мне надо чтобы Быстрое Фурье делалось за миллисекунды на 100 Мб. Это вполне реально - ввод-вывод позволяет. ЦПУ может, но АМДшный сильно убог. В бульдозерах порезали ФПУ по сравнению с 45нм оптеронами. Это для серваков то! Бульдозер и Стимроллер могут только 2 дабловых операции за такт на одно «ядро». Это фейковый SIMD, какую бы инструкцию не засунул, SSE4 или MMX, всё равно будет 2 флопца (флоп на цикл) на ядре.

А штеуд просто не хочет делать такие «для людей», только «для миллиардеров». Короче, «хочешь считать - купи себе фабрику».

sanaris
()
Ответ на: комментарий от sanaris

Весело было, когда эФиктивная манагерия из АМД продекларировала ещё, что дескать народу не нужна плавающая точка. На серваках.

Я всё-таки склонен считать, что имел место намеренный слив штеуду, именно в том месте историческом, когда делались бульдозеры.

Причем, эту инфу про флопцы, которую я озвучил (что АМД на***вает покупателей, не реализуя все инструкции, а засовывает их в обёртку той же начинке - эту инфу нигде не найти в их документах. Нигде не написано, сколько на самом деле флопц у них в ядре. Зато везде есть «кидалово» про «великий 256 флексфп».

sanaris
()
Последнее исправление: sanaris (всего исправлений: 1)
Ответ на: комментарий от sanaris

Исторический пассаж. Была эпоха, когда герц было мало, а ядро одно. То была эпоха 64-процессорных мамок. Потом большие матери померли, так как копроэкономика вытолкнула на первое место «минимизацию». Затем померли 16-процные и 8-процные системы. В 2007 где-то году умерли 4-процессорные. Их просто не стало. Сейчас умирают последние - дуалпроцники. Оверклокеры следом - ОК систем всё меньше и теперь они вместо сервачных. Когда умрёт ОК, останется одна серость и сраный инт вместо ФПУ. Занавес. Всё вернулось на места Моторолы и 286.

Наверное вместо меня это уже кто-то из великих произносил. Всё закончил оффтопить)

sanaris
()
Ответ на: комментарий от sanaris

Шок! Разоблачение!
В 4-х и 8- процессорных x86 серверах стоят 8 однопроцессорных оверклокерских мамок!
Что же тогда творится в 64-процессорных SPARC-серверах?! Так вот оказывается почему они такие большие!

bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 2)
Ответ на: комментарий от sanaris

вместо меня это уже кто-то из великих произносил

Скромненько как, ваше величество!

anonymous
()
Ответ на: комментарий от sanaris

4-головые платформы и сейчас есть. Не шибко востребованные, дорогие, но есть.

По поводу int/float - далеко не всегда нужно float, на СУБД/веб-серверах/прочем обычно важно поболее int вычислений, а уж о виртуализации - вообще молчу, там чем больше ядрышек (пускай и хилых), тем лучше, 8 чахлых ядрышек будут в разы предпочтительнее одного мегаядра.

И да, по поводу N-процессорных матерей: однопроцессорная 16-ядерная машина к примеру будет всяко лучше 16-процессорной одноядерной, особенно в случае наличия ИКП. NUMA - не самая приятная вещь...

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

@@ на СУБД/веб-серверах @@

Более чем 2сокетные материнки, исключительная продукция ХПЦ.

@@ лучше 16-процессорной одноядерной @@

Не лучше. Конструкция многоядерников нынешних так убога... В поверах АйБиЭмовских никогда не было больше 4 процессоров, насколько я помню. Сила ХПЦ не в числе ядер на проц.

sanaris
()
Ответ на: комментарий от sanaris

Более чем 2сокетные материнки, исключительная продукция ХПЦ.

Высоконагруженный веб-сервер, VDS или сервер с горкой виртуалок вполне в эту категорию вписывается.

Сила ХПЦ не в числе ядер на проц.

NUMA сильно садит общую производительность при необходимости совместного использования одного и того же куска памяти.

И да, 16 ядер на одном кристалле куда лучше, чем 16 процов на одной плате. Как минимум - наличием общего л3 кеша (или, как в случае AMD, NUMA на одном сокете по 8 ядер - что несколько похуже, чем монолитное ядро, но все же), и меньшими задержками на обмен между ядрами/блоками памяти. А для некоторых применений тот же TilePro с сотней ядрышек к примеру будет смотреться вкуснее топового зиона на 10+ ядер.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

ХПЦ это: А) Жестко связанные задачи. Пример - взятие собственного значения 20 на 20 тысяч какого-нибудь оператора. Решаются очень тяжело. Инфинибанды не спасают. Транспорт узкое место. Лучше всего решать на большой материнке. Б) Мягко связанные задачи. Можно сделать хороший интерконнект и распараллелить. Гидродинамика, МСС. Лучше всего решать на множестве материнок.

То, о чем вы говорите, это В) Несвязанные задачи. Веб-фарминг, видеокодинг (некоторые виды), и другие суперпараллельные.

И да, некоторые все-таки покупают кувалду для забивания кнопок. Молодцы, поддерживают ХПЦ так сказать :) ЗЫ. И да, таки видяшки не являются ХПЦ. Они вообще странные.

sanaris
()
Последнее исправление: sanaris (всего исправлений: 1)
Ответ на: комментарий от sanaris

Транспорт узкое место. Лучше всего решать на большой материнке.

И чем же 16 одноядерных камней будут лучше одного 16-ядерного? :) Тем, что будет узкий (по сравнению с внутрипроцессорной шиной) транспорт между нодами NUMA?

Тут наоборот, чем больше ядер на кристалле, тем веселее.

NiTr0 ★★★★★
()
Ответ на: комментарий от sanaris

Теслы/файрпро стоят в мэйнфреймах, и чо-то весьма ценятся. Может, вы не умеете готовить их?

NiTr0 ★★★★★
()
Ответ на: комментарий от sanaris

Какое отношение имеет частота памяти конкретного ИКП к кол-ву ядер проца?

И да, чем инфинибэнд лучше-то? Тем, что вместо 500+ гбит/с внутрипроцессорной шины даст несколько десятков гбит с большой латентностью?

NiTr0 ★★★★★
()
Ответ на: комментарий от sanaris

NUMA не в помощь, а во вред, вынужденная мера - для соединения нод со своей, личной памятью в некое подобие полноценной многоядерной системы с общей памятью, частично нивелирующая негативное влияние тормозной межпроцессорной шины на общую производительность системы. NUMA система при прочих равных (кол-во ядер, ipc ядра и т.д.) будет сливать однопроцессорной системе.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

500+ гбит/с внутрипроцессорной шины

Спасибо поржал.

в некое подобие полноценной многоядерной системы с общей памятью

Общей памяти никогда не было.

Теслы/файрпро стоят в мэйнфреймах

Здесь даже три понятия попутаны: ХПЦ, мэйнфреймы, гпушки.

Я могу рассказать кратенько про что-нибудь, решите про что именно. Долго расписывать.

sanaris
()
Последнее исправление: sanaris (всего исправлений: 1)
Ответ на: комментарий от sanaris

Спасибо поржал.

http://www.anandtech.com/show/3922/intels-sandy-bridge-architecture-exposed/4 - для 4-голового проца суммарная пропускная способность кольцевой шины 384 ГБ/сек, или 3 Тбит/с. Не знали?

Общей памяти никогда не было.

Если N ядер размещены на одном кристалле и юзают один контроллер памяти с N каналами - эта память, внезапно, общая для них, и ПСП тоже делится между ядрами. Ну и л3 кеш тоже общий. У AMD это однокристальные оптероны с 2 каналами ИКП (4ххх если память не подводит, 6ххх - уже NUMA), у интела - все камни. И да, 10-ядерный одиночный зион с 4-канальным ИКП будет предпочтительнее 10 однояйцевых камней с аналогичными по производительности ядрами, но каждое со своим ИКП.

NiTr0 ★★★★★
()
Последнее исправление: NiTr0 (всего исправлений: 1)
Ответ на: комментарий от NiTr0

Aggregate bandwidth

Такая же мифическая дурь, как «общая память».

Вот у меня была недавно задача, где 6 реальных ядер были сильнее чем 8. Так что не лечи мне тут))

sanaris
()
Ответ на: комментарий от sanaris

Такая же мифическая дурь, как «общая память».

Да ну? Подсказать, почему в кольцевой шине ПСП суммируется, или сами догадаетесь? А не нравится суммирование - там же указана ПСП каждого из линков кольцевой шины. «Всего лишь» 96 ГБ/с, или 768 Гбит/с для каждого ядра. HT/QPI показывают эдак раза в 4 (или в 8, если считать одно из направлений передачи) ниже скорость, о всяких infiniband и прочих шинах, думаю, лучше не поминать - там разница более чем на порядок.

Вот у меня была недавно задача, где 6 реальных ядер были сильнее чем 8. Так что не лечи мне тут))

Не, конечно умно сравнивать сферические ядра в вакууме, не считаясь с разным ipc и т.д. Сравнили бы лучше древнюю NUMA платформу с каким-то современным многоядерным процом с равным кол-вом ядер, даунклокнув последнюю для примерно одинаковой производительности в пересчете на ядро в вашей задаче (бенч в один поток на малом размере тестовых данных в помощь). Слилась бы многоголовая платформа подчистую в многопотоке при сколь-либо связанных потоках вычислений, не говоря уже о параллельной обработке одного и того же массива...

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

конечно умно сравнивать сферические ядра в вакууме

Ядра современные. Что, объяснить загадку?

96 ГБ/с

Я даже скажу откуда эта числятина выкалупана: 96 Гбс = 12 даблов при 1 ГГц. Что в общем получится если 4 умножить на 8 байт/циклов и на 3ггц. Что равно лоад спид между кэшами Л1-Л2 * число ядер. Перевожу на русский.

«Если тачка едет 80 кмч, то 4 тачки едут 320 кмч - типа быстро!» Ну и что общего это имеет с памятью? Научились штеуды складывать скорости несвязанных между собой тачек и называть это «какой-то там способностью», отлично. Маркетинговой шелухи давай еще, поржу.

«Скорость памяти» в практическом понимании, на следующем уровне только в несколько (максимум) раз выше, чем на предыдущем. Почему? Потому что в СМП растут затраты на когерентность и стриминг между уровнями.

sanaris
()
Последнее исправление: sanaris (всего исправлений: 1)
Ответ на: комментарий от sanaris

Но вообще, «скорость» расползается потихоньку и судить о ней становится никак, без конкретного теста. Если у тебя разные уровни, то какого уровня замерять скорость? Загрузки или выравнивания кэшэй скорость? Короче говоря, какая именно схема потоков будет - таким и будет понятие «скорость памяти». А шелуха типа «теоретического перфоманса», ну чисто для маркетологов годится, да.

sanaris
()
Ответ на: комментарий от NiTr0

Да, я боюсь что вполне может и древняя архитектура (если выкинуть ватты), то вполне «порвёт» нынешний какой-нибудь солюшен, если её прожечь на сегодняшние камни. Вот был хороший процессор magny-cours, например, после которого пошел откат дальше вниз.

sanaris
()
Ответ на: комментарий от sanaris

Ядра современные. Что, объяснить загадку?

Работающие на разных частотах и имеющие различный IPC из-за различий в архитектуре.

Я даже скажу откуда эта числятина выкалупана: 96 Гбс = 12 даблов при 1 ГГц. Что в общем получится если 4 умножить на 8 байт/циклов и на 3ггц. Что равно лоад спид между кэшами Л1-Л2 * число ядер.

Не угадали. 96 ГБ/сек = 3 ГГц (частота шины = частоте ядер) * 512 бит (от каждого ядра идут 2 шины по 256бит к соседним блокам - которые могут быть ядром с кешем, ГПУ или северным мостом). Внезапно, не так ли? Хотя, если бы вы читали статью, глупых гаданий на кофейной гуще не было бы.

«Скорость памяти» в практическом понимании, на следующем уровне только в несколько (максимум) раз выше, чем на предыдущем. Почему? Потому что в СМП растут затраты на когерентность и стриминг между уровнями.

Ну-ну. Погоняйте данные между нодами NUMA платформы, используя всего один ИКП одного из горшков для всей платформы. Внезапно обнаружится падение производительности в разы... Потом и последует «практическое понимание».

NiTr0 ★★★★★
()
Ответ на: комментарий от sanaris

Да, я боюсь что вполне может и древняя архитектура (если выкинуть ватты), то вполне «порвёт» нынешний какой-нибудь солюшен, если её прожечь на сегодняшние камни.

Larrabee что-то до сих пор не взлетела толком, как ни «прожигают» ее...

Вот был хороший процессор magny-cours, например, после которого пошел откат дальше вниз.

Ну и что в нем хорошего? Склейка из двух камней, сородичей десктопных thuban, NUMA на одной подложке... Сливает по полной оптеронам 6300 при равном потреблении (а частота-то упирается именно в него): http://www.anandtech.com/show/6508/the-new-opteron-6300-finally-tested/10

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

Архитектурно, а не по техпроцессу, он лучше. Одно ядро магни - оно реальное. Интерконнект и ММУ - недоделки, да. И в целом шлак. Но архитектура правильная.

Архитектура пост-бульдозерная: реальное ядро забивается (все ФПУ) уже одним логическим при запуске SSE. АМД просто забили на ФПУ и аудиторию юзеров. 6380 сейчас выдаст где-то 120 гфлопс, а хасвелловский уже около 170 живёт - это «экономичный» то ряд. В критичных по шинам задачах, отставание уже раз в 5-20.

sanaris
()
Последнее исправление: sanaris (всего исправлений: 1)
Ответ на: комментарий от Deleted

Не, уже скорее всего никогда не выйдет. Т.н. «десктопные АПУ» перенесены на следующий год. Оптероны не запланировано обновлять, похоже. Лучше бы чтобы кто-нибудь быстрее закопал АМД, авось что вырастет на могиле.

sanaris
()
Ответ на: комментарий от NiTr0

Шины интерконнектов (разных уровней) не работают на частотах ядра. Характеристиками являются в данном случае: 1) частота логического блока, 2) ширина логического блока, 3) путь данных по логическому блоку. Никакая из этих характеристик в отдельности не даёт и не может дать реальной скорости памяти, которая оценивается в реальных условиях, на тестах ФФТ или ещё каких-нибудь исходя из текущей задачи. ТОЛЬКО если имеется полная логическая карта, можно «оценить» производительность. И даже такая «оценочная» никогда не достигнется. Практическая скорость памяти Интел хасвелл - где-то около 150 Гбит/с (что очень крутой показатель, раз в 3-5 минимум лучше АМД) и сильно зависит от размера окна транзакции, типа занятости сети на чипе и тому подобного.

Задержки интерконнекта (кумулятивные) - они измеряются величинами порядка 1е2-1е3 тактов ядра.

Всё, что я видел про процессоры в сети, в основном маркетинг. Приходится всё смотреть на практике каким-то образом.

sanaris
()
Последнее исправление: sanaris (всего исправлений: 2)
Ответ на: комментарий от sanaris

Архитектурно, а не по техпроцессу, он лучше. Одно ядро магни - оно реальное. Интерконнект и ММУ - недоделки, да. И в целом шлак. Но архитектура правильная.

И чем она правильная? На бульдозере на собссно второе ядро приходится 5% площади кристалла, по сравнению с прибавкой от него - мелочь.

Архитектура пост-бульдозерная: реальное ядро забивается (все ФПУ) уже одним логическим при запуске SSE. АМД просто забили на ФПУ и аудиторию юзеров. 6380 сейчас выдаст где-то 120 гфлопс, а хасвелловский уже около 170 живёт - это «экономичный» то ряд.

Вот только ФПУ у новых камней производительнее, чем у к10 получился... Да, разделяемый, между 2 ядрами - что впрочем не сильно мешает ввиду роста кол-ва ядер, и роста частот.

NiTr0 ★★★★★
()
Ответ на: комментарий от sanaris

Шины интерконнектов (разных уровней) не работают на частотах ядра.

Работают. Благодаря чему и достигается солидная скорость обмена с кешем при низких задержках.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

Ой, что-то всё перемешалось в голове:) 90 ГБс нормально для интерконнекта интеловского. Там до 140 доходит недавно проверил. Но 140 - это только при особых условиях. Да, и нижняя граница часто важнее верхней, а нижняя - это бандвайт кэша.

sanaris
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.