LINUX.ORG.RU

Зачем и для чего DDR4 ECC Unbuffered DIMM @localhost

 , , , ,


1

2

Вопрос не раз поднимался во времена самой DDR4, если воспользоваться поиском, но так четкого ответа и нет, а надо ли оно дома? Пусть будет ФС ext4 + xfs (ZFS не советуйте, пока не добрался до нее), desktop материнская плата, которая знает про ecc и cpu из серии amd-pro. На сегодня мы имеем данное по DDR4

  • 16+16 32Gb 2R Dual-chanel 3200_cl14-14 (на чипах samsung)
  • 16+16 32Gb 2R Dual-chanel 3200_cl22-22 (samsung/micron/hynix)

стоят примерно одинаково, а где-то даже и ddr4ecc дешевле, не говоря уже о том что можно и чуть добавив, можно найти

Вопрос (1) в том, а надо ли DDR4 ECC Unbuffered DIMM для

  • сохранности… фотографий, сканов, .doc/odt-файлов локально?
  • для компиляций меньше суток и когда ПК раз в месяц точно выключается, если не больше?

а самое главное (2) что делает DDR4 ECC Unbuffered DIMM, в плане:

  • исправляет случайную ошибку, у которой есть погрешность вероятности что она появится и она очень мала?
    • или все таки ошибка не такая уж случайная, когда используешь tmpfs в default-size (1/2 RAM) + встройку + долгий uptime?
  • проинформирует о том что модуль/планка один из связки отказал? А надо ли это, если модуль неисправен и его точно время менять?
★★★★★

Последнее исправление: NK (всего исправлений: 2)

Я вот не знаю зачем нужна память без ECC. Себестоимости ECC не почти добавляет считай. Но из-за маркетологов выпускаются материнки без поддержки, память без поддержки, и не всегда сходу понятно что где заработает. Если точно знаешь что будет работать с ECC конечно её бери.

исправляет случайную ошибку, у которой есть погрешность вероятности что она появится и она очень мала?

Да.

проинформирует о том что модуль/планка один из связки отказал? А надо ли это, если модуль неисправен и его точно время менять?

Если у тебя откажет модуль то ты это гарантированно заметишь в виде упавшей системы. ECC не чинит сломанные модули, оно исправляет редкие рандомные ошибки на исправных модулях.

firkax ★★★★★
()

Про buffered\unbuffered не знаю (гуглить лень), но кажется это важно только для больших объёмов. ECC на объёмах от 32gb становится важным статистически, ошибка в одном бите корректируется, ошибка в двух и более битах детектируется. Ну и по логам сразу видно «просевшую» планку, она ошибками сыпет. Не приходится гадать, сбои памяти сразу очевидны. IMHO ECC must have.

Хотя IRL за два+ года круглосуточного использования 128gb ОЗУ с ECC я ни одной ошибки в логах не видел. ECC точно работает, потому что при «разгоне» памяти я по логам «слабую» планку отыскал.

Jameson ★★★★★
()

Позволяет выявлять мультибитные ошибки и корректировать однобитные ошибки. Амдшные камни G серии не поддерживают ECC, правда не знаю что это конкретно значит - система не работает или просто ECC режим не работает. А так память как память, можно разгонять по тому же принципу что и обычную. Т.е. можно взять 3200 cl22 на микроне, накинуть на нее 1.35В и поднять частоту и поджать тайминги. Но понятно что гонится похуже не ECC

cobold ★★★★★
()
Ответ на: комментарий от cobold

Амдшные камни G серии не поддерживают ECC

Откуда информация?

Но понятно что гонится похуже не ECC

ECC тут не при чем, просто на такие плашки распаивают не самые качественные чипы - работает с JEDEC профилем и ладно.

Meyer ★★★★★
()
Ответ на: комментарий от Jameson

ECC на объёмах от 32gb

Не знаете ли, а DDR4 с ECC большего объема случайно не имеет свойство дольше работать?

128gb ОЗУ с ECC я ни одной ошибки в логах не видел

вот тут да, вы не единственный человек от которого я и с меньшим объемом находил информацию… К тому же, непонятно, на тех же AMD-Pro (4750/5750/G/GE и т.д.)

Platform: Desktop | AMD Ryzen™ 5 PRO 4000 Series Desktop Processors

Platform: Desktop | AMD Ryzen™ 7 PRO 5000 Series Desktop Processors

есть ли возможность reporting об исправленных ошибках

NK ★★★★★
() автор топика
Последнее исправление: NK (всего исправлений: 1)
Ответ на: комментарий от Meyer

Амдшные камни G серии не поддерживают ECC

Откуда информация?

у меня есть информация примерно такая же, но из поиска по реддиту, так же есть и информация что ryzen-5xxx весь может ecc, но опять таки, а полностью ли, вот в чем вопрос. Еще вот, от самих ASUS https://www.asus.com/support/FAQ/1045186/

Но тоже непонятно причем здесь чипсет или они делили (давали подсказку), что если материнка их с таким-то чипсетом, то ecc будет

NK ★★★★★
() автор топика
Последнее исправление: NK (всего исправлений: 1)
Ответ на: комментарий от firkax

Спасибо всем за ответы

зачем нужна память без ECC

по реалиям, если пройтись… безECC по сути нужна все таки где-то чем-то из-за цены, а если gpu =< 4Gb для гейминга из-за частоты и таймингов, технология Smart Access Memory тому по ходу подтверждение, но в любом случае есть же VRAM и вот тут думаешь 6650xt_8 / 6700_10 / 3060_12Gb, а дальше я уже и не знаю какие такие игры и потянут ли их эти GPU, что стоит думать не в пользу ECC

Минусом по ECC может только сыграть, то что материнка накроется или один из модулей, который может оказаться не так просто найти, как и материнскую плату, если в продаже (или по гарантии в случае неремонтопригодности) таковых уже не будет

NK ★★★★★
() автор топика
Ответ на: комментарий от NK

Не знаете ли, а DDR4 с ECC большего объема случайно не имеет свойство дольше работать?

DDR4 для меня недостижимо высокая инопланетная технология, я аппаратно до неё не дорос (и финансово, желаемые мною её объёмы стоят негуманных денег)

есть ли возможность reporting об исправленных ошибках

Читал что на райзенах MCE\EDAC кастрирован. У меня ксеоны, у меня работает. Отсутствие ошибок в логах объясняется их реальным отсутствием, когда я искал верхнюю допустимую границу разгона памяти я их видел и в dmesg, и в журнале ras-mc-ctl (у меня настроен демон мониторинга с уведомлением на почту)

Jameson ★★★★★
()
Ответ на: комментарий от Jameson

на райзенах MCE\EDAC

(если все таки соберу/сь) команды edac(-util) и выводы те же, что и на xeon, вне зависимости от платформы?

https://www.reddit.com/r/Amd/comments/buhvsz/ryzen_pro_2400ge_ecc_report/

$ edac-util -v
mc0: 0 Uncorrected Errors with no DIMM info
mc0: 0 Corrected Errors with no DIMM info
edac-util: No errors to report.

https://serverfault.com/questions/1039842/ecc-why-does-edac-ctl-need-drivers-while-edac-util-does-not

mc0: 0 Uncorrected Errors with no DIMM info
mc0: 0 Corrected Errors with no DIMM info
mc0: csrow0: 0 Uncorrected Errors
mc0: csrow0: mc#0csrow#0channel#0: 0 Corrected Errors
mc0: csrow1: 0 Uncorrected Errors
mc0: csrow1: mc#0csrow#1channel#0: 0 Corrected Errors
mc0: csrow2: 0 Uncorrected Errors
mc0: csrow2: mc#0csrow#2channel#0: 0 Corrected Errors
mc0: csrow3: 0 Uncorrected Errors
mc0: csrow3: mc#0csrow#3channel#0: 0 Corrected Errors
edac-util: No errors to report.
NK ★★★★★
() автор топика
Последнее исправление: NK (всего исправлений: 1)
Ответ на: комментарий от Meyer

обычно с точностью до наоборот. ЕСС плашки не могут себе позволить сбойнуть - их вернут по гарантии. не-ЕСС - да пофиг, ну флипнул бит - в 99% случаев где-то в игре точка текстуры сменила цвет или вертекс улетел куда-то не туда…

NiTr0 ★★★★★
()
Ответ на: комментарий от NK

команды edac(-util)

Deprecation Warning

Doesn't work correctly on newer kernels/hardware. Events may go unreported if using sys-apps/edac-utils. See app-admin/rasdaemon's README for the technical details. Please migrate to app-admin/rasdaemon instead.
Jameson ★★★★★
()
Ответ на: комментарий от Mobutu_Sese_Seko

нет конечно. у интела ЕСС - только на серверных платах с серверными камнями (или затычками для сокетов типа целеронов, и то не факт что в свежих оставили) за много-много денег…

NiTr0 ★★★★★
()
Ответ на: комментарий от Mobutu_Sese_Seko

это интел, у них ЕСС на массовом десктопе закончился на 845е чипсете 20 лет назад (875/925/955/975 - то уже платы для workstation шли)…

NiTr0 ★★★★★
()
Последнее исправление: NiTr0 (всего исправлений: 1)
Ответ на: комментарий от Jameson

два+ года круглосуточного использования 128gb ОЗУ с ECC я ни одной ошибки в логах не видел это очень слабая база для выводов.:-)

сервера с сотнями гигабайт ОЗУ годами крутятся в напряжённых режимах и то у них это даже не каждый месяц событие бывает

для примера, типичный Sparc high-end 2005-9 года о 9 бордах, каждая с 32-64гб ОЗУ (32 планки, 288 всего) - мог ни разу в год не вылететь модуль.

mumpster ★★★★★
()
Ответ на: комментарий от mumpster

А я где то делал какие либо выводы? Я просто озвучил свои наблюдения. Про реальную частоту случайных событий типа инверсии бита написано много где, и я конечно же это читал. Благодарен что вы поделились личным опытом.

Jameson ★★★★★
()
Ответ на: комментарий от firkax

Себестоимости ECC не почти добавляет считай

ничоси не добавляет!?

пошутил так пошутил!

вместо 8 микрух - 9 - сразу +12,5% к стоимости на ровном месте, плюс сложнее и разводка (а она тоже денег стоит) и контроллер (усилитель) шины

mumpster ★★★★★
()
Ответ на: комментарий от mumpster

Иншалла... У меня как то внезапно развалилась сеть на три города размером, потеря связности, потеря магистральных абонентов, потери пакетов на внутреннем оборудовании, штормы практически везде. Я ничего не понимаю, первая мысль проверить корневые коммутаторы. Прыжками несусь в северную и вижу там своего заместителя, который зарылся в кросс, и трубу радиотелефона в щель между корневыми коммутаторами засунул, чтобы она ему не мешала... Сошлись на том что он больше ничего излучающего пихать в шкафы не будет...

Jameson ★★★★★
()
Ответ на: комментарий от mumpster

12.5% это и есть «почти не добавляет» (а там разве 8+1 чип? это было для битов чётности, а ECC вроде эффективнее работает, впрочем пофиг). Задуматься о разнице в цене можно если она хотя бы в полтора раза отличается.

firkax ★★★★★
()
Ответ на: комментарий от firkax

вот тебе для примера реальная память из реального сервера:

https://static.insales-cdn.com/images/products/1/6110/353957854/9e4f67084ecf1be3a996ad759aa48491.jpg

модешь сам ппосчитать микрухи памяти - они кратны 9ти.

mumpster ★★★★★
()
Последнее исправление: mumpster (всего исправлений: 1)

В продолжение, пара вопросов про ECC, а точнее про ECC injection

Включение ECC без поддержки в BIOS (комментарий)

AMD Ryzen (17h) [Note: Injection is disabled in most AMD retail CPUs. To enable, please consult the Processor Programming Reference document]

https://www.truenas.com/community/threads/x470d4u-128gb-ecc-non-qvl-experiences.90038/#post-623940

Disable Memory Error Injection" from TRUE to FALSE

а что конкретно делает ECC injection?

Это для тестов и при работе в ОС тоже вполне сгодится?

Т.е. происходит ручной вброс ошибки чтобы убедится что ОС это видит и отрабатывает.

  • Или из того что я нахожу еще с ECC injection - активно мониторится получается и как будто ECC умышленно и агрессивно при inject считывает и посылает запрос на проверку ошибки, не появилась ли она?
NK ★★★★★
() автор топика
Последнее исправление: NK (всего исправлений: 1)