LINUX.ORG.RU
ФорумTalks

ECC рациональности пост

 ,


0

3

Может поговорим? К примеру, о рациональности использования ECC памяти в обычных ситуациях (критически важные объекты: больницы, научные центры, серверы крупных бирж, военные базы оставим вне беседы).

Сразу оговорюсь, под рядовым использованием я понимаю обычные сервера, рабочие станции, NAS, маршрутизаторы не выполняющие критически важных функций.

Так для «рядового использования» всё же есть реальный смысл использовать ECC? Какой шанс того, что в данную секунду (а то и мс.) один бит изменится на противоположный? В качестве «подопотной» плашки памяти взять среднюю по качеству, не оверскую память. Без наворотов. Локация для испытаний не горная местность (космические лучи приводят к «выбиваниям» битов, но это не «рядовая ситуация» использования) и не рядом с мощным источником эл.магнитного поля.

Так какой шанс? 1 к миллиону? Или выше/меньше? Хоть какие-то исследования на эту тему есть? И если шанс «вылета бита» велик, то как можно снизить этот риск без ECC? К примеру, понижением частоты памяти и повышением/понижением таймингов? Экранирование всего системного блока, а то и отдельных плашек от внешних «раздражителей»?

Всё настолько рандомно и маловероятно что приходиться сомневаться в рациональности использования ECC. Такое чувство, что её пихают в свои железки в ~70+% случаев только ради самоуспокоения.

Просьба, подискутировать на эту тему.

Всё настолько рандомно и маловероятно что приходиться сомневаться в рациональности использования ECC. Такое чувство, что её пихают в свои железки в ~70+% случаев только ради самоуспокоения.

Если ECC успокаивает, то уже стоило того. Это достаточная причина.

i-rinat ★★★★★ ()

а что тема не вообще про любые коды с ECC функцией?
какая разница будет ли ошибка в RAM или на накопителе при считывании/записи

xmikex ★★★★ ()

Покрути memtest пару лет и узнаешь.

KillTheCat ★★★★★ ()

«в рациональности использования ECC» тебя может заставлять сомневаться только два пункта.

  1. ECC — это лакшери товар и требует отдельных вложений денех.
  2. ECC сейчас имеет днищенскую частоту.

не ясно, что нового ты можешь узнать если точно такой же тред пару месяцев назад был?
чем ближе собирать вместе кучу железа, тем больше шизанутых ситуаций может возникнуть. один дяденька Крало рассказывал, как сеть падала при использовании МФУ или падение половины серверной при походе человека в туалет.
короче, как только ECC перестанет быть искусственно лакшери и интел не будет хотеть от тебя стопицот денех за такую штуковину, отпадёт вообще разговор о рациональности. будет или «быстро и без ECC» или как у всех.

system-root ★★★★★ ()
Ответ на: комментарий от system-root

не ясно, что нового ты можешь узнать если точно такой же тред пару месяцев назад был?

Хочу глянуть на статистику сбоев памяти которые привели к крупным крахам систем. Если конечно она (статистика) есть.

FluffyPillow ()
Ответ на: комментарий от FluffyPillow

ну круто, на хабре был пиар какого-то говна которое умеет зеркалировать стейт на два сервера по памяти и процу. писали, что для надёжности умалчивая про кворум и сплитбрейн.
вот когда у крупной компании будет всё на таких железках, возможно, если они умеют, была бы статистика.
а пока, ты не можешь сказать что сбой был из за отсутствия ECC находясь внутри системы без ECC

system-root ★★★★★ ()

Если на nas у тебя данные, которые жалко потерять, то есс надо. Я себе поставил.

Deleted ()
Ответ на: комментарий от Deleted

Ну вооооот :(((

А воркстейшн то без! И рамы 90гб!

dk- ()

Какой шанс того, что в данную секунду (а то и мс.) один бит изменится на противоположный?

Реальный. Уже несколько раз ловил, и это только то, что заметил. И когда, наконец-то, ECC будет уже по-умолчанию. Чем больше объём, тем важнее наличие.

gag ★★★★★ ()

Один к миллиону это за некоторую минимальную единицу времени. А при долгой работе это уже другие цифры. Логические ошибки в память программ накапливаются и становятся источниками крашей, сегфолтов и прочей мутной радости. Например у меня даже виртуальные винды на сервере с ECC памятью работают штабильнее линукса на ноутбуке.

Lordwind ★★★★★ ()

Сразу оговорюсь, под рядовым использованием я понимаю обычные сервера

Допустим, меня сервер виртуального хостинга на котором 100500 клиентов.
Как только из за сбоя я теряю клиентские данные, от меня все разбегаются как минимум, в суд подают как максимум и я становлюсь нищим с огромными долгами.
Обычная ситуация, обычный сервер.

onon ★★★ ()
Последнее исправление: onon (всего исправлений: 1)
Ответ на: комментарий от dk-

У меня где-то было фото, испорченное перевёрнутым битом.
Фото — это не видео, там спецэффекты круче.

aidaho ★★★★★ ()

Такое чувство, что её пихают в свои железки в ~70+% случаев только ради самоуспокоения.

это где же её пихают? Ни одного thinkpad с ECC нет, а ты говоришь, пихают

Deleted ()

Какой шанс того, что в данную секунду (а то и мс.) один бит изменится на противоположный?

Тут дело в вероятности какого либо внешнего воздействия на плашку памяти (и она значительно выше), а не вероятность изменения бита. Как не экранируй комп, на самой материнке остается дофигища источников помех и излучения, приводящих к нестабильной работе памяти.

как можно снизить этот риск без ECC?

Да никак. Если никакого контроля бита четности нет, то собственно ты и не поймешь, что произошла ошибка. Собственно и сейчас эта проверка производится...эмм...программно, контроллер следит. При этом кто может ручаться за то, что сам контроллер точно также не пострадает от внешнего воздействия? Сама по себе эта технология скорее нужна для подстраховки в случае фатального воздейсвтия, слета нескольких битов, пачкой. А в случае слета единичного бита особо гарантии и нет, никто не давал какбэ.

Всё настолько рандомно...

Ага, рандомно

...и маловероятно

Вероятность не такая уж и малая.

Такое чувство, что её пихают в свои железки в ~70+% случаев только ради самоуспокоения.

Ну, в целом, да. Но только в фатале это остановит выполнение программы, а не приведет к тому, что ты узнаешь о проблеме после завершения выполнения программы. Так что тупо ради экономии времени уже стоит того.

Oberstserj ★★ ()
Ответ на: комментарий от r_a_vic

Это серьезно, вопрос для 4х ядерной рабочей станции с граф.картой?

Вангую, как обычно у TP (по моему опыту и отзывам): при нагрузке, вероятно, часа полтора протянет. А в интернетиках сидеть или кинцо смотреть - часов 4-6. Под linux, имею ввиду. Сам был бы рад услышать более реальные данные для этих моделей.

Deleted ()
Ответ на: комментарий от r_a_vic

Да ну ты брось. Техпроцессы не стоят на месте. Явно протянет.

Себе я такой брать не стал, мне более компактный нужен был.

dk- ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.