LINUX.ORG.RU

Проверка работоспособности ECC памяти

 , ,


2

3

Есть AMD Ryzen 3600 и плата ASUS B450-PRO. Есть планка памяти c ECC. Как гарантированно проверить работоспособность коррекции ошибок памяти перед покупкой остальной памяти? Производитель заявляет поддержку, но без гарантий.

dmidecode выдаёт:

Physical Memory Array
        Error Correction Type: Multi-bit ECC

На ум приходит вызвать нестабильность памяти и смотреть логи. Есть ли более простые методы?

★★★★★

Так, ты говоришь про ситуацию «мат плата поддерживает модули с ECC, но работает с ними в non ECC режиме» и желаешь проверить на месте как именно у тебя будет работать ОЗУ?

targitaj ★★★★★ ()
Ответ на: комментарий от targitaj

Скорее про ситуацию «есть поддержка, но никто не гарантирует что оно реально работает». Всегда найдутся опции, которые есть, но работают при строго определённых фазах луны.

dinn ★★★★★ ()

Чтобы проверить и исправить ошибку, нужен буфер, где это будет делаться. Буфер может быть на самой памяти, например в регистровой памяти. Или в контроллере памяти. Обычно все региcтровые dimm имеют ecc, и для их работы требуется поддержка контроллером памяти регистровых dimm. То есть, если регистровая память работает, то ecc тоже работает.

Можно сэкономить, сделать память с избыточным количеством бит на слово для ecc, но логику коррекции не делать, переложить на контроллер, заодно не нужен буфер в самой памяти. Небуферизированная память. И тут зависит от контроллера, будет он заниматься ecc, или можно выиграть минимум один такт и поднять произвоительность подсистемы памяти, буфер небесплатный и коррекция ошибок тоже.

anonymous ()

смотреть dmesg.

# dmesg|grep -i edac
EDAC MC: Ver: 2.0.1 Jun  2 2015
EDAC amd64_edac: Ver: 3.4.0
EDAC amd64: ECC is enabled by BIOS.
EDAC amd64: F10h detected (node 0).
EDAC MC: DCT0 chip selects:
EDAC amd64: MC: 0:  1024MB 1:  1024MB
EDAC amd64: MC: 2:  1024MB 3:  1024MB
EDAC amd64: MC: 4:     0MB 5:     0MB
EDAC amd64: MC: 6:     0MB 7:     0MB
EDAC MC: DCT1 chip selects:
EDAC amd64: MC: 0:  1024MB 1:  1024MB
EDAC amd64: MC: 2:  1024MB 3:  1024MB
EDAC amd64: MC: 4:     0MB 5:     0MB
EDAC amd64: MC: 6:     0MB 7:     0MB
EDAC amd64: using x4 syndromes.
EDAC amd64: MCT channel count: 2
EDAC amd64: CS0: Unbuffered DDR2 RAM
EDAC amd64: CS1: Unbuffered DDR2 RAM
EDAC amd64: CS2: Unbuffered DDR2 RAM
EDAC amd64: CS3: Unbuffered DDR2 RAM
EDAC MC0: Giving out device to amd64_edac F10h: DEV 0000:00:18.2

ессно должен быть драйвер EDAC.

NiTr0 ★★★★★ ()
Ответ на: комментарий от torvn77

и как это избавит от ошибок из-за фонового радиационного излучения или «горячих» частиц в компаунде?

ну и да, у оверклоцкерской памяти тайминги выкручены на минимум, лишь бы как-то работало и игры не вылетали каждые полчаса. сталкивался с тем, что на ам2+ почти любая сохо память давала где-то 1 ошибку в сутки при прогоне мемтеста. некоторые - будучи в паре с другими на канале, некоторые - и самостоятельно тоже. воткнул в ту же плату ЕСС память - как отшептали, ни ошибок мемтеста, ни скорректированных/нескорректированных ошибок памяти.

NiTr0 ★★★★★ ()
Ответ на: комментарий от NiTr0

Если память оверклокерская то это значит что чип тестировали на работу при повышенных напряжениях и частотах и как следствие при повышенной температуре и по этому при эксплуатации в обычном режиме она очень надёжна, в том числе может проработать более 10 часов без ошибок.

Но это конечно надо брать хорошие и по этому дорогие модули.

torvn77 ★★★★★ ()
Ответ на: комментарий от anonymous

Я пользовался разной памятью, в том числе и выкручивая тайминги по принципу уменьшим тут и если компьютер работает то и ладно и для меня разница между качественной оверклокерской памятью и обычной просто факт.

Что такого сложного понять простую вещь: чипы при изготовлении получаются с некоторым разбросом характеристик, их сортируют, самые лучшие продают как оверклокерские, остальные помещают в товарную группу «обычные» и продают тебе, в том числе как и ECC Registered.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от torvn77

Я пользовался разной памятью

А нужно было одинаковой: обычной на одних чипах и школоклокерской на таких же чипах. При достаточной выборке разницы не найдёшь 100%, кроме может совсем уж топовых набров на 4000+мгц.

anonymous ()
Ответ на: комментарий от anonymous

кроме может совсем уж топовых набров на 4000+мгц.

Эта оговорка объясняет разницу наших мнений.
Хотя надо признаться моя последняя оверклокерская память была ddr2, на ddr3 я купил «временно» обычную и как-то мне её хватает, а память не глючит…
Хотя она всё равно с радиаторами.
В общем что сейчас за оверклокерская память я на самом деле не знаю, думаю что так-же, хочешь много плати за ТОПающего по потолку соседа.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 2)
Ответ на: комментарий от torvn77

Именно по этим признакам, и это зависит от типа чипов (например samsung b-die). Там не единственный в мире чип, который отбирают, а есть страрые или просто плохие типы чипов и наоборот.

anonymous ()
Ответ на: комментарий от torvn77

Если память оверклокерская то это значит что чип тестировали на работу при повышенных напряжениях и частотах и как следствие при повышенной температуре и по этому при эксплуатации в обычном режиме она очень надёжна

бред. в оверклоцкерскую память берут, к примеру, 3200CL18 и дальше тупо поднимают частоту и урезают тайминги. и «в обычном режиме» у нее тоже тайминги зарезаны. а как чип CL18 будет работать на CL16 - думаю, саи догадываетесь :)

в том числе может проработать более 10 часов без ошибок.

охтыжнифигасебе... аж целых 10 часов без ошибок... вот это «надежность», да... а на 11-й час сбойнул битик - и в таблице БД, чей кеш хранился в сбойнувшей ячейке в ожидании записи на диск, вместо данных - мусор. зато ж память оверклоцкерская, с ргб подсветкой и массивными нахрен не нужными радиаторами :)

NiTr0 ★★★★★ ()
Ответ на: комментарий от torvn77

Я пользовался разной памятью, в том числе и выкручивая тайминги по принципу уменьшим тут и если компьютер работает то и ладно

дадада, помнится я лет 15+ назад тоже гнал память по принципу «работает компьютер то и ладно», подумаешь тест мемтеста падал - ну и хрен с ним, игры-то не вылетали, ну мож какой-то полигон хрензнаеткуда улетит изредка...

Что такого сложного понять простую вещь: чипы при изготовлении получаются с некоторым разбросом характеристик, их сортируют, самые лучшие продают как оверклокерские

никто никого никуда не сортирует. берутся те же самые чипы, выкручиваются тайминги на минимум (во всех режимах), задираются частоты, лептся радиаторы и ргб подсветка и напариваются «счастливым владельцам».

NiTr0 ★★★★★ ()
Ответ на: комментарий от targitaj

некоторые модули (см. Samsung) могут работать в «обычном» режиме.

но это всё серая зона, инфы по подобному функуционалу мало, ибо большинству ЦА это просто не нужно

Ford_Focus ★★★★★ ()
Ответ на: комментарий от torvn77

в том числе может проработать более 10 часов без ошибок

Какие страшные вещи вы рассказываете. Если у меня на компе вот так память будет лагать, то будет мне беда-печаль из-за попортившихся данных.

peregrine ★★★★★ ()
Ответ на: комментарий от peregrine

Мне тут недавно рассказывали что сотни ошибок битой памяти в день это обычное дело и у любой памяти будет так. Я, признаться, прифигел, поскольку привык, что исправная память не будет сыпать ошибками, как ты с ней ни извращайся.

anonymous ()
Ответ на: комментарий от peregrine

Какие страшные вещи вы рассказываете.

Что вы все цепляетесь к словам?
Я просто больше 10 часов не проверял, а так у меня компьютер по несколько дней работает, пока я не перегружу его по какой либо своей надобности.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)

А можно выключить ECC сделать даун вольт на памяти (плата это позволяет?) до значений чтоб память сыпала ошибками и проверить что будет после включения ECC?

Aber ★★★★ ()
Ответ на: комментарий от anonymous

Если ты превышаешь нормальное напряжение (1.2 В), то ты ССЗБ.

Плюс 10% вполне безопасно, когда делают ic закладывают некоторые приделы работы, тут конечно чуть больше, но думаю не критично. А вообще я помню во времена ddr2 брал оверклокерские модули TEAM и там уже дефолтно были повышенные вольты записаны в профилях.

Прямо сейчас нашел первый попавшийся модуль памяти TEAM:

Frequency 	2666 	3000
Voltage 	1.2V 	1.35V

Aber ★★★★ ()
Последнее исправление: Aber (всего исправлений: 1)

Посмотрите тут:

cat /sys/devices/system/edac/mc/mc0/ue_count
для других платформ (каких?) можно установить mcelog и следить за его логами.

Если что новое найдёте — пополняйте wiki :)

LeNiN ()
Ответ на: комментарий от anonymous

У меня самый большой аптайм моего компа (не сервера) порядка 5 месяцев. Если там сотни ошибок памяти в день были бы, то 15k ошибок должны были бы как-то себя показать. Правда память у меня таки ECC, работающая как ECC память. Сервер на работе крутился с аптаймом в 1.5 года и ~1 ТБ оперативки для кеширования БД. Правда я ХЗ как там оно было внутри устроено и что за железо/виртуализация. Ничего не сбоило, если рукопопы, вроде меня, туда багованный код не заливали.

peregrine ★★★★★ ()
Ответ на: комментарий от anonymous

Почему тогда только у оперативки а не у процессора (который сам состоит из кардинально боольшего числа транзисторов работающих в кардинально более сложных условиях) и вообще всех остальных чипов? И как оно все тогда работает?

anonymous ()
Ответ на: комментарий от torvn77

может проработать более 10 часов без ошибок
надо брать хорошие и по этому дорогие модули

А если брать обыкновеннейшую память вроде https://mobilespecs.net/memory/AMD/AMD_R738G1869U2-US.html, то

—► uptime -p
up 5 weeks, 2 days, 14 hours, 10 minutes
и более — настолько в порядке вещей, что речь про «10 часов без ошибок» как про что-то выдающееся вызывает недоумение.

dexpl ★★★★★ ()
Ответ на: комментарий от peregrine

Хехе. Проведи простой эксперимент. Возьми попереливай пару раз туда-сюда терабайт торрентов и потом проведи перехеширование. Ох, был у меня день с открытием... Кароч, данные бьются постоянно и непрерывно. Сквозное ECC по всем линиям связи - это тупо must have.

targitaj ★★★★★ ()
Ответ на: комментарий от anonymous

Да, от железа зависит, это факт. У некоторых десятки ошибок в день по ОЗУ бывает. А я тогда перелил 500 гиг туда-сюда и получил каждый 10-тый файл с 99% готовности. Это было неожиданно, мягко говоря. Вот тогда я на самом деле понял зачем надо сквозные ECC по всем коммуникациям.

targitaj ★★★★★ ()
Последнее исправление: targitaj (всего исправлений: 2)