LINUX.ORG.RU

oops! как быть и что делать, или виноват ли amd?

 


1

2

продолжаю разбираться от чего же все-таки выключается сервер в нагрузке, поставил stress, запустил с параметрами:

stress --cpu 8 --io 4 --vm 2 --vm-bytes 8192M --timeout 240s

и начал мониторить датчики, в итоге ядро выплюнуло в консоль это:

 kernel:[ 1160.797025] Oops: 0002 [#1] SMP
 kernel:[ 1160.797395] Stack:
 kernel:[ 1160.797453] Call Trace:
 kernel:[ 1160.797552] Code: 5d 41 5e e9 21 ff ff ff 55 49 b9 00 01 10 00 00 00 ad de 49 ba 00 02 20 00 00 00 ad de 53 48 89 f3 41 50 48 8b 46 28 48 8b 56 20 <48> 89 42 08 48 89 10 48 8b 06 4c 89 4e 20 4c 89 56 28 a9 00 00
 kernel:[ 1160.798615] CR2: ffffea10171bc348
а последние показания были такими:
k10temp-pci-00c3
Adapter: PCI adapter
temp1:        +54.1°C  (high = +70.0°C)
                       (crit = +90.0°C, hyst = +87.0°C)

fam15h_power-pci-00c4
Adapter: PCI adapter
power1:      125.18 W  (crit = 124.95 W)
соответственно видно, что потребляемая мощность превысила критическую отметку. и соответственно вопрос: как быть и что сделать чтоб подобного не происходило?

процессор amd fx8120 мать ASUS M5A99X EVO R2.0


Ответ на: комментарий от RussianNeuroMancer

1.обновлял

2.такое же поведение было на материнке MSI 760GM-E51 (FX)

З.Ы: щас машину мне включили в системном логе больше инфы:

kernel: [ 1160.796972] BUG: unable to handle kernel paging request at ffffea10171bc348
kernel: [ 1160.796997] IP: [<ffffffff810bd513>] del_page_from_lru+0x23/0x9b
kernel: [ 1160.797014] PGD 83e7f5067 PUD 0 
kernel: [ 1160.797025] Oops: 0002 [#1] SMP 
kernel: [ 1160.797035] CPU 1 
kernel: [ 1160.797040] Modules linked in: loop snd_hda_codec_hdmi sp5100_tco powernow_k8 mperf crc32c_intel snd_hda_codec_realtek ghash_clmulni_intel eeepc_wmi asus_wmi sparse_keymap rfkill aesni_intel aes_x86_64 psmouse aes_generic serio_raw evdev cryptd joydev edac_mce_amd pcspkr fam15h_power k10temp edac_core nouveau i2c_piix4 snd_hda_intel mxm_wmi video snd_hda_codec ttm snd_hwdep drm_kms_helper snd_pcm drm snd_page_alloc snd_timer snd i2c_algo_bit soundcore i2c_core wmi button processor thermal_sys ext3 mbcache jbd usbhid hid sg sd_mod crc_t10dif ahci libahci xhci_hcd libata ohci_hcd ehci_hcd scsi_mod usbcore usb_common r8169 mii [last unloaded: cpuid]
kernel: [ 1160.797240] 
kernel: [ 1160.797245] Pid: 6474, comm: stress Not tainted 3.2.0-4-amd64 #1 Debian 3.2.35-2 To be filled by O.E.M. To be filled by O.E.M./M5A99X EVO R2.0
kernel: [ 1160.797266] RIP: 0010:[<ffffffff810bd513>]  [<ffffffff810bd513>] del_page_from_lru+0x23/0x9b
kernel: [ 1160.797281] RSP: 0018:ffff88081c273ce8  EFLAGS: 00010047
kernel: [ 1160.797290] RAX: ffffea0019477df0 RBX: ffffea0019477d98 RCX: 0000000000000200
kernel: [ 1160.797300] RDX: ffffea10171bc340 RSI: ffffea0019477d98 RDI: ffff88083effbe00
kernel: [ 1160.797309] RBP: 0000000000000006 R08: 0000000000000200 R09: dead000000100100
kernel: [ 1160.797319] R10: dead000000200200 R11: 0000000000000000 R12: ffff88081d50afd0
kernel: [ 1160.797328] R13: ffff88083effbe00 R14: ffffea0019477d98 R15: 0000000000000005
kernel: [ 1160.797338] FS:  00007fbd6619d700(0000) GS:ffff88083ec40000(0000) knlGS:0000000000000000
kernel: [ 1160.797348] CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
kernel: [ 1160.797356] CR2: ffffea10171bc348 CR3: 000000081c255000 CR4: 00000000000406e0
kernel: [ 1160.797366] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
kernel: [ 1160.797376] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
kernel: [ 1160.797385] Process stress (pid: 6474, threadinfo ffff88081c272000, task ffff88081a482970)
kernel: [ 1160.797395] Stack:
kernel: imklog 5.8.11, log source = /proc/kmsg started.

abyz ()
Ответ на: комментарий от abyz

такое же поведение было на материнке MSI 760GM-E51 (FX)

Моя вина - не почитал ваш предыдущий тред перед тем, как ответить. Вы упоминали, что машина может не включаться без подключенного монитора, и что видеокарта интегрированная - на новой мамке так же? (Отключение интеграшки ничего не меняет?) Что вообще ещё успели поменять кроме мамки и (как я понял) БП?

RussianNeuroMancer ★★★★★ ()
Ответ на: комментарий от RussianNeuroMancer

На новой матери в виду отсутствия видео - все включается нормально, эта проблема отпала. Больше ничего не менял, но, выяснилось(машина не моя и находится в тысячах км от меня) что стоит 2 комплекта памяти разного производителя, в сумме 32гб. В биосе отключены CnQ, C1E, SVM, core C6, HPC mode, частота была зафиксирована на 3Ггц, после этого падения cpuinfo снова начал показывать что частота меняется от 1,6 до 3,1Ггц. Ну вот собственно говоря оно отрубается от этого теста, так же как и при нагрузке 2х minecraft серверов.

abyz ()
Ответ на: комментарий от abyz

В биосе отключены CnQ, C1E, SVM, core C6, HPC mode, частота была зафиксирована на 3Ггц, после этого падения cpuinfo снова начал показывать что частота меняется от 1,6 до 3,1Ггц. Ну вот собственно говоря оно отрубается от этого теста, так же как и при нагрузке 2х minecraft серверов.

Ставить более качественную систему охлаждения, ставить в BIOS принудительное её включение на максимум и принудительный сброс частоты при перегреве.

dn2010 ★★★★★ ()
Ответ на: комментарий от dn2010

Ну и энергосберегающие возможности в ОС и биосе включить максимально.

dn2010 ★★★★★ ()
Ответ на: комментарий от abyz

попробуй возьми какую-нибудь лайв систему со свежим ядром 3.6/3.7 и погоняй этот тест

punya ★★ ()
Ответ на: комментарий от abyz

по датчикам выше 57 не греется, тоже на это сначала грешил

57 для AMD много, и если оно при включенном энергосбережении и нулевой нагрузке показывает меньше 20, то можно смело комнатную температуру добавлять, это в некоторых старых биосах такой глюк.

dn2010 ★★★★★ ()
Ответ на: комментарий от abyz

Если это датацентр/кондиционируемая серверная, то скорей всего температура правильная, но у AMD 60 градусов — тепловой предел, после которого он начинает частоту сбрасывать.

dn2010 ★★★★★ ()
Ответ на: комментарий от abyz

они сбросились только после этой ошибки

Они сбрасываются по идее, если конфигурация выставленная не даёт загрузить компьютер нормально (из-за неправильных хардверных параметров, которые сбрасываются на автодетект).

dn2010 ★★★★★ ()
Ответ на: комментарий от dn2010

у AMD 60 градусов — тепловой предел, после которого он начинает частоту сбрасывать.

что за бред, феном до 80 прогревался и всё нормально работало, без сброса частоты.

daemonpnz ★★★★★ ()
Ответ на: комментарий от X10Dead

И это всё было в разгоне с разблокированным ядром, в винде, под OCCT в линпаке. Не думаю что у булей с этим проблемы. Так что нет там никакого тротлинга на 60 градусах.

daemonpnz ★★★★★ ()
Ответ на: комментарий от dn2010

АMD 60 градусов — тепловой предел, после которого он начинает частоту сбрасывать

у каких AMD ?
у меня на ноуте раньше до 95 грелся при сборке ядра и норм )
сейчас 50 - 60 это рабочая температура атлона x2 m300

smilessss ★★★★★ ()
Ответ на: комментарий от dn2010

я уже путаться начал, я смотрел тех.характеристики - там максимальная рабочая температура 61. т.е ему явно категорически нельзя работать на температурах выше, и утверждающих обратное не слушать?

abyz ()
Ответ на: комментарий от dn2010

Погуглил, выяснилось что оно ориентируется на температуру теплораспределительной крышки проца... тогда вполне возможно, что там и есть эти 60 градусов.

daemonpnz ★★★★★ ()

amd fx8120 мать ASUS M5A99X EVO R2.0

То же самое железо, проц в разгоне до 4500 - все отлично.

Попробуй вырубить в BIOS APM.

devl547 ★★★★★ ()
Последнее исправление: devl547 (всего исправлений: 1)
Ответ на: комментарий от abyz

т.е ему явно категорически нельзя работать на температурах выше, и утверждающих обратное не слушать?

Ему не то, чтобы нельзя, но там стоит несколько ступеней защиты, которые не дают превысить max выделяемую мощность и температуру. По идее, если его не разгрузить, то он сначала начнёт тормозиться частотой, если этого не хватит сбить температуру или отключено в BIOS, то повиснет с той ошибкой, которая наблюдается.

dn2010 ★★★★★ ()
Ответ на: комментарий от dn2010

спасибо, думаю это полное объяснение происходящему

abyz ()
Ответ на: комментарий от dn2010

57 для AMD много

temp1: +54.1°C (high = +70.0°C)
(crit = +90.0°C, hyst = +87.0°C)

Серьезно? Эта информация по high, crit получена по ACPI в виде DSDT между прочим.

bhfq ★★★★★ ()
Последнее исправление: bhfq (всего исправлений: 1)
Ответ на: комментарий от abyz

Скажу так - amd fx требует доработки напильником, местами довольно серьезной. Это и твики affinity, и собирание генты (благо прирост того стоит), и ковыряние в bios на предмет ненужного хлама вроде APM.

потребляемая мощность превысила критическую отметку

Срабатывает APM и понижаются частоты (троттлинг по сути).
Вырубай его нафиг.

devl547 ★★★★★ ()

у меня эта мощность все время 130 показывалась пока проц не полыхнул из-за пробоя в источнике

Slackware_user ★★★★★ ()

Я бы биос потыкал: выставил все напряжения и частоты вручную(тайминги памяти тоже можно проставить руками, раз боитесь за 2 разных комплекта рамы). У меня напряжение на памяти было авто, система его слишком сильно выкручивала и в результате иногда сервак огорчался и ребутался.

Deleted ()

вобщем как оказалось - проблема в хреновом куллере, очень печально что датчики на этом процессоре глючат

abyz ()
Ответ на: комментарий от abyz

Я бы еще посоветовал память с ЕСС (благое дело платформа поддерживает). Не знаю как на булях, но на феномах 2 обычная память, живущая без особых проблем на к8, сбоила (суточный прогон мемтеста выдавал несколько ошибок, причем - несколько проходов могло быть норм, потом - сбои, потом - опять норм)...

NiTr0 ★★★★★ ()

А вот если периодически происходит panic, и без нагрузки и под нагрузкой.

BUG: unable to handle kernel paging request at 89c789d7

---

Code: c3 fe ff ff 85 c0 0f 85 bb fe ff ff 66 90 e9 cf fe ff ff 8d 74 26 00 8d bc 27 00 00 00 00 55 89 e5 57 56 53 83 ec 0c 3e 8d 70 26 <00> 89 d6 89 c7 89 cb 8b 8a 94 03 00 00 8d 50 ff 0f a3 96 9c 03 
EIP: [<c105729d>] complete_signal+0xd/0x1c0 SS:ESP 0068:f74fdb88

И Code и EIP, CR2 всегда одинаковые, на что грешить на проц или память?

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.