LINUX.ORG.RU

SSD накапливает ошибки во время работы

 ,


0

1

Дано:

1. Железо:

материнка ASUS Z87-PLUS, версия BIOS 2103

/dev/sda: SSD Model=KINGSTON SH103S3120G, FwRev=521ABBF0

/dev/sdb: HDD ST2000NM0033-9ZM175

# lspci | grep SATA
00:1f.2 SATA controller: Intel Corporation 8 Series/C220 Series Chipset Family 6-port SATA Controller 1 [AHCI mode] (rev 05)
03:00.0 SATA controller: ASMedia Technology Inc. ASM1062 Serial ATA Controller (rev 01)

2. Софт: Debian GNU/Linux 8.7 (jessie) AMD64, со штатным ядром, обновления устанавливаются регулярно.

3. Конфигурация разделов

/dev/sda1: UUID="3506-3CB5" TYPE="vfat" PARTLABEL="RD-2016-UEFI" PARTUUID="3b8d661a-d93a-4be8-8db1-b8a83c56b73b"
/dev/sda2: UUID="0de45a5c-2691-459b-8479-897409523958" TYPE="ext4" PARTLABEL="RD-2016-ROOT" PARTUUID="66095614-064e-4738-932d-d4fa80b497b6"
/dev/sdb1: UUID="9a8d33a7-276a-4a60-bed7-31428c8874bb" TYPE="swap" PARTLABEL="RD-2016-SWAP" PARTUUID="6c600c95-204e-45b1-9aee-d87ddd00e87e"
/dev/sdb2: UUID="b296c9ef-a14d-4b26-92d8-dc96cd35e239" TYPE="ext4" PARTLABEL="RD-2016-HOME" PARTUUID="f5a8b103-82d5-4cb9-bca2-3743b3fd3969"
/dev/sdb3: UUID="862f1bfa-52fc-40e5-bcfd-082384a1731e" TYPE="ext4" PARTLABEL="RD-2016-VAR" PARTUUID="76cfe498-2c01-4777-b58b-9b78c034a011"
/dev/sdb4: UUID="f5064dcf-663b-4c74-8c23-698542ddbfc8" TYPE="ext4" PARTLABEL="RD-2016-PUB-2016" PARTUUID="7ccf98b0-0a79-4fac-9e5f-103624746bd5"

4. Проблема: спустя некоторое время после начала работы (несколько дней..недель) начинают накапливаться ошибки при обращении к SSD: то корневая файловая система становится read-only, то не запускается VirtualBox и в консоли при перезагрузке ошибки доступа к таким-то секторам SSD (причем некоторые сектора указываются по нескольку раз), то не хотят ставиться обновления или запускаться другие программы и тому подобное. Если сделать ребут или выкл-вкл, всё работает как с самого начала, т.е. без ошибок, но стоит некоторое время подождать, и ошибки вновь появляются — до следующего рестарта. До этого на машине стояла оффтоп семерка, и не жаловались — всё работало. На других машинах с такой же конфигурацией железа стоит оффтоп семерка, и не жалуются. На HDD проблем нету. Дергал кабель, думал контакт плохой между материнкой и шлейфом или между SSD и шлейфом, и вроде бы всё заработало, но прошло некоторое время, и опять начали появляться ошибки, которые устраняются рестартом системы без дергания кабеля, и опять сначала всё работает ОК. Пробовал играться параметром монтирования discard — отключение его не повлияло на характер неисправности. Пробовал смотреть параметры здоровья SSD с помощью GSmartControl — не показал проблему, то есть нет «розовых» значений.

Найти: способ решения проблемы, чтобы ошибки на SSD не накапливались, и всё работало сколь угодно длительное время. Может ли исправить ситуацию тупо замена SSD на экземпляр другого вендора или модели?

Просьба поделиться опытом, если были похожие случаи, не обязательно точно такое.

На других машинах с такой же конфигурацией железа стоит оффтоп семерка, и не жалуются.

Поставь на эту машину семерку и посмотри. Только энергосбережение отруби, потому что тогда SSD может отрубаться от питания, что равносильно ребуту и проблемы «типа нет»

someoneelsenotme
()

Может ли исправить ситуацию тупо замена SSD на экземпляр другого вендора или модели

Попробуй для начала поменять кабель, ну и SMART заодно глянуть.

h578b1bde
()

запусти mhdd да посмотри. смарт можно посмотреть. можно попробовать на другом БП завести систему. вольтажи тама посмотреть и т.д. и т.п.

etwrq 👍
()

У меня из-за кабелей часто бывало подобное. Причём на каком-нибудь noname может полгода проходить, а на брендовом отвалиться на следующий же день; и наоборот. А ещё недавно столкнулся с проседанием напряжения на кабель питания SATA, причём на том же проводе сидит ещё один диск, и не отваливается. В общем, вначале с кабелями пошамань, а уже потом с диском.

r3lgar
()
Ответ на: комментарий от dikiy

Вот думаю поменять подключения к HDD на SSD и наоборот. По идее, если дело в кабеле, то начнутся проблемы с HDD, а у SSD пропадут.

Infra_HDC
() автор топика
Ответ на: комментарий от Infra_HDC

да. У меня так было раньше. В один прекрасный момент комп не очень хотел грузиццо. Хотя после загрузки норм работал. Помогало дерганье кабеля. Потом его просто заменил.

dikiy
()

Столько букв, а где SMART?

anonymous
()

для начала - прогнать memtest86...

NiTr0
()
10 марта 2017 г.

Продолжение истории

Поменял местами подключение питания и сигнал SSD и HDD. Работало месяц без сбоев. Однажды в письме от logwatch, логи датировались 2017-Feb-22, нашел такую бяку:

--------------------- Kernel Begin ------------------------ 

 
 WARNING:  Kernel Errors Present
    ata1: SError: { HostInt PHYRd ...:  2 Time(s)
    ata2: SError: { HostInt PHYRd ...:  1 Time(s)
 
 ---------------------- Kernel End ------------------------- 
Буквально сегодня, 10-MAR-2017, решил записать диск с новой версией SystemRescueCd, и к своему удивлению не обнаружил устройства /dev/sr0, причем чтобы оно появилось, ребут не помог, а только завершение работы по питанию; /dev/sr0 тоже на SATA висит.

Infra_HDC
() автор топика
Ответ на: комментарий от timdorohin

Что-то похожее в логах и раньше было. Уже не первый раз, довольно длительное время так. Думаю в сторону замены кабелей, хотя можно сразу же готовиться к замене материнки. Если буду материнку менять, то буду смотреть не в сторону ASUS, а в сторону GIGABYTE.

Infra_HDC
() автор топика
3 ноября 2017 г.

Проблема осталась. После примерно недели аптайма начинается череда глюков и зависонов.

Пробовал обновлять драйвер видео — не помогает. Обновлял из-за того, что были артефакты при разворачивании-сворачивании проигрывателя Totem, подгрузил несвободный драйвер nvidia из backports.

Коллега посоветовал после начала проблем попробовать замерить нагрузку на процессор, память, дисковый ввод-вывод.

Infra_HDC
() автор топика
Ответ на: комментарий от Infra_HDC

30.01.2017

Писец. Купи уже новый. Если не в нём окажется дело, то старый просто продай.

anonymous
()
Ответ на: комментарий от Infra_HDC

Можеть быть NCQ https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

Может быть контроллер в ssd плохо работает с sata контроллером на плате. Но у тебя на плате два разных контроллера, встроенный в чипсет C220 и отдельно распаянный ASM1062, потому просто посмотри к какому порту подключен диск на котором наблюдаются ошибки и переключи на другой порт, так чтоб использовался другой sata контроллер.

Aber 👍👍
()
Ответ на: комментарий от Aber

Сейчас уже просто тупит и подвисает, ошибки диска не вылезают.

Infra_HDC
() автор топика
14 мая 2018 г.

Есть подозрение на троян. Обновил ядро до 4.9 (из бакпортов). Ругани на SATA PHY нет, но проходит дней 6, и при ребуте зависает, но не сразу, а уже при выходе из иксов, и говорит, что не может отмонтировать некоторые файловые системы с HDD.

Infra_HDC
() автор топика
Ответ на: комментарий от Infra_HDC

4.9 (из бакпортов

Жесть какая. Тут в нормальных дистрибутивах 4.16 и в тестинге 4.17-rc*.

anonymous
()

Обнови биос и контакты почисть.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.