LINUX.ORG.RU
ФорумTalks

Крайне печальный отчёт о работе ext4 на крашущейся системе

 experiment, , ,


0

1

Так уж вышло, что я напоролся на регрессию в 3.6, которую совместными усилиями с разработчиками пытаюсь решить. Каждое тестирование гарантированно вызывает hard system freeze (даже до паники дело не доходит - может и доходит, но ядро вывалить OOPs/panic не успевает - система намертво вешается).

Что мы имеем с ext4.

За примерно 50 сессий таких вот крашей обнулено под ноль около 12 файлов, полностью потерян каталог расширений у Google Chrome, в котором было порядка 30 поддиректорий и около 200 файлов.

Вот такая она ext четвёртая.

/dev/sda2 on /home type ext4 (rw,noatime,nobarrier)

TC, сам то хоть понял о чём речь завел?

Конфиг, в студию!!!

Deleted
()

обнулено под ноль

Хорошо сказал, прям по-чеховски.

morse ★★★★★
()

А где обязательная в таких случаях ссылка на список рассылки или на багтрекер?

AEP ★★★★★
()

Дело конечно хорошее, удачи, но опыт у меня обратный. Из-за подыхающего железа имел over9k перезагрузок в течении нескольких месяцев на домашней файлопомойке, пока наконец не дошли руки починить.

ext4 пережила эти катаклизмы так же, как и ext3: полностью без потерь, fsck ошибок не нашёл. Все фс монтируются в data=ordered и с барьерами.

aidaho ★★★★★
()

обнулено под ноль

Ухаха)) красиво написал.

Licwin ★★★★★
()
Ответ на: комментарий от h31

nobarrier

ССЗБ

Да чо уж там, пиши сразу вот так:

[any released in-kernel filesystem]

ССЗБ, нефиг пользоваться всякой какой, которую я вдро пихают все, кому не лень.

GateKeeper ★★
()

Любая установка системы уникальна.

У меня проблем с ext4 нет на дистрибутивах от Gentoo и NixOS.

Ядра последние всегда, в данный момент на сервере 3.6.2, массивы raid10 программные на hub от LSI (драйвер mpt2sas), все работает.

Может проблема в другом месте, а не в ext4? smartctl -a /dev/sda ... что выдает ? Особенно по части перемещенных и подвисших секторов. Нет ли перегрева дисков? Система запитана через ИБП ? ИБП исправен ? Или у Вас ноутбук ?

Зачем nobarrier у Вас? Я у себя оставил только noatime, другие опции не указываю.

Deleted
()

nobarrier

Ну тут уже всё сказали, в принципе. Сам себя за яйца укусил, а теперь ещё и жалуется, что дотянуться смог.

Axon ★★★★★
()
Ответ на: комментарий от Axon

а теперь ещё и жалуется, что дотянуться смог.

You made my day :)

raycast
()
Ответ на: комментарий от paranormal

Получили энтерпрайзную ФС на халяву, а понту, как будто сами с нуля написали. Что ж на UFS2-то забили массово?

leave ★★★★★
()
Ответ на: комментарий от aidaho

Дело конечно хорошее, удачи, но опыт у меня обратный. Из-за подыхающего железа имел over9k перезагрузок в течении нескольких месяцев на домашней файлопомойке, пока наконец не дошли руки починить.

А я, вот, подтверждаю не самую высокую надёжность ext4 на жёстких рестартах. Даже в давно не обновлявшихся каталогах, типа /usr, бывало, сыпалось.

Из всего, что пробовал за много лет и много машин, меня под linux только reiserfs никогда не подводил. Хотя, был случай, когда одна из машин, после десятков жёстких висов, заимела ошибки в ФС, но починить их удалённо было нельзя. Года полтора на ошибках проработала, пока я до датацентра не добрался. И то ничего не потерялось :)

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

"...nobarrier..." ССЗБ - суммарное время увеличения быстродействия за счет отключения журнала всегда меньше времены по восстановлению из бакапа :))

nagual2
()
Ответ на: комментарий от KRoN73

Спасибо за комментарий.

Кстати, 100% людей в теме, писавших про No Barrier, не понимают его смысл ;)

Но мне не жалко - пущай гавкают :-)

juk4windows
() автор топика

У меня был косяк с бубунтой и ext4 ~~ год назад, накрылся сервер. Из-за косяка ИБП полетело питание, все протоколы мониторинга улетели. Было дуже печально.

IPR ★★★★★
()
Ответ на: комментарий от leave

Получили энтерпрайзную ФС на халяву, а понту, как будто сами с нуля написали. Что ж на UFS2-то забили массово?

С хера ли? У меня / и второй сторедж под ней и не жужу. С журналом ваще благодать, потерь не было, брат жив.

IPR ★★★★★
()

желтизна

Где ссылка на багрепорт? Где пример теста, чтобы локально воспроизвести?

xorik ★★★★★
()
Ответ на: комментарий от anonymous_sama

Отказался от этого. Ибо часто бывает типо смонтирована в будущем с этим параметром.

Это не причем, у тебя что-то с синхронизацией часов

xorik ★★★★★
()
Ответ на: комментарий от xorik

Да я тоже так думал. Но такое не только на локалхосте, после defaults, все стало мило и пушисто. Да наблюдалось конечно не на всех машинах.
ntp же

anonymous_sama ★★★★★
()
Ответ на: комментарий от leave

Да не, не масово, но зачем на десктопе ufs если есть zfs? Да и в общем то не совсем на халяву, работы там сделано очень много, в том числе и по исправлению багов.

paranormal ★★
()

3.6

Ну и чего ты хочешь после этого?

Dron ★★★★★
()

Так уж вышло, что я напоролся на регрессию в 3.6, которую совместными усилиями с разработчиками пытаюсь решить. Каждое тестирование гарантированно вызывает hard system freeze (даже до паники дело не доходит - может и доходит, но ядро вывалить OOPs/panic не успевает - система намертво вешается).

Из-за ошибки в ядре вообще может всё что угодно случиться. В том числе поломка данных на ФС, которая даже не была примонтирована, независимо от её типа =).

Deleted
()
Ответ на: комментарий от nagual2

"...nobarrier..." ССЗБ - суммарное время увеличения быстродействия за счет отключения журнала всегда меньше времены по восстановлению из бакапа :))

Вы это гугелю расскажите.

andreyu ★★★★★
()
Ответ на: комментарий от leave

Журнал в смысле geom'овский или SU?

Который с SU.

IPR ★★★★★
()
Ответ на: комментарий от leave

zfs в base - значит она своя ;) флейм по поводу серверная не серверная пожалуй будет звучать странно, это fs в первую очередь и делает она то что должна делать fs, инструменты не политика...

Ну а в плане надёжности (сквозная целостность данных), удобности (отсутствие fsck), и фичастости (которая к тому же удобна и очевидна, на отмену от etc) думаю на сегодняшний день аналогов zfs нету...

В том что os загрузится после жосткого рестарта у меня сомнений нет, и загрузится она сразу, без fsck.

we have cookies.

paranormal ★★
()
Ответ на: комментарий от leave

Да и по правде для сервера (там где сохранность данных критический фактор) я бы всё таки ставил ufs, zfs для надёжных решений слишком молод...

paranormal ★★
()
Ответ на: комментарий от paranormal

Я знаю, что такое su, но многие бсдшники его почему-то тоже относят к технологиям журналирования - потому и спросил. К слову, товарищ IPR четырьмя комментариями выше тоже использует su.

leave ★★★★★
()
Ответ на: комментарий от h31

ну, если следовать ману, то nobarrier употребимо и _должно_ быть употреблено когда есть уверенность в питании. Т.е. если у тебя есть упс или контроллер с батарейкой, то nobarrier в руки и это повысит производительность.

Обзывать человека ССЗБ только за то что он использует вполне легальную фичу ФС нелогично.

AndreyKl ★★★★★
()
Ответ на: комментарий от AndreyKl

никаких предупреждений в мане нет

Но всё равно функция небезопасная, просто по своей сути.
Ладно, фиг с ними с барьерами. Ну сам подумай, вот крэшится система у ТСа, в этот момент драйвер ФС может быть в любом состоянии. Даже если взять сверхнадежную ФС, которая даже в случае изменения одного байта в структуре файловой системы сразу же запишет его на диск и подождет сброса буфера, может она в тот момент хотела отправить этот байт контроллеру, но чуть-чуть не успела.
А в данном случае имеем такую универсальную ФС как ext4, где готовы в каких-то местах отказаться от надежности в пользу производительности. Ext4 по умолчанию довольно мало интересуется сохранностью данных, в основном её волнует корректность структуры ФС, то есть чтобы в итоге бóльшая часть файлов оказалась на месте.

h31 ★★★★
()
Ответ на: комментарий от h31

Это же стандарт де-факто, а значит очень популярна. Больше юзеров - больше >топиков.

Свежо предание, а верится с трудом ...

nagual2
()
Ответ на: комментарий от juk4windows

Я не знаю, что другое могут простые смертные понимать про nobarrier кроме того, что написано в

https://ext4.wiki.kernel.org/index.php/Ext4_Howto#Barriers_on_by_default

и man mount. В частности

The ext4 filesystem enables write barriers by default.

vasily_pupkin ★★★★★
()
Ответ на: комментарий от leave

Зачем на десктопе серверная ZFS, если уже есть своя рабочая (по утверждениям изена) UFS2.

У меня некоторое время гента на руте zfs жила...

tazhate ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.