BTRFS и аварийное выключение

Привет, ЛОР.

Рубрика успокойте паранойю.

Дано: Система с BTRFS, в которой 2 SSD диска склеены в RAID0 средствами самой ФС.

C момента установки работало без нареканий, вообще без единого.

Сегодня в процессе сборки тяжелого Android проекта все намертво повисло, пропал звук, 0 реакции на попытки перейти в tty / REISUB, в общем, ничего не оставалось кроме как сделать аварийное выключение.

В логах после перезагрузки не нашел абсолютно ничего, даже намёков на проблему, но интересует другое.

Если btrfs device stats и scrub status выдают вот такие данные, можно ли спать спокойно?

Концепцию CoW понимаю, но пляски с fsck в ext4 в прошлом дают о себе знать, да и вообще, аварийное выключение всегда воспринималось мною как крайне опасное мероприятие.

Т.е. верно ли я трактую идею, что максимум потерь - это данные, которые не успели записаться и остались в «старой версии» (абсолютно не критично, поскольку это была сборка) и второй момент, что могли потеряться данные в очереди на запись, которые висели в кэшах оперативной памяти?

➜  ~ sudo btrfs device stats / && sudo btrfs device stats /home
[/dev/nvme1n1p2].write_io_errs    0
[/dev/nvme1n1p2].read_io_errs     0
[/dev/nvme1n1p2].flush_io_errs    0
[/dev/nvme1n1p2].corruption_errs  0
[/dev/nvme1n1p2].generation_errs  0
[/dev/nvme0n1p1].write_io_errs    0
[/dev/nvme0n1p1].read_io_errs     0
[/dev/nvme0n1p1].flush_io_errs    0
[/dev/nvme0n1p1].corruption_errs  0
[/dev/nvme0n1p1].generation_errs  0
[/dev/nvme1n1p3].write_io_errs    0
[/dev/nvme1n1p3].read_io_errs     0
[/dev/nvme1n1p3].flush_io_errs    0
[/dev/nvme1n1p3].corruption_errs  0
[/dev/nvme1n1p3].generation_errs  0
[/dev/nvme0n1p2].write_io_errs    0
[/dev/nvme0n1p2].read_io_errs     0
[/dev/nvme0n1p2].flush_io_errs    0
[/dev/nvme0n1p2].corruption_errs  0
[/dev/nvme0n1p2].generation_errs  0
➜  ~ sudo btrfs scrub status / && sudo btrfs scrub status /home
UUID:             6dbfff5e-02c9-4f4e-aed7-c9e20424076b
Scrub started:    Tue Feb 17 17:24:50 2026
Status:           finished
Duration:         0:00:02
Total to scrub:   15.40GiB
Rate:             7.70GiB/s
Error summary:    no errors found
UUID:             c589e670-abd1-4b5f-bd59-92bdcc418313
Scrub started:    Tue Feb 17 17:24:56 2026
Status:           finished
Duration:         0:01:00
Total to scrub:   583.55GiB
Rate:             9.70GiB/s
Error summary:    no errors found

← Компилирую, запускаю, получаю «trap invalid opcode»

Как убрать этот старый бич линуксов right button to click →

В теории да. На практике - как звёзды сойдутся. Потому что btrfs ещё не готовая какашка. Кстати, сегодня солнечное затмение было. Но в южном полушарии

cobold ★★★★★
(17.02.26 18:59:06 MSK)

В основном там проблемы были только с raid5/6, для raid0, аварийное выключение обычно приводит к ругани на контрольную сумму в недописанном файле и недописанные данные в нём
В отличие от raid1/5/6 на raid0 не должно быть скрытых проблем т.к у него нет возмрожности проблему «скрыть» прочитав данные с других носителей

mittorn ★★★★★
(17.02.26 19:12:17 MSK)
Последнее исправление: mittorn 17.02.26 19:13:22 MSK (всего исправлений: 1)

Ответ на: комментарий от mittorn 17.02.26 19:12:17 MSK

Так оно же вроде концептуально не может быть «недописанным».

Т.е. у нас CoW, который пишет файл в новую ячейку и потом переставляет указатель, если система рухнула в процессе записи, указатель просто останется на старой версии файла, до модификации, или я неправильно трактую?

Jefail ★★★★★
(17.02.26 19:14:18 MSK) автор топика

Ответ на: комментарий от cobold 17.02.26 18:59:06 MSK

Понять бы, как сопоставить теорию с практикой, в том плане, что у меня нет других инструментов, кроме scrubs и stats (либо я о них не знаю)

Jefail ★★★★★
(17.02.26 19:22:22 MSK) автор топика

Ответ на: комментарий от Jefail 17.02.26 19:14:18 MSK

Это если диск не переставляет местами записи для оптимизации, а некоторые переставляют и может выйти что указатель он переписал, а данные всё ещё ждут своей очереди записи. Хотя если у тебя ссд то это не актуально, им переставлять местами записи смысла нет. Хотя если raid0 - две его половины могут по-ранзному успеть и опять, указатель на первом ссд записался, а второй лагнул и данные записать не успел.

Впрочем насколько правильно ты описал работу btrfs я не знаю.

firkax ★★★★★
(17.02.26 19:49:28 MSK)
Последнее исправление: firkax 17.02.26 19:50:40 MSK (всего исправлений: 1)

2 SSD диска склеены в RAID0

Очень неразумно так делать.

firkax ★★★★★
(17.02.26 19:50:20 MSK)

Ответ на: комментарий от firkax 17.02.26 19:49:28 MSK

Диски в RAID0 я по историческим причинам склеил, ранее там была Б-гомерзкая Windows и физический dual boot.

В любом случае, я пока пытаюсь понять, какие гарантии дает (и дает ли) device stats и scrub status.

Jefail ★★★★★
(17.02.26 20:01:41 MSK) автор топика

Ответ на: комментарий от firkax 17.02.26 19:50:20 MSK

в процессе сборки тяжелого Android проекта все намертво повисло

Зато программный, а не аппаратный raid, целого 0-го уровня, на монолитном ядре. Главное не зависнуть при вычислении криптографического (а не хухры-мухры какого) хеша.

anonymous
(17.02.26 20:13:10 MSK)

Ответ на: комментарий от firkax 17.02.26 19:50:20 MSK

Очень неразумно так делать.

Почему?

frunobulax ★★★★
(17.02.26 20:16:00 MSK)

Ответ на: комментарий от frunobulax 17.02.26 20:16:00 MSK

Потому что raid0 это прямая противоположность тому, для чего рейды вообще сделаны. Настоящие рейды уменьшают шанс потери данных и аварийного отказа системы, raid0 наоборот увеличивает. Его применение допустимо в двух случаях:

1) ты не боишься потери данных (это временное хранилище, а raid0 чтобы хоть немного ускорить его работу)

2) тебе совершенно неизбежно требуется большой монолитный объём хранения, и нарезать его на части на более высоком уровне абстракции (в клиенте) невозможно

Никаких других оправданий его применению не может быть.

Учитывая склонность ссд (по сравнению с хдд) дохнуть резко и насовсем - ещё хуже.

firkax ★★★★★
(17.02.26 20:23:33 MSK)
Последнее исправление: firkax 17.02.26 20:27:24 MSK (всего исправлений: 2)

Ответ на: комментарий от firkax 17.02.26 20:23:33 MSK

Основные данные у меня лежат на NAS, в котором блины и 2 бэкапа на разные носители.

На SSD только ОС, софт и игры из Steam.

Jefail ★★★★★
(17.02.26 20:34:46 MSK) автор топика

Ответ на: комментарий от Jefail 17.02.26 19:14:18 MSK

Не изучал, откуда после сбоя ядра вылезали ошибки чексумм, но вероятно, метаданные обновились, а данные нет

mittorn ★★★★★
(18.02.26 02:14:21 MSK)

А почему именно RAID0, а не single? Нужна прям скорость, чтобы файлы на разных носителях были? Объединить то можно и синглом.

NyXzOr ★★★★★
(18.02.26 04:38:49 MSK)

Ответ на: комментарий от NyXzOr 18.02.26 04:38:49 MSK

90% нагрузки на систему - сборка очень больших проектов, своего рода попытка выиграть на пропускной способности/IOPS.

Jefail ★★★★★
(18.02.26 17:04:23 MSK) автор топика

Сегодня в процессе сборки тяжелого Android проекта все намертво повисло, пропал звук, 0 реакции на попытки перейти в tty / REISUB, в общем, ничего не оставалось кроме как сделать аварийное выключение.

Вообще пофиг, если не raid5/6. Проблемы бывают только с ext4 на больших размерах, и когда в fstab проверку диска прописать забыли в связке с отсутствием errors=remount-ro.

altwazar ★★★★★
(19.02.26 09:16:28 MSK)

Ответ на: комментарий от Jefail 17.02.26 20:01:41 MSK

Диски в RAID0 я по историческим причинам склеил, ранее там была Б-гомерзкая Windows и физический dual boot.

Диски удобно в raid0 держать, всё равно потеряешь данные без бэкапов. А так и скорость выше, и износ ssd равномерный, и не приходится вручную данные между разделами балансировать.

altwazar ★★★★★
(19.02.26 09:23:15 MSK)

Ответ на: комментарий от firkax 17.02.26 20:23:33 MSK

Потому что raid0 это прямая противоположность тому, для чего рейды вообще сделаны

Это всего лишь массив дисков. Сценарии использования и возможности построения компьютера сильно шире, чем тебе на уроке информатики когда-то рассказывали.

Например, raid0 из 2 современных SSD¹ в 2 раза уменьшает износ каждого из накопителей и соотвественно продлевает ресурс системы. Это мало чем отличается от одного накопителя такого же объёма, только дешевле и производительнее.

Если у тебя обычный десктоп и нет требований по нулевому простою, это очень хорошая сделка. Способов делать асинхронные реплики такой системы вместо накладного синхронного RAID — уйма.

1 — при надёжности современных бытовых SSD с умными контроллерами, если это не восстановленная флешка из китайского магазина

anonymous
(19.02.26 10:21:37 MSK)