Проблема флага O_DIRECT

3

6

Даже пользователь без прав администратора способен вызвать необратимую рассинхронизацию дисков.

В Linux обнаружена серьёзная уязвимость, существующая уже более десяти лет, и связана она с механизмом программного RAID при использовании флага O_DIRECT. Проблема позволяет привести массив в несогласованное состояние, причём без каких-либо ошибок или предупреждений со стороны системы. Несмотря на то, что баг впервые был зарегистрирован ещё в 2015 году, интерес к нему вновь возрос в контексте современных задач, таких как живая миграция виртуальных машин.

Суть проблемы заключается в том, как пользовательские программы взаимодействуют с блочными устройствами при помощи O_DIRECT. Этот флаг позволяет выполнять прямой доступ к данным, минуя кеш ядра, что полезно для повышения производительности в ряде задач. Однако в случае программного RAID, такого как MD RAID, DRBD или LVM RAID, это приводит к тому, что каждый диск массива может получить разные данные, даже если они записываются с одного и того же указателя в пользовательском пространстве. В результате данные на отдельных устройствах перестают быть синхронизированными – массив остаётся «рабочим» с точки зрения системы, но фактически оказывается повреждённым.

Причём проблема не в самих данных, а в нарушении согласованности между дисками. Даже если данные представляют собой «мусор», они должны быть одинаковыми на каждом RAID-устройстве. В текущем же случае каждый диск получает свою версию этих данных. Причина в том, что каждый из драйверов нижнего уровня получает доступ к одной и той же области пользовательской памяти независимо друг от друга, что приводит к расхождениям при чтении и записи.

Уязвимость считается особенно опасной, так как может быть вызвана из пользовательского пространства без прав суперпользователя, если программа имеет доступ к файлу на RAID-массиве и использует O_DIRECT. Это означает, что RAID может быть повреждён обычным приложением, даже не подозревающим об этом эффекте. При этом никаких ошибок или предупреждений от ядра не поступает, и массив продолжает функционировать как будто ничего не произошло.

Из всех файловых систем Linux, известны только две, не подверженные этому дефекту при использовании с программным RAID – это OpenZFS и Bcachefs. Остальные решения остаются потенциально уязвимыми. Проблема до сих пор числится как открытая и не имеет официального исправления.

>>> Подробности

Ссылка

←	ripgrep 15.0.0

Qmmp 2.3.0

→

← 1 2 3 4 5 6 →

so, zfs, bcachefs and btrfs seem to do right now and survive that «invalid O_DIRECT test cases»

dataman ★★★★★
(17.10.25 23:07:10 MSK)

Ссылка

Даже пользователь без прав администратора

Кого? CAP_SYS_ADMIN что ли? Давайте будем более точными в терминологии, всё таки не про Виндоус тема.

seiken ★★★★★
(18.10.25 13:03:00 MSK)

Несмотря на то, что за годы ниразу на такой баг не попадал, новость печалит. :(

anc ★★★★★
(18.10.25 13:23:06 MSK)

Ответ на: комментарий от seiken 18.10.25 13:03:00 MSK

Любой пользователь может использовать O_DIRECT флаг.

vbr ★★★★★
(18.10.25 13:24:01 MSK)

Ссылка

вангую что синхронизация устройств может быть отложена в случае малых нагрузок и ее просто не дождались иначе с чего бы вообще быть разнице, с чего бы вообще писать на какое то устройство и не писать на другое, с чего бы выбрать именно это устройство в массиве?

quester ★★
(18.10.25 13:28:44 MSK)

Ссылка

linux soft raid лет 15 и куча народу его используют, просто не верю что такой кейс был не протестирован изначально при разработке

quester ★★
(18.10.25 13:29:55 MSK)

Очередная новость с картинкой ради картинки.

~~Evenik~~ ★★
(18.10.25 13:31:33 MSK)

Ссылка

Из всех файловых систем Linux, известны только две, не подверженные этому дефекту при использовании с программным RAID – это OpenZFS и Bcachefs.

В репорте пишут, что и btrfs тоже не подвержена.

so, zfs, bcachefs and btrfs seem to do right now and survive that «invalid O_DIRECT test cases»

Похоже просто потому что вся CoW тройка запрещает писать произвольный мусор «мимо кассы» напрямую в диск из-за необходимости вычисления контрольных сумм записанных данных.

greedyskoof
(18.10.25 13:54:40 MSK)

Ну красиво, чо... Я чот не понял, если дрпйвера независимо читают пользовательский буфер, то для пользователя операция заканчивается, емти прочитали все. А тогда, данные валидны и неизменны до окончания операции. Чот я не понял, как оно оаботает тогда, если каждый иожет прочесть разное?

gns ★★★★★
(18.10.25 14:51:17 MSK)

Ответ на: комментарий от gns 18.10.25 14:51:17 MSK

Пользователь вызвал write и передал буфер. Драйвер блочного устройства взял этот буфер и переписал с него данные прямо на диск. Это без рейда.

В рейде драйвер рейда берёт этот буфер и переписывает данные с буфера на два диска, каждая операция записи независимо работает. В норме приложение не меняет буфер между вызовом write и его окончанием. Но если приложение запустило второй поток, который меняет буфер во время работы write, то в ядре на рейд могут записаться разные данные на разные устройства, если возникает ситуация гонки.

Как я понял - по сути это оптимизация для того, чтобы избежать копирований между буферами. Данные через DMA сразу передаются из пользовательской памяти в диск. Чтобы исправить этот баг, придётся копировать данные в промежуточный буфер, а это ухудшит производительность.

Когда используется файловая система с флагом O_DIRECT по сути управление передаётся сразу драйверу блочного устройства, для простых файловых систем, поэтому получается этот баг эксплуатировать без рута. Более сложные файловые системы с контрольными суммами работают сложней (но и, конечно, медленней) и в них O_DIRECT работает уже не так примитивно.

vbr ★★★★★
(18.10.25 14:59:20 MSK)
Последнее исправление: vbr 18.10.25 15:01:45 MSK (всего исправлений: 2)

Ответ на: комментарий от vbr 18.10.25 14:59:20 MSK

Так это тогда баг приложения, если оно меняет данные в буфере до окончания write

cobold ★★★★★
(18.10.25 15:22:10 MSK)

Ответ на: комментарий от vbr 18.10.25 14:59:20 MSK

Интерестно, а в случае RAID5/6 как это работает?

И, тут вобще интерестно, что считать ошибкой RAID1, ведь, в общем случае SSD может быть с Non-deterministic TRIM. То есть те блоки RAID, которые тримнуты, могут давать разное содержимое для разных накопителей зеркала. RAID-устройство не знает, какие блоки тримнуты, то есть на определённых исправных накопителях RAID1 может быть всегда не синхронизированым...

mky ★★★★★
(18.10.25 15:22:26 MSK)
Последнее исправление: mky 18.10.25 15:37:55 MSK (всего исправлений: 1)

Ответ на: комментарий от cobold 18.10.25 15:22:10 MSK

Видимо, для виртуальных машин или их миграции — это норма.

mky ★★★★★
(18.10.25 15:23:00 MSK)

Ссылка

Ответ на: комментарий от quester 18.10.25 13:29:55 MSK

лет 15

Да побольше, mdctl появился году в 2001. И не факт, что на тот момент O_DIRECT был вобще, или работал так, как сейчас.

mky ★★★★★
(18.10.25 15:33:02 MSK)

Ссылка

Ответ на: комментарий от vbr 18.10.25 14:59:20 MSK

Я так понимаю, что пользователь, пишущий данные на raid в режиме O_DIRECT, может повредить данные в своём этом файле.

Технически это баг, согласен, но он же ссзб.

Aceler ★★★★★
(18.10.25 15:53:46 MSK)

Ах, вот, что за говно мне на ровном месте рейд развалило! Я еще жаловался тогда, что с какого-то хрена у меня на сервере без даунтаймов файлы разъехались в зеркале MD-raid. Потом решил переехать на ZFS.

Меня тогда ~~@mx__~~, в приступе острой дистрофобии, обвинял в том, что это всё потому, что я использую арч, и развал был совершенно точно из-за этого (на LTS-ядре почти без патчей, ага-ага). Ну чо, дружок, как самочувствие?

liksys ★★★★
(18.10.25 16:12:00 MSK)
Последнее исправление: liksys 18.10.25 16:16:11 MSK (всего исправлений: 1)

Ответ на: комментарий от Aceler 18.10.25 15:53:46 MSK

Только ведь абсолютно любая программа может это сделать без твоего ведома. И даже никакие слои изоляции и контейнеризации не помогут, потому что фундаментальная дырка в ядре.

greedyskoof
(18.10.25 16:27:55 MSK)

Ответ на: комментарий от Aceler 18.10.25 15:53:46 MSK

ссзб один пользователь, а рейд развалится у всех, если система найдёт рассинхрон.

legolegs ★★★★★
(18.10.25 16:28:28 MSK)

Ответ на: комментарий от legolegs 18.10.25 16:28:28 MSK

На сколько я понимаю, она его не находит, в этом трюк.

Aceler ★★★★★
(18.10.25 16:30:28 MSK)

Ответ на: комментарий от greedyskoof 18.10.25 16:27:55 MSK

Можно список программ, использующих этот режим?

фундаментальная дырка в ядре.

Понимаешь, как-то за десять лет эксплуатации зеркальных программных рейдов в приличном количестве мы ни разу не столкнулись с этой фундаментальной проблемой.

Пытаюсь понять, то ли проблема недостаточно фундаментальна, то ли условия для неё слишком специфические нужны.

Aceler ★★★★★
(18.10.25 16:32:49 MSK)

Ответ на: комментарий от Aceler 18.10.25 16:30:28 MSK

Пока не сделать echo check > /sys/block/md0/md/sync_action (или аналог) не найдёт, да.

legolegs ★★★★★
(18.10.25 16:33:18 MSK)

Ответ на: комментарий от cobold 18.10.25 15:22:10 MSK

Так это тогда баг приложения, если оно меняет данные в буфере до окончания write

Баг приложения не должен разваливать рейд. Ну интуитивно так кажется.

vbr ★★★★★
(18.10.25 16:35:09 MSK)
Последнее исправление: vbr 18.10.25 16:39:06 MSK (всего исправлений: 1)

Ответ на: комментарий от Aceler 18.10.25 16:32:49 MSK

Можно список программ, использующих этот режим?

dd oflag=direct

А если серьёзно, то это может быть субд. Впрочем, взрослые субд типа постгреса используют всякие трюки типа собственного журнала, кольцевого буфера и т.п. чтобы их файлы остались в каком-то вменяемом состоянии даже при жёстком выключении машины. Как побочный эффект, они не изменяют одни и те же участки файлов часто и не подпадают под сабжевый баг.

Возможно, какие-то пионерские СУБД подвержены.

legolegs ★★★★★
(18.10.25 16:39:09 MSK)

Ответ на: комментарий от Aceler 18.10.25 16:32:49 MSK

Можно список программ, использующих этот режим?

Любой рандомный скрипт вызывающий dd с oflag=direct?

Понимаешь, как-то за десять лет эксплуатации зеркальных программных рейдов в приличном количестве мы ни разу не столкнулись с этой фундаментальной проблемой.

«У меня за окном такая же девятиэтажка и она не горит.»

greedyskoof
(18.10.25 16:39:58 MSK)

Ответ на: комментарий от legolegs 18.10.25 16:39:09 MSK

Ещё в qemu для производительности часто используют этот флаг (например в proxmox это по дефолту, насколько я знаю). А что там внутри виртуалки происходит - одному богу известно.

vbr ★★★★★
(18.10.25 16:45:00 MSK)

Ответ на: комментарий от legolegs 18.10.25 16:39:09 MSK

Ну то есть бег по потолку отменяется )

Aceler ★★★★★
(18.10.25 16:47:45 MSK)

Ответ на: комментарий от greedyskoof 18.10.25 16:39:58 MSK

И за десять лет ни у кого не горела.

Пусть тушат, чо.

Aceler ★★★★★
(18.10.25 16:48:28 MSK)

«Пользовательские программы», как правило, не имеют прав на доступ к блочному устройству минуя ФС, даже для чтения.

alegz ★★★★★
(18.10.25 16:50:34 MSK)

Ответ на: комментарий от legolegs 18.10.25 16:39:09 MSK

взрослые субд типа постгреса

Недавно в 18 версии кстати как раз данный режим завезли, лол.

https://pganalyze.com/blog/postgres-18-async-io:

Allow the use of Direct I/0 (DIO). Direct I/O refers to bypassing the OS kernel’s page cache and performing I/O operations straight between the application and storage device.

Пам-пам-пам.

greedyskoof
(18.10.25 16:53:01 MSK)

Ответ на: комментарий от greedyskoof 18.10.25 16:27:55 MSK

Только ведь абсолютно любая программа может это сделать без твоего ведома.

не может. а тем, которые могут (есть права на запись в блочное устройство) абсолютно насрать на флаги, они и так могут сделать что угодно.

alegz ★★★★★
(18.10.25 16:53:32 MSK)

Ответ на: комментарий от alegz 18.10.25 16:50:34 MSK

Речь об обычном файле.

Aceler ★★★★★
(18.10.25 16:55:13 MSK)

Ссылка

Ответ на: комментарий от quester 18.10.25 13:29:55 MSK

linux soft raid лет 15 и куча народу его используют, просто не верю что такой кейс был не протестирован изначально при разработке

Год назад решил детально разобраться с работой mdraid, протестировать его стабильность и выносливость, понять слабые стороны и прочее.

Взял три USB-флешки, создал на них raid10, вынул-вставил:

md/raid10:md127: not enough operational mirrors.
BUG: kernel NULL pointer dereference, address: 0000000000000050

Первая опробованная мной конфигурация развалила ядро.

ValdikSS ★★★★★
(18.10.25 16:55:35 MSK)
Последнее исправление: ValdikSS 18.10.25 16:55:46 MSK (всего исправлений: 1)

Ответ на: комментарий от alegz 18.10.25 16:50:34 MSK

Этот баг эксплуатируется через обычную ФС с флагом O_DIRECT, внимательней читай.

vbr ★★★★★
(18.10.25 16:57:11 MSK)

Ссылка

Ответ на: комментарий от vbr 18.10.25 16:45:00 MSK

По умолчанию в проксмоксе режим компания none, это так. Но любая гостевая ос тоже кеширует, поэтому проблемы быть не должно. Иначе багтрекер проксмокса был бы завален отчётами о пропадании данных.

Aceler ★★★★★
(18.10.25 16:57:24 MSK)

Ответ на: комментарий от cobold 18.10.25 15:22:10 MSK

В случае если оно работает на одиночном диске или аппаратном рейде - это не баг, это крутая оптимизация.

kirill_rrr ★★★★★
(18.10.25 16:57:48 MSK)
Последнее исправление: kirill_rrr 18.10.25 16:58:00 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от alegz 18.10.25 16:53:32 MSK

Для эксплуатации не нужен доступ в блочное устройство. В том и суть проблемы, что для прострела не нужны рут права и прочее. Достаточно записать любой файл в режиме O_DIRECT.

greedyskoof
(18.10.25 16:57:50 MSK)

Ответ на: комментарий от Aceler 18.10.25 16:57:24 MSK

В тикете по ссылке человек развалил массив хоста из гостя

ValdikSS ★★★★★
(18.10.25 16:57:58 MSK)

Ответ на: комментарий от ValdikSS 18.10.25 16:55:35 MSK

Вообще нередко такое. Вроде берёшь что-то такое, что кажется железобетонным, а там чижика съели. Всё же железный рейд от бренда выглядит безальтернативным для серьёзных нагрузок, а линуксовый только от бедности.

vbr ★★★★★
(18.10.25 16:58:49 MSK)

Ответ на: комментарий от vbr 18.10.25 16:58:49 MSK

Раньше я не понимал почему. А тут такое...

kirill_rrr ★★★★★
(18.10.25 17:00:23 MSK)

Ответ на: комментарий от greedyskoof 18.10.25 16:39:58 MSK

dd использует режим, но обычно не подвержен багу, т.к. пишет по каждому смещению только один раз. В теории два последовательных вызова dd могут вызвать баг, если будут писать в один дескриптор с перемоткой на начало.

ПО идее вот это должно воспроизводить баг, но это не точно:

for i in {1..100}; do
dd if=/dev/urandom count=128 oflag=direct >&3
perl -e 'open(FD,">&3"); seek(FD,0,0);'
done 3> testfile

legolegs ★★★★★
(18.10.25 17:01:35 MSK)

Ссылка

Ответ на: комментарий от quester 18.10.25 13:29:55 MSK

я пользовался mdraid ещё лет 25 назад. и он уже не был новостью.
и вот доказательство из mdadm.c:

mdadm - manage Linux «md» devices aka RAID arrays.

mumpster ★★★★★
(18.10.25 17:02:14 MSK)

Ответ на: комментарий от vbr 18.10.25 16:58:49 MSK

Всё же железный рейд от бренда выглядит безальтернативным для серьёзных нагрузок, а линуксовый только от бедности.

Я вам больше скажу: линуксовый raid1 не поддерживает параллельное чтение нескольких блоков с разных дисков! Т.е. скорость чтения в raid1 не увеличивается!

Я когда узнал, не поверил, что такой нонсенс вообще возможен.

ValdikSS ★★★★★
(18.10.25 17:03:35 MSK)

Ответ на: комментарий от Aceler 18.10.25 16:57:24 MSK

багтрекер проксмокса был бы завален отчётами о пропадании данных

Proxmox не оказывают поддержку при использовании mdraid - https://pve.proxmox.com/wiki/Software_RAID#mdraid

No ★★★
(18.10.25 17:04:57 MSK)

Ответ на: комментарий от ValdikSS 18.10.25 17:03:35 MSK

В lvm увеличивается :) в т.ч. и на флешках, и даже не падает.

legolegs ★★★★★
(18.10.25 17:05:06 MSK)

Ответ на: комментарий от vbr 18.10.25 16:58:49 MSK

Это факт, никто в серьезных датацентрах софтварные рейды не использует. По множеству причин на самом деле, не только из-за стабильности. В частности потому что при внезапной необходимости смены софтварного стека не нужно будет все это дело мигрировать.

greedyskoof
(18.10.25 17:05:59 MSK)

Ответ на: комментарий от legolegs 18.10.25 17:05:06 MSK

LVM использует тот же mdraid, так что не увеличивается.

Речь идёт о «разделении» чтения одного блока на несколько дисков, т.е. если блочному устройству отправили запрос «прочти мне 1 МБ по вот такому смещению», mdraid не может разделить этот запрос на два «прочти по 500 КБ» на оба диска.

Скорость обычного чтения может быть выше из-за readahead, который отправляет несколько запросов, но это не то.

ValdikSS ★★★★★
(18.10.25 17:06:59 MSK)
Последнее исправление: ValdikSS 18.10.25 17:07:48 MSK (всего исправлений: 1)

Ответ на: комментарий от greedyskoof 18.10.25 17:05:59 MSK

при внезапной необходимости смены софтварного стека

Внезапная смена линукса на макось?

legolegs ★★★★★
(18.10.25 17:09:08 MSK)

Ответ на: комментарий от greedyskoof 18.10.25 16:57:50 MSK

пример в тикете:

2. Write data with O_DIRECT

./a.out /dev/md0

хрен ты его так запишешь в /dev/vg/home какой-нибудь. прав у тебя на это нет.

alegz ★★★★★
(18.10.25 17:09:37 MSK)

Ответ на: комментарий от ValdikSS 18.10.25 17:06:59 MSK

Там было две какие-то конфигурации, которые очень похожи, но отличались именно в скорости. Я забыл подробности.

legolegs ★★★★★
(18.10.25 17:10:04 MSK)

Эта проблема должна быть глубже. Хотя бы потому что я смотрел код куда ходит этот самый директ. Не может там быть таких багов - и raid тут ни причем

ckotctvo
(18.10.25 17:12:21 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 →

←	ripgrep 15.0.0

Linux General

Qmmp 2.3.0

→

Похожие темы