LINUX.ORG.RU
решено ФорумAdmin

Почему BIGDATA это плохо

 ,


0

3

Сервер HP DL380 Gen9, RAID-контроллер P440ar, 6 SAS HDD по 18TB в массиве RAID-0, файловая система ext4, картинка.

Просто «на холодную» смонтировал диск и просто вы только посмотрите:

# time find /mnt/disk2/
/mnt/disk2/
/mnt/disk2/lost+found
/mnt/disk2/vm
/mnt/disk2/vm/CRUX-WebServer-RootServer.img
/mnt/disk2/vm/CRUX-CorePorts.img
/mnt/disk2/vm/CRUX-DocumentsAndSettings.img
/mnt/disk2/vm/old
/mnt/disk2/vm/old/CRUX-WebServer-RootServer.img
/mnt/disk2/vm/old/CRUX-Worker2.img
/mnt/disk2/vm/old/CRUX-WebServer-RootServer-www_XXXXXXXX_ru.img
/mnt/disk2/vm/old/CRUX-Worker1.img
/mnt/disk2/vm/old/CRUX-WebServer-RootServer-www_XXXXXXXX_ru.img
/mnt/disk2/vm/old/CRUX-KVM-Host-XXXXXXXX_ru.img
/mnt/disk2/vm/old/CRUX-OneGigabyte.img
/mnt/disk2/vm/old/CRUX-KVM-Host-XXXXXXXX_ru.img
/mnt/disk2/vm/old/CRUX-WebServer-RootServer-www_XXXXXXXX_ru.img

real    0m8.957s
user    0m0.002s
sys     0m0.000s

Это оставило мне глубокую душевную рану, с такими результатами, я не ожидал.

С такими результатами этот сервер не то, что под торренты или условную файлопомойку, его под просмотр аниме через DLNA использовать сомнительно, его разве что для архивных бэкапов раз в год запускать... Чувствуется, что данные находились где-то на другом континенте.

С такими результатами, приходит понимание, что существует некий предел объёма данных в принципе, который допустимо использовать в рамках одной железки. Пусть это будет 10тб. Вместо одного LFF сервера взять несколько SFF, набить их дисками и распределять хранение данных между ними по сети, использовать какой-нибудь Ceph, да даже самописанный костыль, который будет проксировать файлики с разных серверов глядя на URL: /srv1/filename, /srv2/filename, /srv3/filename — будет быстрее и лучше.

Чем тупо взять много больших дисков и всё в RAID-0, и ожидать каких-то адекватных скоростей и отклика.

Какой самый большой объём данных вы щупали? Как считаете, не лучше ли такой объём данных распределить между несколькими железками, чем всё на одной хранить?

★★★★★

RAID-контроллер P440ar, все диски на одном

файловая система ext4

И ты удивляешься?

И да, хоть мульён образов ВМок собери, бигдатой они от этого не станут.

token_polyak ★★★★
()
Последнее исправление: token_polyak (всего исправлений: 1)

приходит понимание, что существует некий предел объёма данных в принципе, который допустимо использовать в рамках одной железки

Допустимо для кого или чего?

alex1101
()

Чем тупо взять много больших дисков и всё в RAID-0, и ожидать каких-то адекватных скоростей и отклика.

Скорость RAID-0 при рандомном доступе примерно равна скорости самого медленного диска в массиве. Если хочешь нормальное распараллеливание - делай не RAID-0 а монтируй все диски по разным путям и балансируй хранение между ними уже средствами юзерспейса. Ну и проверь что контроллер может реально параллельно с ними работать (а то разные бывают).

firkax ★★★★★
()

Гы, это не бигдата, это биг массив =) Был сервер (да и есть, только меня больше в той конторе нет :), шасси было забито 10-ю терабайтниками под завязку, да и еще цепнута полка на 15 10-и терабайтников. Каждый диск передавался ОС индивидуально, скорость работы была норм (задача – видеонаблюдение).

zwoelf
()

6 SAS HDD по 18TB в массиве RAID-0

ОМГ

файловая система ext4

ОМГ

real 0m8.957s

Ожидаемо

BIGDATA

CRUX-WebServer-RootServer.img

Таки это никакая не бигдата.

time find /mnt/disk2/

Так себе метод оценки производительности. Обычно меряют с помощью fio.

По теме: хранилища требуют правильного дизайна.

Harliff ★★★★★
()
Последнее исправление: Harliff (всего исправлений: 1)

С такими результатами, приходит понимание, что существует некий предел объёма данных в принципе, который допустимо использовать в рамках одной железки

А понимания, что не все данные нужны одновременно нет?

Psilocybe ★★★★
()