LINUX.ORG.RU
ФорумAdmin

zol , не всё так хорошо...

 


3

5

И так, сабж:

root@kvm2:~# zpool status -v

...

errors: Permanent errors have been detected in the following files:

        /zroot/kvm1/copy500/copy500.qcow2
        /zroot/kvm2/prd2/prd2.qcow2

Вышибает наглухо тестовые вирт. машинки. Память не ECC. Сперва вышибало одну, затем вообще ни с того, ни с сего, стало вышибать всё подряд.

Всё это случается, только при интенсивном IO.

Буду тестировать на ECC памяти завтра. О результатах - отпишусь. Ну и протестирую память, конечно.

Погнали холиварить..?

В логах всё чисто.

★★★★★

Последнее исправление: DALDON (всего исправлений: 1)

Клево, напиши еще используемый дистрибутив и все такое. У меня в соляре работает гуд. Во фре сильных нареканий не слышал. Лучше уж для linux нативно выбрать btrfs - меньше риска, чем с zol. Попробую в el7.1 погонять.

andrew667 ★★★★★
()
Ответ на: комментарий от andrew667

Блин, я в шоке! В предпродакшене (не нагруженные виртуалки), уже гоняю около года, всё ок! А стал готовить машинки с реальным продакшенем, и тут ТАКОЕ..! В общем хост дистрибутив: ubuntu 14.04, Zol 0.6.3. 3.13 ядро. ВСЁ работало месяцами на этом же железе и было гуд! ПОКА там не пошёл высокий I/O. Я просто начал устанавливать там ORACLE, на Oracle Linux 6.4, и у меня всё РАНДОМНО начало сыпаться... Я на себе волосы повыдергал отовсюду, пока не дошёл до уровня zfs мать его!

DALDON ★★★★★
() автор топика
Ответ на: комментарий от King_Carlo

А scrub на том можно сделать? При этом том в онлайн может быть? Или там вообще труба случается? Это-ж задница какая-то... Всё работало, пока не было высоких i/o

DALDON ★★★★★
() автор топика
Ответ на: комментарий от andrew667

С разморозкой. В rhel 7 это уже Technology Preview, в отличие от.

Сказки мне не надо рассказывать. Я btrfs тестирую на федоре, оно даже близко к релизу не подошло. Это даже не бета, это глубокая альфа.

King_Carlo ★★★★★
()
Последнее исправление: King_Carlo (всего исправлений: 2)
Ответ на: комментарий от DALDON

Я на себе волосы повыдергал отовсюду, пока не дошёл до уровня zfs мать его!

Режим кэширования для дискового устройства выбрал? По дефолту в ubuntu работает плохо. Поставь none, или другой, в зависимости от операций.

P.S. Диву даюсь - продакшен на убунту, да еще с ZOL. Это успех!

andrew667 ★★★★★
()
Ответ на: комментарий от DALDON

Пока уезжаю с роллбек снепшота одной машинкой на хост с ECC + zfs. Отпишусь, как и чего...

DALDON ★★★★★
() автор топика
Ответ на: комментарий от andrew667

продакшен на убунту, да еще с ZOL. Это успех!

Вообще то это хорошая рабочая связка.

King_Carlo ★★★★★
()
Ответ на: комментарий от DALDON

Не слушай тех, кто «даётся диву», всё должно быть ОК. У меня сейчас 23 сервера с ubuntu + ZOL, всё хорошо, на трёх серверах массивы из SSD с огромным IO. Проблем нет.

King_Carlo ★★★★★
()
Ответ на: комментарий от King_Carlo

Что-то я запустил, а оно, не то в фон, не то фиг знает куда провалилось... Ох. Надо разбираться, прежде вроде оно такого не делало.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от King_Carlo

Блин, спасибо тебе! Ты по делу мне кажется говоришь. В общем понять-бы куда провалился scrub.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Что-то я запустил, а оно, не то в фон, не то фиг знает куда провалилось...

В фон ушло. Запусти iostat увидишь дикий трансфер. zpool status -v будет показывать % этого scrub.

King_Carlo ★★★★★
()
Последнее исправление: King_Carlo (всего исправлений: 1)
Ответ на: комментарий от King_Carlo

Не пойму ничего...

root@kvm2:~# zpool scrub zroot 
cannot scrub zroot: currently scrubbing; use 'zpool scrub -s' to cancel current scrub
root@kvm2:~# iostat
Linux 3.13.0-46-generic (kvm2) 	09.03.2015 	_x86_64_	(8 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           3,11    0,00    1,09    6,11    0,00   89,68

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sdb              72,35       570,35      4891,12  368755615 3162293288
sdc               0,97       136,03        75,52   87945383   48827099
sda              71,98       546,23      4891,12  353159887 3162293032
dm-0              0,91       134,28        70,81   86820069   45779876
dm-1              1,61         1,72         4,71    1109328    3047216

DALDON ★★★★★
() автор топика
Ответ на: комментарий от EvgGad_303

Странность в том, что оно до этого работало более полугода. Но там не было высоких i/o.

DALDON ★★★★★
() автор топика

Так у тебя массив поди развалился. А ты как раз решил не показывать детальные статусы по нему

zgen ★★★★★
()
Последнее исправление: zgen (всего исправлений: 1)
Ответ на: комментарий от King_Carlo

Тестируй и дальше. А у меня полноценный rhel. Особо упоротым хоть кол на голове теши . Но ничего, горбатого исправит могила. Тем временем займись поиском поддержки ZOL в enterprise linux, Евгений Ваганыч.

andrew667 ★★★★★
()
Ответ на: комментарий от DALDON

Может до битых регионов и не доходило, когда нагрузки не было.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от DALDON

Не пойму ничего...

Что непонятного?

currently scrubbing

zpool status покажет прогресс

zgen ★★★★★
()
Ответ на: комментарий от DALDON

Убунту - продакшн уже давно

конечно, тем более с ZOL

Режим кеширования - это ты про kvm?

да

andrew667 ★★★★★
()
Ответ на: комментарий от zgen

Массив в порядке.

Вот вывод:

root@kvm2:~# zpool status
  pool: zroot
 state: ONLINE
status: One or more devices has experienced an error resulting in data
	corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
	entire pool from backup.
   see: http://zfsonlinux.org/msg/ZFS-8000-8A
  scan: scrub in progress since Mon Mar  9 22:40:24 2015
    44,1G scanned out of 1,03T at 60,1M/s, 4h48m to go
    0 repaired, 4,16% done
config:

	NAME                                         STATE     READ WRITE CKSUM
	zroot                                        ONLINE       0     0     9
	  mirror-0                                   ONLINE       0     0    19
	    ata-WDC_WD20EARS-00S8B1_WD-WCAVY4199811  ONLINE       0     0    19
	    ata-WDC_WD20EARS-00S8B1_WD-WCAVY4452032  ONLINE       0     0    20
DALDON ★★★★★
() автор топика
Ответ на: комментарий от zgen

просто отклик замедлится сильно.

Можно выставить zfs:zfs_scrub_delay в миллисекундах между каждым IO скруба.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от andrew667

Тестируй и дальше.

Угу.

А у меня полноценный rhel.

Поздравляю.

Особо упоротым хоть кол на голове теши .

Ты это, попробуй в «полноценном rhel», в банальном btrfs-raid-1, заменить убитый диск, но не один раз, а несколько, расскажи нам о % успешных попыток. То что red hat пеарит и финансирует это дерьмо, дерьмом оно быть не перестаёт.

King_Carlo ★★★★★
()
Ответ на: комментарий от andrew667

Это предпродакшн. Грины, там по случаю оказались, т.е. никакого серьёзного дела на этом узле не планировалось. Аккурат хотел посмотреть что будет с гринами.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от King_Carlo

Ты какие у себя SSD пользуешь? MLC/eMLC/SLC? Я так понимаю, у тебя они в качестве томов для zfs выступают?

Я планирую(планировал?!), использовать 10к диски + MLC как LARC кеш.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Ты какие у себя SSD пользуешь? MLC/eMLC/SLC?

Plextor M5 Pro. Понятия не имею по каким технолгиям они сделаны, главное, что гарантия 5 лет.

King_Carlo ★★★★★
()
Ответ на: комментарий от zgen

Блин, сорри. Я-ж не в курсе как оно разваливается на zfs. Пишет же, что: ONLINE... Оно так сразу не пометит диски как убитые, до тех пор, пока не сделаешь scrub? В логах ОС нету вроде ошибок ввода/вывода.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Это предпродакшн. Грины, там по случаю оказались

Нет ничего более постоянного, чем временное. Ты не считаешь странным проведение тестов в условиях, не соответствующим реальным?

andrew667 ★★★★★
()
Ответ на: комментарий от andrew667

Чего ж ты им давишься, тратя время на тесты?

Я ещё и systemd «давлюсь», у меня нет выбора, я должен знать всё об этих технологиях. Мне говорят: - «BTRFS это хорошо, быстро и надёжно», я начинаю тестировать и получаю тыкву и так уже происходит уже очень давно. ZFSonlinux просто работает, с версии 0.6.1 нет ни одной серьёзной проблемы.

King_Carlo ★★★★★
()
Ответ на: комментарий от DALDON

Ты на них хранишь данные? Или как кеш пользуешь?

Для данных, там довольно большие БД. L2ARC тоже использую на некоторых серверах, оно работает, сглаживает трансфер.

King_Carlo ★★★★★
()
Последнее исправление: King_Carlo (всего исправлений: 1)
Ответ на: комментарий от DALDON

Оно так сразу не пометит диски как убитые, до тех пор, пока не сделаешь scrub?

причём тут диски? у тебя контрольные суммы не совпадают на файлах.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от andrew667

Ты знаешь, я всё же пока вовсе не могу сказать, на сто процентов, что zfs + kvm, это, то, что мне нужно. У меня бегает несколько серверов на этом деле - всё ок. Хотел посмотреть, как оно будет на высоких i/o смотреться. - Да, я понимал, что это будет МЕЕЕЕДЛЕЕЕННО, ибо грины. Но суть от этого не должна меняться, я проводил лишь инсталляцию ORACLE, с импортом БД. И оно собственно посыпалось.

DALDON ★★★★★
() автор топика

при интенсивном IO.
Память не ECC

ССЗБ

reprimand ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.