LINUX.ORG.RU
ФорумAdmin

zol , не всё так хорошо...

 


3

5

И так, сабж:

root@kvm2:~# zpool status -v

...

errors: Permanent errors have been detected in the following files:

        /zroot/kvm1/copy500/copy500.qcow2
        /zroot/kvm2/prd2/prd2.qcow2

Вышибает наглухо тестовые вирт. машинки. Память не ECC. Сперва вышибало одну, затем вообще ни с того, ни с сего, стало вышибать всё подряд.

Всё это случается, только при интенсивном IO.

Буду тестировать на ECC памяти завтра. О результатах - отпишусь. Ну и протестирую память, конечно.

Погнали холиварить..?

В логах всё чисто.

★★★★★

Последнее исправление: DALDON (всего исправлений: 1)

Ответ на: комментарий от DALDON

Но объёмы данных - сотни гигабайт, и это данные СУБД,

Хотел бы я на это посмотреть. У меня сервак с БД на 20 гиг MySQL натужно ворочается при 24RAM и 16 threads, а у тебя сотни гигабайт. Делай конфиг master-slave. Со слэйва спокойно бэкапишься средствами БД. Если слэйв на соляре, то вообще шикарно получится, если данные бэкапить на этот же сервер, и задействовать дедупликацию в ZFS. Соляра надо 11-й версии.

andrew667 ★★★★★
()
Ответ на: комментарий от andrew667

И в чем для тебя профит от ZOL?

Я делаю 10 снепшотов на основных узлах (то есть любую машину могу поднять с шагом в сутки назад, так-же при наличии свободных ресурсов, могу быстро развернуть клон любой виртуальной машины на основном узле или на резервном). И выливаю данные с нескольких узлов, на один узел (резервный), на котором в случае жёсткого отказа одного из основных я подниму всё что нужно. Но на резеврный узел, я перекидываю только лишь, diff за прошедшие сутки, что для меня является киллер фичей. Так же от ZoL, планирую (по крайней мере попробую!), использовать LARC2 кеш для чтения, на SSD. При том, мои основные узлы могут находиться в разных зданиях, и мне не требуется ультра быстрый LAN для резервных копий.

Да! Я понимаю, что я НЕ: HA!!! Никакого хай авалибилити у меня нету! Я всё это согласовал, на начальном этапе, и сказал, что из говна, я пули не сотворю.

Повторюсь насчет решения на двух серверах: Highly Available NFS on Red Hat Enterprise Linux. Еще 2 сервера надо под гипервизоры, но можно и 1. Гипервизору шарим storage по NFS, и там храним образы в формате qcow2 и делаем снепшоты, если нужно.

Решение супер. Но требует: быстрого нетворка + каких-то полок. Гигабита мне не хватит. 10 гигабит - очень дорого. Свитчи от 300к стоят. + сетевые карты соответствующие. - Городить бондинг из гигабита..? Ну тоже не энтерпрайзно. Плюс, к тому же надо будет джамбофреймс городить и прочее, прочее - что будет вытекать из того момента, когда мы берём огромную задницу (NFS ввод/вывод), и пытаемся запихать в маленькую форточку (классическую TCP/IP сеть). Плюс, если идти по твоему решению, то мне уже понадобится арбитр, который будет определять, какая VM, на каком физ. узле должна выполняться (чтобы не боженька ты дай, один образ у меня не начали исполнять два узла) - а это уже... Это уже RHEV как минимум простите... Ну можно конечно Ovirt поставить... Но это не многим лучше, чем ZoL. ИМХО.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от andrew667

Не... MySQL, это скучно! Куда веселее взять ентерпрайз СУБД ADABAS и хранить там блобы. Энтерпрайз, такой энтерпрайз...

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Решение супер. Но требует: быстрого нетворка + каких-то полок.

Полки не надо. Достаточно дисков, установленных в серверы. 10G сеть между серверами тебе тоже вряд ли понадобится. А если понадобится ,то коммутатор 10G покупать для связи между серверами не обязательно. А если понадобится 10G, то в 2 сервера ставишь по 10G сетевой карте стоимостью около 700$ и соединяешь недорогим специальным медным 10G шнурком c концами под SFP.

Это уже RHEV как минимум простите... Ну можно конечно Ovirt поставить...

Не нужно. Ты опять ленишься в поисковике скачать pdf-ку и прочесть ее. Зря я тут распинался. Обратись к системному интегратору. Все тебе плохо.

andrew667 ★★★★★
()
Ответ на: комментарий от King_Carlo

Кстати, а по твоим ощущениям, ZoL, то вообще кто-нибудь использует кроме нас с тобой в мире? Я просто особо не читаю сообщества, и Интернеты, мне на ЛОРе вот насоветовали ZoL, я и юзаю...

DALDON ★★★★★
() автор топика
Ответ на: комментарий от andrew667

10G сеть между серверами тебе тоже вряд ли понадобится.

Так мне понадобится как-то образы цеплять к узлам которые эти образы будут исполнять... Разве нет? Тут сеть то и нужна широкая, а не между NFS узлами.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Так мне понадобится как-то образы цеплять к узлам которые эти образы будут исполнять... Разве нет?

Так бери шкафчики для сетки на мультишасси. Порт 100G 50k грина. Заодно и питание в ЦОДЕ проапгрэйдите. Нагрузку бы померил сначала. Тебе хватит может и 5 мегабит. Скажу по секрету, то в 10G сетевых платах идет по 2 порта.

andrew667 ★★★★★
()
Ответ на: комментарий от DALDON

Кстати, а по твоим ощущениям, ZoL, то вообще кто-нибудь использует кроме нас с тобой в мире?

По ощущениям довольно популярная штука. Ты думаешь почему всех этих «продавцов энтерпрайза» в каждой теме про zol так плющит и колбасит?

King_Carlo ★★★★★
()
Последнее исправление: King_Carlo (всего исправлений: 1)
Ответ на: комментарий от King_Carlo

По ощущениям довольно популярная штука.

Ну тут хочется верить, что это не только мои с тобой ощущения...

Ты думаешь почему всех этих «продавцов энтерпрайза» в каждой теме про zol так плющит и колбасит?

Да я думаю, что ZoL, им вообще побоку. Просто побоку. С ZoL, ты не построишь ни кластера, ни HA. Если твоё приложение умеет горизонтально масшатбироваться, то ZoL тебе и даром не нужен. Если твоё приложение не умеет масштабироваться горизонтально, то ZoL опять-же тебе не помощник, тебе нужен кластер. :)

Ну вот я представляю, себе, что я работал бы не в деревне, а скажем в центре МСК, в СберБанке, да я бы даже думать не стал бы, а сразу пошёл к товарищу andrew667, ну или скорее всего бы я пошёл бы в КРОК, какой-нибудь. Там ребята знают что такое HA, что такое и для чего, и как строить НАДЁЖНЫЕ IT системы.

Может я и не прав, и может твой паттерн использования ZoL, более другой (мне кстати было бы интересно, его узнать). Кстати, а чем ты мониторишь RAID железки, централизованно, чтобы?

Так, что я думаю, что andrew667, вполне искренен тут. Он видел серьёзные решения, и смотрит на ZoL, как на какашки собак по весне...

DALDON ★★★★★
() автор топика
Ответ на: комментарий от andrew667

Заодно и питание в ЦОДЕ проапгрэйдите.

Да мне до ЦОДа, как до Китая из Питера...

Нагрузку бы померил сначала. Тебе хватит может и 5 мегабит.

Ну право, я не понимаю, как можно прицеплять образ по NFS, скажем по гигабиту, это максимальная линейная скорость чтения/записи - будет 90 мегабайт в секунду. В целом, во многих вещах, этого достаточно. Но, когда начинают делать всякие отчёты... И прочие чудеса. Никто мне кажется такими глупостями не занимается, как внедрять строить SAN/NAS на гигабите для образов виртуалок.

Порт 100G 50k грина.

Кхм... Много интересного, и нового узнаю от тебя. Ну это видимо надо лезвия покупать соответствующие. Ну это опять-же, не дёшего. Положить все яйца в одну корзину (в один шкафчик)... Тоже не комильфо. С тем учётом, что у меня есть тазики с MS-DOS например, то говорить о ровной, годной, ИТ инфраструктуре, просто не возможно.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Да я думаю, что ZoL, им вообще побоку.

Был бы по боку, они не исходили бы на какашки в каждой теме, а просто проходили бы мимо.

С ZoL, ты не построишь ни кластера, ни HA

Ты вроде HA-кластер и не собирался строить.

Ну вот я представляю, себе, что я работал бы не в деревне, а скажем в центре МСК, в СберБанке, а сразу пошёл к товарищу andrew667

Ну там корпоративные стандарты, типовые решения и пойти тебе никуда не дадут )

Может я и не прав, и может твой паттерн использования ZoL

Конкретно на zol у меня одиночные сервера, никакой экзотики.

Кстати, а чем ты мониторишь RAID железки, централизованно, чтобы?

ASM (adaptec storage manager)

Он видел серьёзные решения, и смотрит на ZoL, как на какашки собак по весне...

Без разницы чего он там видел, надо использовать адекватные задачам решения, а не дуть пузыри про «энтерпрайз». Там где он действительно нужен решения не принимаются не этом форуме ))

King_Carlo ★★★★★
()
Последнее исправление: King_Carlo (всего исправлений: 1)
Ответ на: комментарий от DALDON

Кхм... Много интересного, и нового узнаю от тебя

К порту купить шасси, набивку, не забыть про дополнительную плату управления, лицензию, контракт на поддержку и еще много чего). Это только сетевое оборудование.

линейная скорость чтения/записи - будет 90 мегабайт в секунду

Смотри, как бы грины показали 10 мегабайт в секунду особенно в БД. Про 10G карточки было сказано раньше. Не нравится - до свидания.

Никто мне кажется такими глупостями не занимается

Зачем тогда пытаешься сделать из ничего кое-что? Покупайте серьезное решение и не городите велосипед. Тебе уже все было сказано в другой теме про инфраструктуру.

andrew667 ★★★★★
()
Ответ на: комментарий от andrew667

Смотри, как бы грины показали 10 мегабайт в секунду особенно в БД.

О ес..! Надеюсь, теперь меня гринами будут тыкать до старости..! Хоть чем-то я должен прославиться на ЛОРе, кроме ника..?! :)

О ЛОР..! ЖДИ СЛЕДУЮЩЕГО ZoL на дискетах!

DALDON ★★★★★
() автор топика
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от andrew667

Смотри, как бы грины показали 10 мегабайт в секунду особенно в БД.

Сейчас вот лью, базу, сперва лил на 7200К, SE WD жёстких дисках, теперь на WD 10k делаю тоже самое, могу сказать, что судя по темпам - оно не быстрее разливается... :) Сутки :-D

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

оно не быстрее разливается

Возможно у тебя разные конфигурации дисковой системы. Настоятельно рекомендую RAID10. Шустрая штучка. Чем больше дисков - тем лучше. Вчера собрал массивчик RAID10 на 6 дисках 10K sas 2.5. Существенно быстрее RAID1 на 2-х таких же дисках.

P.S. с бэкапа тебе тоже сутки подниматься в случае чего придется?

andrew667 ★★★★★
()
Последнее исправление: andrew667 (всего исправлений: 1)
Ответ на: комментарий от DALDON

Но объёмы данных - сотни гигабайт, и это данные СУБД

И ты для такой виртуалки делаешь один qcow2 диск размером, скажем, 500ГБ?

Не рационально это. Надо сделать:
один вирт.диск под систему — 8ГБ
один вирт.диск под своп — сколько надо
один или более под данные — 500ГБ

Системный 8ГБ снапшотить/бекапить/синхронизировать плевое дело, он маленький и маломеняющийся.

Данные, особенно СУБД, не надо бекапить/снапшотить средствами ни zfs ни lvm — у баз данных свои методы (archive logs) позволяющие накатить/откатить транзакции на любую дату.

Т.о. получается виртуалка, не сильно зависящая от дисковой/файловой системы и собственно от zfs тут больше вреда чем пользы.

anonymous
()
Ответ на: комментарий от DALDON

унести куда угодно без всяких там dd

здесь dd не нужен, просто копируем чем угодно в файл, у меня образ предустановленого дебиана на zvol размером в 20гб копируется в файл и разворачивается из файла где-то секунд за 40-50 простыми zfs send и cat. qcow2 можно натянуть на блочное устройство без прокладки в виде ФС, думал у тебя так. все равно не понятно в чем профит от qcow, если в использовании ее внутреннего cow для снапшотов, то это масло масленое получается.

axelroot
()
Ответ на: комментарий от DALDON

Кстати, а по твоим ощущениям, ZoL, то вообще кто-нибудь использует кроме нас с тобой в мире?

используют не переживай, и kvm на zfs катают куда больше чем ты думаешь.

axelroot
()
Ответ на: комментарий от axelroot

Профит в том, что я могу держать снепшоты в qcow2 от вирт. машин, и делать это через GUI (webvirtmgr или virsh-manager), и потом всегда, и без проблем откатиться. С zfs, не очень удобно хранить старые снепшоты. Ты думаешь я очень сильно проигрываю в производительности, если использую qcow2? Я так не уверен.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

С ZoL, ты не построишь ни кластера, ни HA.

Да это так, zol сейчас только для локального применения, но думая это только ПОКА и все изменится.

storage по NFS
Решение супер.

Какой на... NFS! Если задачей является поднятие HA то я на NFS даже и смотреть не стал даже при наличии сети в 10G или 40G. Для построения HA я бы использовал SAN, отдавал бы по сети не кучу дисков под каждую виртуалку, а выделял бы по сети огромное блочное устройство, которое бы подключал на серверах исполнителях (нодах) и уже потом бы нарезал бы диск на кусочки под запускаемые здесь виртуалки, если одна из нод упадет, то вторая перезапустит с большого общего диска ее виртуалки на себе.

axelroot
()
Ответ на: комментарий от DALDON

Ты думаешь я очень сильно проигрываю в производительности, если использую qcow2?

нет.

могу держать снепшоты в qcow2 от вирт. машин, и делать это через GUI (webvirtmgr или virsh-manager), и потом всегда, и без проблем откатиться.

ясно.

axelroot
()
Ответ на: комментарий от andrew667

У меня сервак с БД на 20 гиг MySQL натужно ворочается при 24RAM и 16 threads

Видимо еще что-то помимо БД на серваке есть. Потому как засунуть все 20GB даты в кеш никакой проблемы не представляет - будет ворочаться вернее.

zgen ★★★★★
()
Ответ на: комментарий от axelroot

Какой на... NFS! а выделял бы по сети огромное блочное устройство

А ты, я смотрю, любитель пошалить. Обосновать-то тоже можешь против nfs?

EvgGad_303 ★★★★★
()
Ответ на: комментарий от axelroot

нет.

Ну и отлично! Спасибо за адекватные ответы!

А ещё вопросец, в догонку: axelroot, King_Carlo, zgen

Я прилично рандомно читаю, и вообще говоря записывать тоже люблю рандомно, хоть и не много. Я вижу смысл опробовать следующую схему: конкретно эта база у меня не велика, 250 гб. Соот-но, я хочу попробовать сделать: zfs raidz2, с двумя дисками для хранения сумм, в качестве дисков, хочу взять SSD диски ширпотребные, вот такие: Plextor PX-512M6Pro (опираясь на положительный опыт: King_Carlo, в 23 инсталляциях серии PlextorPro). Насколько я понимаю, я смогу это сделать, и получить: 1ТБ массив. Который выдержит отказ любых двух дисков (в отличии от RAID-10!). Всё это дело, я хочу повесить, на Adaptec RAID 6805E (в режиме JBOD). Ну вестимо ECC память. Вопрос: насколько это будет адекватно, и не возникнет-ли проблем с TRIM, или других чудес (например, наверняка SSD диски будут чуть разной ёмкости, я так понимаю, zfs по наименьшему диску будет просто ориентироваться)?

DALDON ★★★★★
() автор топика
Ответ на: комментарий от andrew667

raidz2 тормоз, в отличии от RAID-10

Но в замен, позволяет потерять одновременно два любых диска. Его тормознутость, я надеюсь окупить производительностью SSD дисков.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от EvgGad_303

Да, если у них не похерены смежные блоки.

Понял! Спасибо!

DALDON ★★★★★
() автор топика
Ответ на: комментарий от EvgGad_303

Вот скажи, зачем велосипедить, когда есть нормальное нативное более быстрое решение без тормозов на запись? Искать приключения на свою голову?

andrew667 ★★★★★
()
Ответ на: комментарий от DALDON

raidz2

тормозно будет. я за 10 рейд, SSD не использую, у меня сасы 15к, в zfs можешь в одно зеркало помещать 3 диска, потеряешь в емкости, но сможешь гарантированно терять в 10-рейде 2 диска из 6.

axelroot
()
Ответ на: комментарий от andrew667

Вот скажи, зачем велосипедить, когда есть нормальное нативное более быстрое решение без тормозов на запись?

С чего ты взял, что это велосипедное решение? Все взрослые массивы умеют в wide striping вкупе с dynamic provisioning и эту опцию используют во многих местах.
Да, и в чём по-твоему состоят приключения raid10 vs raid60?

EvgGad_303 ★★★★★
()
Последнее исправление: EvgGad_303 (всего исправлений: 2)
Ответ на: комментарий от EvgGad_303

любитель пошалить

т.е. SAN с Fibre Channel по которому гоняются данные всего от одно объекта это полностью горбатое решение в сравнении с кучей мелких объектов на NFS, которые могут возжелать одновременно поиметь сеть.

axelroot
()
Ответ на: комментарий от EvgGad_303

С чего ты взял, что это велосипедное решение?

Буду считать это неудачной шуткой. Сравни «пострайпать несколько vdev из raidz2» c RAID-10. В RAID10 сразу имеем нормальную скорость+простоту в обслуживании. Сразу! и ничего делать больше не нужно. Болит голова - добавляем веник в HS.

Да, и в чём по-твоему состоят приключения raid10 vs raid60?

Скорость, знаете ли. А ТС можно взять нормальный контроллер, и он сам за него решит задачу разделения данных. В контроллер парочку тех же intel710 в зеркало+ остальное 10-15k sas. Нет денег на такой контроллер - берем попроще и пару больших SSD, куда и выносим DB. Нет денег на SSD - строим RAID10 на большом числе дисков, что я сразу и предложил, учитывая объем базы данных. Самый бюджетный вариант.

andrew667 ★★★★★
()
Ответ на: комментарий от axelroot

SAN с Fibre Channel по которому гоняются данные всего от одно объекта

Я не говорю, что fc хуже, всё зависит от задач и желания раскошелиться, но вот этот твой один большой объект и есть bottleneck, когда на одном lun появится n-ое кол-во виртуалок(n зависит от генерируемых iops), может внезапно кончиться очередь на порте и поплохеет всем сразу, потому что очередь у них одна на всех, в отличии от файлов виртуалок на nfs.
И, если уж на то пошло, на нетаппах, например, можно сделать pnfs кластер с 40 или 80gb infiniband соединением. Сам найдёшь, как обстоят дела с 32gb у fc? )

EvgGad_303 ★★★★★
()
Ответ на: комментарий от andrew667

Буду считать это неудачной шуткой. Сравни «пострайпать несколько vdev из raidz2» c RAID-10

Ало, шутник, а что тогда по-твоему raid10? А некоторые ещё и raid100 делают, как у них, бедных, голова только не раскалывается?

нормальный контроллер, и он сам за него решит задачу разделения данных.

Ах вон оно что, а мужики-то и не знали.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от EvgGad_303

Страйп из зеркал, вестимо. И зачем плавно съезжать с zfs raidz2? Вот когда много веников - десятки, тогда жалко их тратить на RAID10, и уже в таких случаях оправдан raidz2/raid50/60. 4-8 веников под RAID10 пойдут за милое дело. А то нагородили огород. ТС-у смотри, чтобы на грины денег дали.

andrew667 ★★★★★
()
Последнее исправление: andrew667 (всего исправлений: 1)
Ответ на: комментарий от andrew667

Страйп из зеркал, вестимо.

Тогда «откуда вопрос»?

Вот когда много веников - десятки, тогда жалко их тратить 4-8 веников

Выбор рэйда не определяется тем, что жалко тебе или нет, хотя где-то может и так )

EvgGad_303 ★★★★★
()
Последнее исправление: EvgGad_303 (всего исправлений: 1)
Ответ на: комментарий от DALDON

Кстати, а по твоим ощущениям, ZoL, то вообще кто-нибудь использует кроме нас с тобой в мире?

Да, я. Так же храню виртуалки от kvm + бекапные машины на zfs.

tazhate ★★★★★
()
Ответ на: комментарий от EvgGad_303

генерируемых iops), может внезапно кончиться очередь на порте

nfs может только в фантастических снах мечтать переварить такие iops при которых кончаться буферы на портах.

axelroot
()
Ответ на: комментарий от andrew667

Покупайте серьезное решение и не городите велосипед

Кококо, покупайте серьезное решение, кококо, техподдержка тикеты плакать баги, кококо. Тьфу, блин. Тоже мне инженеры, которые свои проблемы на саппорт скидывают. В этом весь ваш rhel и ынтыпрайз головного мозга.

tazhate ★★★★★
()
Ответ на: комментарий от EvgGad_303

Выбор рэйда не определяется тем, что жалко тебе или нет

Если ты намекаешь на производительность, то она вовсе не в пользу raid z2 по сравнению с raid10. Заметь, что у ТС даже разговора про полку пока не идет. Ну соберет он raid z2 на 4-х гринах или даже NL-SAS. И толку? Хотя «зато целых 2 диска могут умереть»!

andrew667 ★★★★★
()
Ответ на: комментарий от axelroot

nfs может только в фантастических снах мечтать переварить такие iops при которых кончаться буферы на портах.

Ты вообще в курсе, какова очередь у массивов среднего класса?
Ну и про nfs - 1,564,404 iops, ты всё ещё хочешь поговорить об этом?

EvgGad_303 ★★★★★
()
Ответ на: комментарий от andrew667

Я намекаю на соотношение gb и iops.

Ну соберет он raid z2 на 4-х гринах или даже NL-SAS. И толку?

От такого, естественно, толку нет, но я и не имел ввиду в контексте ТС.

EvgGad_303 ★★★★★
()
Последнее исправление: EvgGad_303 (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.