LINUX.ORG.RU
ФорумAdmin

Хранить кучу террабайт - архитектура.

 , , ,


0

4

Есть несколько серверов которые эффективно обрабатывают данные (видеопотоки).

Результат нужно куда-то записывать (за месяц набегает 750ТБ)

Вариант 1. На каждый сервер воткнуть максимум HDD и писать прямо на него. Есть ли ограничения на серверы, можно ли на сервер втыкать много жестких дисков? Какой провайдер хостинга это позволяет? Кто будет менять эти диски если они будут выходить из строя?

Вариант 2. Иметь какое-то отдельное хранилище с множеством жестких дисков в которое будут писать сервера-обработчики. При этом достаточно иметь 4 сервера-обработчика, а хранилище уже пусть само разбирается как куда что писать.

Как делают обычно люди, какую архитектуру строят? У меня нет админского опыта.

Идеально сделать как предлагает Amazon - несколько тачек EC2 и одно большое умное S3. Но Amazon получается дорого, хотим повторить это в колокейшн и платить админам, а не амазону.


Гуглим схд. Считаем юниты из расчета 12 дисков - 2U. Выбираем вендор, получаем прайс и количество юнитов, потребляемую мощность. Считаем колокейшн. Никаких супер пупер программных комалексов для такого размера не нужно.

Плюсуем прайс на fc свитч или ethernet, если iscsi (это бедность)

anonymous
()
Ответ на: комментарий от anonymous

Гуглим схд

Ага, вижу, то что нужно.

Считаем юниты из расчета 12 дисков - 2U

Что это значит?

JANB
() автор топика
Ответ на: комментарий от anonymous

Считаем юниты из расчета 12 дисков - 2U

Ага, понятно, двухюнитовые серверы, ок.

JANB
() автор топика
Ответ на: комментарий от JANB

Сервера продаются без дисков, если вы явно не выбрали hdd

keir ★★
()

ceph. он умеет и s3 отдавать.

Deleted
()
Ответ на: комментарий от JANB

R720 хороший сервер. Но это сервер. Вам нужны хранилки

anonymous
()
Ответ на: комментарий от anonymous

Ну например
https://www.server-hardware.com/shop/supermicro-superchassis-946ed-r2kjbod-cs...
Если брать постарее, да на сата, можно и килобакса в три уложиться.
А можно и по опенсурсу пострадать и самому запилить, если наличествует возможность )
https://www.backblaze.com/blog/open-source-data-storage-server/

GAMer ★★★★★
()

сделай облачное хранилище например hdfs.

Jopich1
()

На прошлом хайлоад был доклад про отдавалища, прям так и гугли на Хабре. Обдумай опыт людей, или прям с ними и советуйся. 750ТБ в месяц - это много.

stave ★★★★★
()
Ответ на: комментарий от anonymous

Да у многих по 15 винтов в ряд, видимо нескольких миллиметров хватает для продува, оно же насквозь дует.

GAMer ★★★★★
()

Мне кажется лучше делать отдельно обработчики и отдельно хранилище , оба с избыточностью (лоад балансинг какой то через nginx например или round robin dns, или чего там).

впринципе сейчас диски по 8ТБ. 750 ТБ , тут советуют раид 10 (что означает что надо хранить вдвое больше, т.е. 1500ТБ), но можно попробовать сделать raid6, тогда всего + 2 диска вроде нужно, но это надо глядеть ближе, может быть скорость просядет или восстанавливаться будет долго. Да, ну возьмём что нужно порядка 100 дисков. В один сервер влазит 36 дисков, т.е. три сторадж сервера надо. + 4 обработчика, вы говорите. + нужно дублирование, т.е. вероятно 5 обработчиков + 4 стораджа.

А долго ли хранить, кстати?

я вот у этих ребят когда то покупал https://100tb.com, они 100Тб трафика на сервер дадут, т.е. 9 серверов это порядка 900ТБ входящего трафика включено в месяц. Сервер у них будет стоить порядка $3000 в месяц (с 36 дисками) (я не проверял, на вскидку примерно так, а там уже детали). Но у вас заказ довольно крупный, можно походить поспрашивать салесов на том же годедди или в ibm (softlayer кажется у них называется контора), может кто и получше предложит условия. Как то так. Может быть проще купить и на колокейшн. Если арендуешь то у них саппорт быстро реагирует, меняет что нужно. Хотя и на коллокейшене вероятно будет быстро, но там заморочек больше. Надо вникать в детали.

Вероятно придётся написать/подправить свой софт для хранения, чтобы расскидывал (не слишком заморочено), но если хранить на амазон всё равно придётся это делать, так что тут не будет проигрыша.

как то так

AndreyKl ★★★★★
()
Ответ на: комментарий от AndreyKl

Рейд6 может хорош на малых объемах до 10-100т, но он очень требователен к цпу контроллеров и восстанавливается сутками или неделями. Надо очень подумать, чтобы его использовать. Разъубедите меня. Дешевле использовать маломощные контроллеры с большим массивом

anonymous
()
Ответ на: комментарий от anonymous

36 дисков (один сторадж) это 288ТB, а 24 диска - 192. Возможно имеет смысл взять контроллер, вики даёт например raid6.3, raid dp из интересных. правда это гемор с тем что нужны эти контроллеры запасные, а обычный раид можно из линукса тут же собрать.

В общем вероятно смысл может быть, но надо смотреть уже конретно. Потестить что там выхоидт с восстановлением, приемлимо ли просаживается скорость и т.п.

AndreyKl ★★★★★
()
Ответ на: комментарий от anonymous

Делать raidz3 из 11 дисков которые потом пострайпать.
Как раз 8 штук выйдет на 90 дисковом.

GAMer ★★★★★
()

Ребят. Перестроение 5-6 рейдов это стресс по всем дискам юнита фермы. Он идет сутками. Вопрос потерять данные. Вам спать ваще как при это не стремно:) боюсь ошибиться, но даже в гунле нет ничего кроме 10

anonymous
()
Ответ на: комментарий от anonymous

раид6 переживает потерю двух дисков, раид 6.3 - трёх. раид 1 переживает потерю половины дисков в самом хорошем случае и одного - в плохом (если навернётся дублирующий диск того который как раз навернулся). Гугл вообще отдельный вопрос. всё надо считать,а не гадать. записать 750ТБ в месяц скажем на 3 сторадж сервера, это значит по 250 на сторадж в месяц, если 30 дней то порядка 9ТБ в день, примерно 105Мб/сек, если я не ошибся. учитывая что 24(36) дисков - это вообще не нагрузка, даже если пиковая в 4 раза больше будет. На время восстановления сервер может уходить в рид-онли режим. Да восстанавливается сутками, но что делать, такие объёмы. На то и нужна некоторая избыточность. всё равно это лучше чем избыточность вдвое при раиде1.

В целом, повторюсь, надо смотреть нагрузку. Может там раздача будет интенсивная, тогда все эти мульки с раидом6 (и даже 60) могут быть не в тему ибо просто по производительности не пройдём в случае отказа диска.

AndreyKl ★★★★★
()

Первый вариант, глупость. Особенно на таких объемах. Поэтому самый правильный вариант это NAS. Позвони паре интеграторов и пусть предлагают решение... CEPH и S3 мне лично не очень понравилось... хотя глубоко не копал. Если самому и на коленке... я бы наверно glusterfs попробовал. По хостингу, цена/качество постри на OVH. Там можно собрать все что захочешь. Но англоязычная поддержка и надежность несколько хуже чемони пишут. Ну а реально надежный хостинг, это умножай сумму на 2+

merlin-shadow
()
Ответ на: комментарий от JANB

Опенстек годится только в том случае если есть много лишних реурсов, в т ч денег времени железа людей нервов.

redixin ★★★★
()

платить админам, а не амазону.

Так и задачу админам поставьте. Лор то тут при чем?

redixin ★★★★
()
Ответ на: комментарий от anonymous

Ну это уж совсем хлам какой-то на 3,5 дисках, 24 диска в 2u полке.

anonymous
()
Ответ на: комментарий от anonymous

И зачем же для последовательной записи раид10?

anonymous
()
Ответ на: комментарий от GAMer

Это, какбэ, сервер, а не схд. Если данные и простой не критичны, то можно и этим конечно обмазаться.

anonymous
()
Ответ на: комментарий от AndreyKl

А долго ли хранить, кстати?

Месяц и постоянно старые перезаписывать.

если хранить на амазон всё равно придётся это делать

Почему это? Мой опыт говорит что S3 увеличивает объем без деградации по скорости, ничего не надо раскидывать.

JANB
() автор топика

Основная проблема цены амазона - это трафик.

Оказывается, российские ребята https://selectel.ru/services/cloud/storage/ предоставляют тот же S3 только с ценой за трафик в 4 раза меньше. Скорее всего выберу их. Потому что грамотно построить свое хранилище без опыта мы явно не сможем - я понял это из этого топика..

JANB
() автор топика

что за видеопотоки?

anonymous
()
Ответ на: комментарий от JANB

гм, ну я имел ввиду что где бы вы не хранили сейчас, придётся поправлять код так или иначе: что закачивать на амазон, что на своё хранилище. Но да, ты прав, отдельный вопрос кода который будет раскидывать по серверам хранилища.

AndreyKl ★★★★★
()
Ответ на: комментарий от JANB

да, вероятно воспользоваться готовым сервисом будет проще, и, вероятно, дешевле (потому как ЗП надо будет видимо двум админам платить: болезни/отпуск/выходные, а объёмы у вас не такие большие чтобы загрузить двух админов, т.е. будет оверхед или придётся пожертвовать скоростью реакции на проблемную ситуацию).

AndreyKl ★★★★★
()

На таких объемах цены за услуги у стороннего хостера будут астрономическими, я думаю. По этому прикидывайте сколько будет собрать на своем железе. Плюс непонятно откуда у вас приходят видеопотоки - если можно локально поставить серверы хранилища рядом с серверами-обработчиками видео, то за трафик вам платить уже не придется.

Сейчас диски 10ТБ сильно подешевели, можно купить в р-не 25 тыс. рублей за диск. Вот опыт человека который собирал 71ТБ сторадж из говна и веток, на Linux + ZFS - http://louwrentius.com/74tb-diy-nas-based-on-zfs-on-linux.html - у него используются диски по 4ТБ (36 дисков), поменяйте их на 10ТБ и прикиньте сколько места получится у вас (примерно 71ТБ*2.5 = 177.5ТБ в данной конфигурации). Сетевухи 10Гбит тоже нынче не экзотика, вполне доступны - ну это если будет хватать пары гигабитных например в бонде. Приятный бонус в ZFS это lz4 сжатие практически без потери производительности, правда это актуально если у вас видео не жмется, а если h264 какой-нибудь то толку от сжатия никакого.

В общем всё сильно зависит от более конкретных требований проекта.

FreeBSD ★★★
()
Ответ на: комментарий от FreeBSD

На таких объемах цены за услуги у стороннего хостера будут астрономическими, я думаю.

Приходило тут как-то начальство втирать про облака, после очередной ссанины в уши от чересчур завравшихся продажников, мол модно-молодёжно, а главное очень дёшего. Очень маленький time to market это конечно замечательно, а дальше что? А дальше боль и страдания. Пришлось делать расчёты и графики сравнения для боссов. На наших объёмах и нагрузках, облака больше чем в 7 раз дороже в перспективе на 3 года. Это учитывая полное дублирование оборудования от брендовых производителей внутри одного дц + дублирование в удалённый датацентр, включая далеко не начального уровня схд в оба дц. И таких сервисов у нас не один. Как говорится, YMMV, но обычно оно как-то так и выглядит.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.