LINUX.ORG.RU

2
Всего сообщений: 28

Настройка кластера с высокой доступностью и максимальной производительностью

Здравстуйте. Необходимо организовать кластер, отвечающий требованию высокой доступности, который позволял бы использовать все доступные в данный момент времени ресурсы для вычислений. Нашел статьи по организации кластера с «максимальной» производительностью, где задача распараллеливается между узлами. Куча статей про heartbeat и реализацию отказоустойчивого кластера. А есть ли возможность совместить эти два плюса подобных систем в одном кластере?
То есть предположим я запускаю задачу на кластере, а она распараллеливается между доступными в данный момент хостами и продолжает выполняться вплоть до тех пор, пока доступен хотя бы один узел?

 , ,

Gi ()

ElasticSearch кластер в 3 ДЦ

Добрый день! Появилась задача организовать кластер из 3 инстансов ES в разных ДЦ. Схема примерно вот такая:

  _______________________
 |                       |
DC1--------DC2----------DC3
 |          |            | 
ES         ES           ES------Kibana
 |          |            |
LSsrv     LSsrv         LSserv
 |          |            |
Redis     Redis         Redis
 |          |            |
LSagents   LSagents     LSagents

ES - ElasticSearch
LSsrv -Logstash server
LSagents -Logstash agents

Сейчас думаю поднять VPN сервер на одном из DC или прокинуть тунелли между ними. Еще читал, что при такой конфигурации из-за лагов в сети могут быть проблемы.

Но мне кажется что так не правильно,а лучше пока не придумал.

Как лучше будет организвоать такой кластер? Что еще продумать?

 , , ,

Funny_sailor ()

Pacemaker - перезапуск ресурсов в группе после fail

Имеем следующий глюк с Pacemaker. Есть master/slave set. Есть группа ресурсов которая привязана к мастеру. В группе несколько ресурсов. Если я убиваю ресурс (kill -9) процесс, то перезапускается он и все кто идет за ним в описании. Хотелось бы чтобы перезапускался только он.

 , ,

vromanov ()

ext4 и кластер

Всем привет. Есть volume на SAN'е, форматированный в ext4 и подключенный по fc к двум серверам в rw. Сервера в кластере, на них крутится софтина для бекапа. Нормальных доков/requirements для софтины нет. Вопрос: закоруптится ли фс в таком случае (при одновременной записи/чтении ext4 с нескольких серверов.)

 , , ,

istzp77 ()

Дабл-initiator в tgtd

Ставлю Oracle Clusterware.
Хосты в KVM(машина тестовая), tgtd на другой машине.
При запуске root.sh-скртита на втором хосте:

CRS-4402: The CSS daemon was started in exclusive mode but found an active CSS daemon on node rac1, number 1, and is terminating
An active cluster was found during exclusive startup, restarting to join the cluster
Start of resource "ora.asm" failed
CRS-2672: Attempting to start 'ora.asm' on 'rac2'
CRS-5017: The resource action "ora.asm start" encountered the following error: 
ORA-48189: OS command to create directory failed
Linux-x86_64 Error: 13: Permission denied
Additional information: 2
. For details refer to "(:CLSN00107:)" in "/u01/app/grid/11.2.0/log/rac2/agent/ohasd/oraagent_grid/oraagent_grid.log".
CRS-2674: Start of 'ora.asm' on 'rac2' failed
CRS-2679: Attempting to clean 'ora.asm' on 'rac2'
CRS-2681: Clean of 'ora.asm' on 'rac2' succeeded
CRS-4000: Command Start failed, or completed with errors.
Failed to start Oracle Grid Infrastructure stack
Failed to start ASM at /u01/app/grid/11.2.0/crs/install/crsconfig_lib.pm line 1339.
/u01/app/grid/11.2.0/perl/bin/perl -I/u01/app/grid/11.2.0/perl/lib -I/u01/app/grid/11.2.0/crs/install /u01/app/grid/11.2.0/crs/install/rootcrs.pl execution failed
ASM-диск подключен через iscsi, в логах иницатора:
 connection1:0: detected conn error (1020)
каждые несколько секунд. Конфиг таргета:
<target iqn.2008-09.com.example:S500Gb>
    backing-store /dev/vg_iscsi_test/lv_S500Gb
    write-cache off
    allow-in-use yes
    MaxConnections 2
    incominguser init1 pass
    initiator-address 192.168.1.101
    incominguser init2 ssap
    initiator-address 192.168.1.102
</target>

Вопрос: если проблема в ASM вызвана iSCSI, как прописать что бы инициаторы друг другу не мешали?
Если нет - приветствуются соображения на тему.

Спасибо за внимание.

 , , , ,

Yustas ()

Проблемы c clvmd при разворачивании RHEV Cluster

Настраиваем HA-LVM Failover (CLVM). Успешно проходим все стадии:


1. vgchange -cy RHEVMVolGroup

2. lvmconf --enable-cluster

3. dracut...

4. reboot

Однако служба clvmd не стартует:

5. service clvmd restart

Вот что сыпется в /var/log/messages:

clvmd could not connect to cluster manager
Can't open cluster manager socket: No such file or directory

Команда strace -f clvmd показывает, что служба не может подцепить какие-то сокеты:

connect(.../var/run/cman_client...) (No such file or directory)
corosync.ipc (Connection refused)

Наконец, pvs выдаёт следующее:

connect () failed on local socket:
internal cluster lockage initialization failed

Никто с подобным не сталкивался? Спасибо

 , ,

vitalyisaev2 ()

предлагаю новый стандарт отказоустойчивости

короче добавить в днс новую категорию записи, не А, а А-PHAIL, например, и другие соответственно. и чтоб клиент обращался по этой записи в случае, если основная недоступна. профит очевиден. куда можно предложить свою идею и у кого брать деньги за патент?

 , , ,

xsektorx ()

Распределенные около-реалтайм системы

Добрый день, ЛОР. Заинтересовала тема распределения нагрузки в хайлоад проектах, а мое гугл-фу подводит меня (единственное, что нашел - слайды лицокниги).

Например, я хочу сделать аналог IRC с блекджеком, который сможет держать много миллионов пользователей. Какие проблемы я вижу:

  • хранение и синхронизация присутствия (presence) пользователей
  • хранение и синхронизация логов чата (чтобы при входе на канал клиент получал последние N сообщений)

Собственно, как умные дядьки это делают и что почитать о проектировании таких систем?

 , ,

nisdevi ()

Нарушение коммуникации в SLURM

Наш кластер из ~60 узлов внезапно стал ронять задачи и тупить, потом сказал, что не видит демоны SLURN на вычислительных узлах. При копании в логах выяснилось, что там присутствует такая ошибка:

[2013-07-31T13:05:03] error: Node n0308 appears to have a different slurm.conf than the slurmctld.  This could cause issues with communication and functionality.  Please review both files and make sure they are the same.  If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.               

Перезапустил инит-скрипт slurm на всех узлах - вроде помогло. Странно, что это было-то? Ошибка светится в логах с самого 2011 года, когда нам этот кластер собрали, но проблема такая возникла только сейчас. Странно..

 , ,

pianolender ()

Целостность данных при централизованной авторизации и общем /home

Есть вычислительный кластер, для доступа на который используются несколько фронт-машин. Пользовательские домашние каталоги хранятся в сетевой шаре, которая монтируется на все машины в /home. Авторизация централизованная - данные о пользователях хранятся во внешней базе данных (AD, mysql, неважно).

Не возникнет ли в такой ситуации конфликтов между действиями одного и того же пользователя с разных фронт-машин? Как с этим можно бороться?

Логично было бы не пускать одного пользователя более, чем с одной фронт-машины, одновременно, но эти фронт-машины могут нести разные функции: одна выполняет вычисления вида «много итераций на разностной сетке», а вторая служит для построения в визуальных средах тех самых сеток, то есть вполне возможна ситуация, когда один пользователь будет сидеть и там, и там, и выполнять разные задачи.

У кого-нибудь возникали такие проблемы?

 , ,

pianolender ()

Поиск кадров, работа в HPC-направлении

1. Как я заметил, тут есть люди, понимающие важность HPC.

2. У нас в конторе есть проблема с кадрами соответствующей тематики - их мало.

3. Наше начальство на данный момент не принимает решения о найме новых специалистов, отчасти из-за того, что не очень представляет себе объем задач (этот вопрос подлежит проработке).

Исходя из этих предпосылок мной и коллегой принято решение поузнавать, интересно ли было бы кому-нибудь (если интересно - то за какую зарплату) заниматься решением следующего спектра задач:

  • организация работы HPC-систем (ожидается серьезный прирост мощностей, возможны нюансы инфраструктурного плана, которые потребуют небольшой доработки ожидающегося комплекса по программной части)
  • организация мониторинга жизненно важных параметров HPC-оборудования
  • анализ производительности HPC-комплексов, проработка вариантов оптимизации (можно, конечно, сразу все по уму сделать, но у нас в конторе специалистов с опытом нет, а подрядчику, строящему новый комплекс, по ряду причин невыгодно особо нас просвещать)
  • работа с пользователями - как ликбез, так и принятие пользовательских замечаний в расчет при проработке вариантов оптимизации
  • анализ логики работы HPC-службы, участие в совещаниях на эту и смежные темы, проявление инициативы в вопросах оптимизации рабочего процесса
  • общение с техподдержкой программных продуктов и подрядчиками по железу

Это не тема для раздела Job, так как нет оформленной вакансии, а также нет одобрения начальства - пока что это инициатива с нижнего уровня. Тем не менее, в случае, если заинтересованные люди найдутся, будет материал для конструктивного разговора с начальством.

Немного о нашем HPC: есть один вычислитель производительностью порядка 10 терафлоп, планируется более чем стапроцентное наращивание мощностей в ближайшее время. Задачи, решаемые на оборудовании - в основном различного вида моделирование физических процессов при помощи самого разного ПО (от самописного до вполне серьезных коммерческих продуктов). Кластер состоит из некоторого количества блейдов с линуксом, в качестве планировщика используется SLURM.

Приветствуются отзывы вида «я хотел(а) бы этим заниматься», можно указывать приблизительный желаемый оклад.

 , ,

pianolender ()

linux Cluster OpenMPI

Здравствуйте.

Пытаюсь собрать кластер для вычислений использую мануал http://cluster.linux-ekb.info/ubuntu.php.
Kоротко о нем
Установлен Intel Fortran, OpenMPI на все машины (3 штуки + 1 консоль) Настроен общий каталог по nfs. В нем компилируется, запускается программка flops взятая с того же сайта. Спокойно запускается через mpirun на несколько процессоров одной машины (любой), но стоит запустить на других узлах, выдает сообщение об ошибке: не могу мол найти библиотеку, такого типа:

Flops: error while loading shared libraries: libifport.so.5: cannot open shared object file: No such file or directory

ldd выдает все Ок на всех узлах и консоли.

Где то есть косяк но не могу понять где, по скольку с Linux мало знаком, подскажите пожалуйста...

 , ,

tyki-tyki ()

Отказоустойчивый кластер PROXMOX

Коллеги, я чего-то туплю - что в PROXMOX 2.Х подразумевается под High Availability? Предположим, что имеется кластер PROXMOX из 2-3 одинаковых серверов. На одном из них запущены виртуальные машины QEMU/KVM, которые в качестве хранилища используют SAN (iSCSI). Про живую миграцию в такой конфигурации я в курсе - если надо поковырять железку, смигрировал машинки на другую и можно выключать. Но что случится, если сервер, на котором работают все виртуальные машины вдруг выйдет из строя? Перезапустятся ли все виртуалки автоматически на другом узле?

 , , , ,

tintix ()

web HA-кластер на двух нодах

Приветствую.

Имеются две серверные машины, которые держат веб-портал. Поддомены раскиданы по обеим машинам, для снижения общей нагрузки. Отказоустойчивость тихо плачет в сторонке Решил сделать отказоустойчивый кластер на базе этих двух машин.

Текущая архитектура: фронтенд nginx (на обеих серверах), бэкенд php-fpm (на обеих серверах). Машины связаны линком в 1 гигабит, однако обе имеют отдельный внешний канал.

Предполагаемая архитектура: HAProxy (на первой машине) на внешнем интерфейсе и фронтенды (nginx) + бэкенды (php-fpm) на локальных.

Специально хочу уточнить, что идея с RRDNS режется на корню кэширующими серверами провайдеров, отдающих единственный IP. Поэтому принято решение использовать балансировщик нагрузки HAProxy на первую серверную машину (она имеет более широкий канал).

То есть в теории будет так: запрос клиент попадает на балансировщик, который отправляет запрос на одну из нод. В случае отказа второй ноды балансировщик будет использовать только первую ноду, в случае отказа первой ноды (и балансировщика), увы, придется менять A-записи на неймсерверах и поднимать nginx на внешнем интерфейсе.

Однако, плюс этого решения в том, что все поддомены (сайты) будут доступны, а не только часть с работающего сервера (как это сейчас).

Возможно, мое решение не совсем верное и я хотел бы услышать ваши советы по этому поводу, но, как я понимаю, в данном случае отказоустойчивость предполагает наличие распределенной файловой системы, имеющей поддержку двусторонней репликации (так как придется хранить полные копии сайтов на обеих машинах, а также синхронизировать все изменения). Поэтому мне наиболее интересен именно этот момент и я жду ваших советов по выбору такой фс (отмечу, что сайты в большинстве содержат мелкие файлы, сильно крупных нет, максимум в 10-15 мегабайт, а в среднем не превышая мегабайт).

Спасибо за внимание! Жду ваших советов.

p.s. роутера нет в наличии :)

 , , , ,

Lamko ()

Пару вопросов по GFS2

Приветствую господа!

Есть у меня две виртуальные машины для тестов. Хочу потестировать GFS2 ..

Описание:

VM1 - /dev/sda [root]
      /dev/sdb [storage]

VM2 - /dev/sda [root]
    - /dev/sdb [stotage проброшен из VM1 средставами       гипервизора]

1)Отформатировал /dev/sdb на VM1 в GFS2 (без LVM), 2)На обоих VM1 и VM2 подмотрировал диск.

Начинаю создавать через dd огромный файл на VM1, а из VM2 залистить этот каталог.. на VM2 полный висяк пока на VM1 не создастся полностью файл.

Верно ли я понимаю, что сама суть этой FS в возможности одновременно монтровать и испольовать блочное устройство на разных машинах? А как дела с одновременым испольованием файлов из разных машин.. Каким образом тестировать производительность.... получается, что пока одна VM работает с FS, вторая стоит в очереди - это нормально?

 ,

Dr0id3 ()

Вакансия в Сингапуре: Technical Engineer

ВАЖНО: Пожалуйста, ОБЯЗАТЕЛЬНО следуйте инструкциям подачи Вашего пакета документов, описанным в соответствующем разделе объявления ниже. Простые «клики – отклики на вакансию», и оформленные не должным образом анкеты/письма будут расцениваться, как спам. Да – будут удаляться не читаясь; нет – исключения не делаются. Удачи, и добро пожаловать в Команду!

FULL-TIME POSITION

Type of Position: Permanent

Location: Singapore

Job Function: Technical Engineer

Salary: from 2 700 to 3 100 USD

Technical Engineer:

A dynamic team of extremely active, knowledgeable and self motivated IT professionals in the area of GPU computing / High Performance Computing is looking for the TECHNICAL Engineer and a Team Member who will take the active role in developing GPU/HPC solutions based on the Customer requirements and providing customers technical support for already shipped products. The role also includes helping other team members with Cloud/Server/Storage solutions designs, setup/support/troubleshooting various GPU/CPU cluster solutions, help other engineers with RMA (hardware) support if necessary.

This is what you would have done had you been with us last month: • Setup and install new CPU/GPU clusters for customers

• Prepare and run SW Application demos and explain the benefits of GPU systems to customers VS CPU only systems

• Troubleshoot existing cluster installations

• Remotely troubleshooting existing NOVATTE CPU/GPU (standalone) servers

• Run remote diagnostics of customer’s HPC cluster management system and fix the problems customer HPC admins have

• Conduct a remote monitoring of customer’s HPC systems

• Help in fine tuning hardware and software for specific customer requirements

• Visit the customer’s premises for equipment troubleshooting, localize the problem and change the faulty parts

Please DO NOT apply if: - You do not have extensive (!) experience in administrating Linux and Windows web/ftp/nfs/ssh/mail/*sql servers

- You do not have experience in virtualization technologies (vmware/hyperv/XEN/KVM)

- You'd feel like a fish out of water without a well defined traditional corporate structure

- You'd consider taking out the trash as being below you

- You're accustomed to using the phrase «it's not part of my job description»

Please DO apply if: - You have the desired experience (this is not a learn on the job position) in administrating Linux and Windows web/ftp/nfs/ssh/mail/*sql servers

- You're a doer - not a manager, a coordinator, or an idea person - but someone who loves to get stuff done, and done well

- You are a “go to” person because you're reliable, creative, resourceful, a good decision maker, and generally one of the most capable people your peers know

- You're accustomed to a small company environment including wearing many hats and managing way too many things at any given time

- You're articulate, persuasive, and tech savvy (this does not mean familiarity with Microsoft Office), know server hardware and able to troubleshoot server problems, know Unix OS

- Your friends and former employers would gush about you and your awesomeness

If you would, please follow the instructions below when submitting your resume to novattehr@gmail.com: • Please include «Role/Title (your name)» in the subject header

• What attracted you to this position?

• Why are you looking to change jobs? If unemployed, please describe why.

• What are your long term goals?

• What is your current or most recent compensation package?

• If you could only use one utensil for the rest of your life, what would you choose: a spoon, a fork or a knife? Why? (spork is not an option)

Подробнее чем мы занимаемся можно посмотреть на сайте компании: http://www.novatte.com/

 , ,

Yury01 ()