LINUX.ORG.RU

5
Всего сообщений: 76

Ошибка при создании машины в docker-machine

Друзья помогите плиз.

Поставил docker-machine, настролил две виртуалки, для создания мини-кластера.

Создал пользователя dmash, авторизацию по ключам настроил, права на sudo дал, вручную на машины заходит нормально, sudo также срабатывает.

Но при попытке создать машину командой

docker-machine -D create --driver generic --generic-ip-address=10.100.251.104 --generic-ssh-user=dmash --generic-ssh-key /home/dmash/.ssh/id_rsa test-09


выдает:



docker-machine -D create --driver generic --generic-ip-address=10.100.251.104 --generic-ssh-user=dmash --generic-ssh-key /home/dmash/.ssh/id_rsa test-09
Docker Machine Version:  0.6.0, build e27fb87
Found binary path at /usr/local/bin/docker-machine
Launching plugin server for driver generic
Plugin server listening at address 127.0.0.1:46165
() Calling .GetVersion
Using API Version  1
() Calling .SetConfigRaw
() Calling .GetMachineName
(flag-lookup) Calling .GetMachineName
(flag-lookup) Calling .DriverName
(flag-lookup) Calling .GetCreateFlags
Found binary path at /usr/local/bin/docker-machine
Launching plugin server for driver generic
Plugin server listening at address 127.0.0.1:46385
() Calling .GetVersion
Using API Version  1
() Calling .SetConfigRaw
() Calling .GetMachineName
(test-09) Calling .GetMachineName
(test-09) Calling .DriverName
(test-09) Calling .GetCreateFlags
(test-09) Calling .SetConfigFromFlags
Running pre-create checks...
(test-09) Calling .PreCreateCheck
(test-09) Calling .GetConfigRaw
Creating machine...
(test-09) Calling .Create
(test-09) Importing SSH key...
(test-09) DBG | IP: 10.100.251.104
(test-09) Calling .GetConfigRaw
(test-09) Calling .DriverName
(test-09) Calling .DriverName
Waiting for machine to be running, this may take a few minutes...
(test-09) Calling .GetState
Detecting operating system of created instance...
Waiting for SSH to be available...
Getting to WaitForSSH function...
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
About to run SSH command:
exit 0
SSH cmd err, output: <nil>: 
Detecting the provisioner...
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
About to run SSH command:
cat /etc/os-release
SSH cmd err, output: <nil>: NAME="CentOS Linux"
VERSION="7 (Core)"
ID="centos"
ID_LIKE="rhel fedora"
VERSION_ID="7"
PRETTY_NAME="CentOS Linux 7 (Core)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:centos:centos:7"
HOME_URL="https://www.centos.org/"
BUG_REPORT_URL="https://bugs.centos.org/"

CENTOS_MANTISBT_PROJECT="CentOS-7"
CENTOS_MANTISBT_PROJECT_VERSION="7"
REDHAT_SUPPORT_PRODUCT="centos"
REDHAT_SUPPORT_PRODUCT_VERSION="7"


Couldn't set key CPE_NAME, no corresponding struct field found
Couldn't set key , no corresponding struct field found
Couldn't set key CENTOS_MANTISBT_PROJECT, no corresponding struct field found
Couldn't set key CENTOS_MANTISBT_PROJECT_VERSION, no corresponding struct field found
Couldn't set key REDHAT_SUPPORT_PRODUCT, no corresponding struct field found
Couldn't set key REDHAT_SUPPORT_PRODUCT_VERSION, no corresponding struct field found
Couldn't set key , no corresponding struct field found
found compatible host: centos
Provisioning with centos...
No storagedriver specified, using devicemapper

(test-09) Calling .GetMachineName
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
installing base package: name=curl
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
installing docker
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@192.168.0.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
(test-09) Calling .GetSSHHostname
(test-09) Calling .GetSSHPort
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHKeyPath
(test-09) Calling .GetSSHUsername
Using SSH client type: external
{[-o BatchMode=yes -o PasswordAuthentication=no -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o LogLevel=quiet -o ConnectionAttempts=3 -o ConnectTimeout=10 -o ControlMaster=no -o ControlPath=none dmash@10.100.251.104 -o IdentitiesOnly=yes -i /home/dmash/.docker/machine/machines/test-09/id_rsa -p 22] /usr/bin/ssh}
Error creating machine: Error running provisioning: exit status 1
open : no such file or directory
notifying bugsnag: [Error creating machine: Error running provisioning: exit status 1]



Судя по последним строкам, проблема, вероятно, что он не может открыть какой-то файл - open : no such file or directory
но не факт.

Уже кучу форумов перечитал, но так и не смог завести. Машина по факту создается, вот выхлоп:

docker-machine ls
NAME              ACTIVE   DRIVER    STATE     URL                         SWARM   DOCKER    ERRORS
test-01           -        generic   Running   tcp://10.100.251.104:2376           Unknown   Unable to query docker version: Unable to read TLS config: open /home/dmash/.docker/machine/machines/test-01/server.pem: no such file or directory



но не до конца. TLS-сертификаты мне не нужны, должно по идее работать и без них.

Кто сталкивался, помогите.

 ,

Fess88 ()

Кластеризация, выполнить действие при кворуме.

Доброго дня! Прошу помощи с вопросом концепции кластера.

Есть три сетевые ноды (ВМ). Нужно некое ПО, которые бы запускало один скрипт по достижении кворума (2) и другой - по его потере. Всё, больше никакой логики не надо, обработку я пишу сам.

  • keepalived - нет, VRRP мне тут не нужен. Механизм кворума у него есть, но как дополнительная фича;
  • heartbeat - кажется, сдох (в репах нет, да и в инете про то пишут);
  • corosync - как раз в кворум может, но я не понял, может ли он что-то запускать (создалось впечатление, что он только API предоставляет для более высокоуровневых обработчиков);
  • corosync+pacemaker - да, эта связка, кажись, может. Но pacemaker выглядит слишком монструозным для простой задачи. 99,999% его фич в моём случае невостребованы.

    Посоветуйте, пожалуйста, подходящий инструмент (ну, или ткните носом в то место конфига corosync, которое умеет что-то запустить)

 ,

nbw ()

Рассыпается кластер proxmox 5.

Добрый вечер. Есть кластер из трех нод proxmox 5 с такой схемой:

node1 ip1 1.1.1.1 (белый ip провайдера для доступа к ноде из вне) ip2 192.168.1.11 (внутренний ip по которому ноды видят друга)

node2 ip1 2.2.2.2 (белый ip провайдера для доступа к ноде из вне) ip2 192.168.1.12 (внутренний ip по которому ноды видят друга)

node3 ip1 3.3.3.3 (белый ip провайдера для доступа к ноде из вне) ip2 192.168.1.13 (внутренний ip по которому ноды видят друга)

файл hosts идентичен на всех нодах:

127.0.0.1	localhost
192.168.10.11	pve-node1
192.168.10.12	pve-node2
192.168.10.13	quorum-member

# The following lines are desirable for IPv6 capable hosts
::1     localhost ip6-localhost ip6-loopback
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
в общем, собрал кластер без лишних движений. Перезапуская службы corosync и pve-cluster на всех нодах кластер оживает, но не на долго, буквально через 5-10 минут начинают отваливаться ноды, сначала от мастер ноды, а потом и от друг друга.

Вот лог https://paste.ubuntu.com/25473074/

с сетью все в порядке, никаких запрещающих правил на нодах нет, не пойму в чем дело...

 , , ,

Sherman ()

Proxmox, нода видит несуществующий кластер.

Добрый день!

Есть три сервера на которых установлен proxmox 5, вчера собирал кластер, собрал, но появилась необходимость пересоздать кластер, выкинул ноды из кластера, убил файлы конфигурации corosync и файлы с ключами, затем создал новый кластер, добавил второй сервер, но вот третий ни в какую не хочет коннектится к новому кластеру, он, почему то, видит старый кластер. Пробовал полностью сносить proxmox с третьего сервера, вычищал концы в /etc, перезагружал, ставил по новой proxmox, но эта сволочь от куда то берет старую конфигурацию corosync и снова пытается войти в старый кластер.

Что сейчас имеется на третьем сервере:

pvecm status
Cannot initialize CMAP service
cat /etc/pve/corosync.conf 
logging {
  debug: off
  to_syslog: yes
}

nodelist {
  node {
    name: pve-node2
    nodeid: 2
    quorum_votes: 1
    ring0_addr: pve-node2
  }

  node {
    name: pve-node1
    nodeid: 1
    quorum_votes: 1
    ring0_addr: pve-node1
  }

}

quorum {
  provider: corosync_votequorum
}

totem {
  cluster_name: PVE-Cluster
  config_version: 4
  ip_version: ipv4
  secauth: on
  version: 2
  interface {
    bindnetaddr: 192.168.1.11
    ringnumber: 0
  }

}

systemctl status pve-cluster.service
● pve-cluster.service - The Proxmox VE cluster filesystem
   Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
   Active: active (running) since Sun 2017-09-03 10:15:22 EEST; 16min ago
 Main PID: 9504 (pmxcfs)
    Tasks: 6 (limit: 4915)
   CGroup: /system.slice/pve-cluster.service
           └─9504 /usr/bin/pmxcfs

Сен 03 10:31:46 quorum-member pmxcfs[9504]: [dcdb] crit: cpg_initialize failed: 2
Сен 03 10:31:46 quorum-member pmxcfs[9504]: [status] crit: cpg_initialize failed: 2
Сен 03 10:31:52 quorum-member pmxcfs[9504]: [quorum] crit: quorum_initialize failed: 2
Сен 03 10:31:52 quorum-member pmxcfs[9504]: [confdb] crit: cmap_initialize failed: 2
Сен 03 10:31:52 quorum-member pmxcfs[9504]: [dcdb] crit: cpg_initialize failed: 2
Сен 03 10:31:52 quorum-member pmxcfs[9504]: [status] crit: cpg_initialize failed: 2
Сен 03 10:31:58 quorum-member pmxcfs[9504]: [quorum] crit: quorum_initialize failed: 2
Сен 03 10:31:58 quorum-member pmxcfs[9504]: [confdb] crit: cmap_initialize failed: 2
Сен 03 10:31:58 quorum-member pmxcfs[9504]: [dcdb] crit: cpg_initialize failed: 2
Сен 03 10:31:58 quorum-member pmxcfs[9504]: [status] crit: cpg_initialize failed: 2


service corosync status
● corosync.service - Corosync Cluster Engine
   Loaded: loaded (/lib/systemd/system/corosync.service; enabled; vendor preset: enabled)
   Active: inactive (dead)
Condition: start condition failed at Sun 2017-09-03 10:29:50 EEST; 19s ago
           └─ ConditionPathExists=/etc/corosync/corosync.conf was not met
     Docs: man:corosync
           man:corosync.conf
           man:corosync_overview

/etc/pve находится в режиме readonly

Как можно отвязать эту ноду от несуществующего кластера? Спасибо

 ,

Sherman ()

Объединение нодов в HPC или SMP server

Всем привет! Имеется cluster IBM из 46 нодов: IBM dx360-m4 CPU Xeon E2665 x 2 RAM 64Gb DDR3 HDD 500Gb SAS Infiniband 56Gbit/s

Пущен он на обработку сейсмических данных(параллельные вычисления). Проблема в том, что не все процедуры могут использовать сразу несколько нодов. Главный инженер поставил задачу - изучить и протестировать возможность объединения нескольких нодов в одну операционную систему. Говорит, что сам пробовал через xen, не вышло. Во всех мануалах, которые я посмотрел, xen используется на одной физической машине. Подскажите, есть ли какие решения для такой задачи?

 , ,

Brabus ()

Отказоустойчивый кластер proxmox из двух серверов.

Добрый день! Заинтересовался данным вопросом, немного почитав, понял, что вариантов не много. Либо два сервера и отдельный корч под какую то nfs, либо репликация данных хранилища с помощью CEPH или DRBD. Так как отдельный корч заводить не охота склоняюсь к второму варианту. Но так как не имел опыта ни с CEPH ни DRBD, хотел узнать, быть может тут кто имел опыт с этими системами? Какую выбрать, какая стабильнее себя ведет, особенно при крахе одной из нод?

 , , , ,

Sherman ()

mysql percona cluster

Доброго времени суток! Нужен совет по кластеру... Когда-то очень давно настраивали, поэтому не спрашивайте почему так. В основу скорее всего лег мануал http://wiki.opennet.ru/Galera

В итоге 3 ноды и HAPROXY в режиме мульти-мастер(пишем и читаем только на одну ноду), две остальные просто простаивают.

HAPROXY был настроен на 1 ноду и с ней работал, на сервере вылетел hdd резервный и было принято решение его заменить. Перевожу HAPROXY на работу с 2 нодой, дабы обеспечить работу проекта.

Не разобравших в тонкостях мануала(выше) Останавливаю сервер меняю HDD, стартую и опа репликация не идет 1 ноды. В логах на 2 и 3 видно что нет 1, и на этом все.

1 нода запускалась с параметром wsrep_cluster_address=«gcomm://» и была главной.

1 нода не работает несколько дней

Вижу 2 варианта, но есть сомнения 1. Остановить кластер сделать 2 ноду по варианту 1 ноды и стартануть 2 а потом 3 ноду и 1 ноду. 2. остановить 2 и 3 ноду и запустить 1 2 3. Но тут вопрос что будет?

3. Остановить кластер, тупо слить файлы с 2 ноды на 1 и запустить 1 2 3 4. Как можно запустить без остановки проекта?

Кто сможет проконсультировать? В долгу не останусь.

 , ,

regsterr ()

GlusterFS. Низкая производительность.

Всем доброго времени суток. Прошу поделиться практическим опытом и советом в создании отказоустойчивого файлового хранилища. Задача обычная - NAS для хранения и подключения образов виртуальных машин. Что было сделано.

Исходные данные.

  1. Три десктопных сервера (Core 2 Duo / Core 2 Quard)
  2. Дисковая подсистема на всех серверах — 4 х 1 TB HDD (SATA 7200) собранных в RAID10 (Intel Matrix HostRaid + mdadm)
  3. Сеть — 3 гигабитных сетевых карты, 2 сети. Одна сетевуха смотрит в пользовательскую сеть для управления (management), 2 другие собраны в агрегированный канал (LACP bonding 802.3ad) для репликаций и подключения дисков виртуальных машин. После подключения были произведены замеры скорости — копировал большие и много мелких файлов по сети с одной ноды на другую. Максимальная скорость чтения/записи по сети — 150МБ/сек. Понятное дело — диски пустые.
  4. ОС — CentOS 7.

( Читать далее. )

 , ,

bearpuh ()

Не монтируется GFS2 том в proxmox 4.4 (Debian)

Здравствуйте! Подключаю том GFS2 к двум нодам. Тома поверх LVM, которые находятся на хранилище IBM (содинено всё FC и свитч) видятся обеими нодами прекрасно и работают с ними.

pvs
File descriptor 7 (pipe:[3137195]) leaked on pvs invocation. Parent PID 26822: bash
  PV                                                  VG          Fmt  Attr PSize    PFree  
  /dev/mapper/36005076211b628021000000001000002-part2 ibm         lvm2 a--  1023,87g 138,87g
  /dev/mapper/36005076300808e2c7800000000000000-part1 ibm-backups lvm2 a--    10,91t   4,90t

vgs
File descriptor 7 (pipe:[3137195]) leaked on vgs invocation. Parent PID 26822: bash
  VG          #PV #LV #SN Attr   VSize    VFree  
  ibm           1  17   0 wz--n- 1023,87g 138,87g
  ibm-backups   1   1   0 wz--n-   10,91t   4,90t
lvscan 
File descriptor 7 (pipe:[3137195]) leaked on lvscan invocation. Parent PID 26822: bash
  ACTIVE            '/dev/ibm/vm-100-disk-1' [30,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-105-disk-1' [60,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-101-disk-1' [60,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-102-disk-1' [160,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-103-disk-1' [55,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-110-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-109-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-111-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-115-disk-1' [115,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-104-disk-1' [100,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-106-disk-1' [110,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-107-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-108-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-112-disk-1' [55,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-113-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-114-disk-1' [70,00 GiB] inherit
  ACTIVE            '/dev/ibm/vm-150-disk-1' [10,00 GiB] inherit
  ACTIVE            '/dev/ibm-backups/bck-disk-1' [6,01 TiB] inherit

Видим, что в обеих нодах всё корректно подцепилось и пашет. Я хочу взять вот например том bck-disk-1 из группы ibm-backups и подмонтировать в качестве обычного диска.
Была выбрана система GFS2, блыго в ядре всё включено

lsmod | grep dlm
dlm                   159744  1 gfs2
configfs               36864  2 dlm

Фенсинг на проксмосе > 4 осуществляется на уровне ядра. Так вот я создал том gfs2

mkfs.gfs2 -t relef-web:storage01 -j 4 /dev/ibm-backups/bck-disk-1

Всё прокатило

/dev/ibm-backups/bck-disk-1 is a symbolic link to /dev/dm-22
This will destroy any data on /dev/dm-22
Are you sure you want to proceed? [y/n]y
Device:                    /dev/ibm-backups/bck-disk-1
Block size:                4096
Device size:               6150,00 GB (1612185600 blocks)
Filesystem size:           6150,00 GB (1612185597 blocks)
Journals:                  4
Resource groups:           24602
Locking protocol:          "lock_dlm"
Lock table:                "relef-web:storage01"
UUID:                      a905f71e-3a80-09ee-cc1b-17d6105d649f

Но при монтировании выдаёт такое

mount: mount /dev/mapper/ibm--backups-bck--disk--1 on /home/backups failed: Конечная точка передачи не подсоединена

Mar 14 12:56:56 hv00 kernel: [358236.673964] gfs2: fsid=relef-web:storage01: Trying to
 join cluster "lock_dlm", "relef-web:storage01"
Mar 14 12:56:56 hv00 kernel: [358236.674038] dlm: no local IP address has been set
Mar 14 12:56:56 hv00 kernel: [358236.678583] dlm: cannot start dlm lowcomms -107
Mar 14 12:56:56 hv00 kernel: [358236.683199] gfs2: fsid=relef-web:storage01: dlm_new_l
ockspace error -107

Я что-то пропустил, а что непонятно. Помогите, пожалуйста! Я просто хочу смонтировать диск на два сервера, чтобы они скидывали туда бэкапы как по обычной папке.

 , , , ,

Glafir ()

Администратор вычислительного кластера

Лаборатория эволюционной геномики Факультета биоинженерии и биоинформатики МГУ им. М.В. Ломоносова – одна из сильнейших в области биоинформатики в России – ищет администратора вычислительного кластера. Руководит лабораторией профессор Алексей Кондрашов.

Наш основной рабочий инструмент – вычислительный кластер «Макарьич», который мы и предлагаем вам взять под свою опеку. Это значит, что свободы действий будет много, но и вся ответственность за его работу ляжет на вас.

Что придется делать? Следить за состоянием кластера и особенно основной файловой системой Lustre, собирать системное и научное ПО по запросам пользователей, планировать развитие и закупки для кластера и, конечно, вести документацию.

Работают на кластере самые разные люди – от студентов до докторов наук; все они пылают страстью к научным открытиям, но ИТ-квалификация у них варьирует в широких пределах. Так что в сложных случаях надо будет помогать им со сборкой ПО и подсказывать оптимальный режим запуска задач с учетом особенностей кластера. В отдельных случаях намекать особенно увлеченным ученым на непропорционально большое количество ресурсов используемых ресурсов.

Обязанности:

  • Обеспечение непрерывной работы кластера 24/7 (приемлемый downtime - в районе 10 дней за год).
  • Обеспечение сохранности данных пользователей (контроль работы Lustre и бэкапы, в том числе на ленты)
  • Сборка ПО, консультации пользователей по сборке софта и помощь в оптимизации под возможности и особенности кластера.
  • Составление планов развития кластера
  • Закупка необходимого оборудования (выбор оборудования, общение с поставщиками).

Так как кластер - неотъемлемая часть жизни большинства сотрудников лаборатории, то вы легко вольетесь в научное сообщество и сможете, при желании, посещать конференции вместе с коллегами. Кроме того, если у вас есть собственный исследовательский проект (необязательно в области биоинформатики), вы сможете использовать вычислительные ресурсы кластера (в пределах разумного) для его выполнения.

Кластер физически расположен в здании Факультета биоинженерии и биоинформатики МГУ им. М. В. Ломоносова (м. Университет)

Зарплата: 100 000 рублей (на руки)

Писать по поводу вакансии можно мне:

Артур Залевский
aozalevsky@fbb.msu.ru
Telegram: @aozalevsky

и моему коллеге:

Дмитрий Виноградов
dimavin@bioinf.fbb.msu.ru
Telegram: @dimavin

 , , ,

silw ()

Как правильно организовать кластер на Proxmox

Приветствую всех!.
Имею популярную проблему: низкая производительность файловой системы на госте (windows) который крутится под проксмоксом.
Грубо говоря - тормозит виртуалка....
Что имею по железу:
4 ноды с одинаковым конфигом (2*xeon 5645, 48GB ram, ssd 32gb, hdd sata2=1tb, 2*1Gbit lan)
1 nas - hp dl320s (контроллер p400, 512 кеша+батарейка, xeon 3060, 8gb ram, 2*1Gbit lan, 12*1tb wd black re в raid 6)
1 гигабитный свитч hp procurve 4104
На нодах стоит proxmox 4.4-5 в режиме ha cluster.
ceph не поднимал
Сейчас NAS не подключен. виртуалки стоят на локальных хардах.
Если надо - то все красиво мигрирует, клонируется и т.п. но это в настоящий момент меня не беспокоит.
Теперь что касается тормозов: в режиме линейного копирования большие файлы (4gb) копируются внутри гостя (130-140 мб/сек) и по сети (гость-живой комп) отлично - скорость - 100 мб/сек
Однако, при копировании большого количество мелких файлов (10000 файлов средним размером 100-200 килобайт) - начинается просадка скорости до 25 мб/сек, как внутри гостя, так и по сетке.
Образы виртуалок стартуют с опцией cache=writeback
(пробовал со свсеми настройками кеширования - последний показал себя лучше всех)
На госте стоит win2k8r2, и он при работе тоже характерно тормозит... Естественно, внутри гостя используются virtio драйверы.

вопрос1: не связано ли это с хранением файлов с виртуалками на локальном сторедже?...
вопрос2 (глобальный, и, возможно, риторический): как правильно использовать все мое железо для максимальной производительности?
Читал много про НАСы с zfs... но вроде как не помещаюсь с производительностью платформы наса...

PS: до этого виртуалки крутил только под убунтой безо всяких кластеров - при помощи либвирта... (конфигурялка virsh+ иксовая приблуда virt-manager). Там тоже наблюдались просадки, но почему-то я на них не сильно обращал внимание. Там крутилось только пара-тройка машин и требований к ним никаких не было :(

 , , ,

zelenij ()

Кластерный синглтон и другие примитивы потока выполнения на кластере

Есть кусок кода, он разбросан на кластер для распределения нагрузки, но есть ньюанс: только один инстанс в один момент времени может выполнять определенную работу.

Например, людям оформившим подписку на новости, было бы грустно сто раз (по количеству нод) получить по почте оповещение о новостях, или еще хуже - сто раз получить списание денег с карточки за приобретение подписки.

Предлагаемое решение - кластерный синглтон. Ты делаешь класс, помечаешь его как @Singleton @Clustered, и всё происходит само. Он как-то магически поддерживается только в одном экземпляре, перезапускается на других нодах при падении, приходит к консенсусу по поводу shared mutable state если такой есть, и так далее.

Кроме синглтона существует еще куча стандартных примитивов: например, барьер (только когда N серверов вместе выполнят работу. они смогут идти дальше) или защелка с обратным отсчетом.

У нас в этом плане уже понаписано своих велосипедов, но интересно - как такие проблемы решает просвещенный мир? Какие используются опенсорсные фреймворки для этого?

(У меня конечно тот же самый гугл и есть идеи, но всё-таки хотелось бы узнать мнение достопочтенных экспертов ЛОРа, что они уважают и любят)

 , ,

stevejobs ()

Вопрос по организации кластера над docker'ом

Коллективный разум LOR-а, подскажи, каким инструментом решать следующую задачу:

Имеются наборы данных, над которыми требуется выполнять наборы хорошо распараллеливаемых операций. Чтобы было более понятно, примерами (умозрительными) таких операций могут быть «скомпилировать бинарный пакет для каждого исходного пакета в репозитории», «перекодировать с указанными параметрами каждое видео в указанном списке», «выполнить набор тестов для каждого варианта конфигурации приложения» и т.п.

Также имеется сетка на N узлов, на которых мы можем производить вычислениях.

Задача - обеспечить распределённое выполнение запрошенных операций на узлах сети. Т.е. необходимо раскидывать выполнение операций по узлам, обеспечивать банлансировку нагрузки, перезапускать операции на других узлах при выходе из строя некоторого узла.

В качестве инструмента для запуска операций предполагается использовать docker, и обработчики операций будут представлены образами docker-а. Даные для обработки будут доступны как тома. То есть, для выполнения операции «скомпилируй мне бинарный пакет для дебиана из вот этого исходного пакета» мы запускаем контейнер из образа «сборщик пакетов для дебиана» и подсовываем ему тома данных, откуда он возьмёт исходный и куда положит бинарный.

Контейнеры не предполагаются долговременно запущенными, т.е. они не сервисы. Контейнер сделал дело - умер и удалился. Для следующей операции будут поднят новый контейнер.

Как это сделать на локальной машине - в общих чертах понятно. А вот как это организовать в виде кластера - не понятно, с чего начинать.

Перемещено leave из development

 , ,

devzero ()

Какие порты использует Mnesia/Ejabberd при кластеризации?

Hi, Folks.

Subj. Смотрел в документации но не нашел явного упоминания об этом.

Спасибо.

 , , ,

trancefer ()

Проблема с clvmd.

Коллеги, прошу помочь:

[root@node1 ~]# /usr/sbin/clvmd -d 1 -I mycluster
  local socket: connect failed: Connection refused
CLVMD[41167880]: Nov 15 01:49:56 CLVMD started
CLVMD[41167880]: Nov 15 01:49:56 Can't initialise cluster interface
  Can't initialise cluster interface.
в journalctl пишется:
Nov 15 01:49:56 node1.domain.com clvmd[34618]: Unable to create DLM lockspace for CLVM: Transport endpoint is not connected
Nov 15 01:49:56 node1.domain.com kernel: dlm: no local IP address has been set
Nov 15 01:49:56 node1.domain.com kernel: dlm: cannot start dlm lowcomms -107
весь гугл перерыл, ничего не смог найти. о каком интерфейсе идет речь и как его настроить ?
в man clvmd ничего не написано.

 , ,

dada ()

Помогите в выборе решения для кластера postgresql

Доброго времени суток!

Хотел бы задать вопрос, который уже неоднократно тут поднимался, но все же.

Есть задача поднять PostgreSQL-кластер.

Мульти-мастер не рассматриваю, так как везде пишут, что это не совсем стабильное решение. Хотя возможно что-то изменилось в данный момент.

Хотелось бы настроить для теста трех-узловой кластер в режиме Active/Standby. Возможно ли такое, так чтобы Stanby-серверов было 2? Как я понимаю, реализуется это через pg_pool-II.

Я новичок в postgres и потому все время с оглядкой смотрю на mariadb с её galera.

Честно, совсем не представляю себе вообще какую реализацию репликации выбрать.

Смотрел в сторону postgresql-xl и citus, но пока не разбирался с ними основательно. И стоит ли разбираться с ними вообще?

 ,

dmnord ()

Кластеризация ejabberd

Всем привет!

Возник такой вопрос - какие имеются ограничения по созданию кластера из серверов ejabberd? Собственно, само создание кластера из себя ничего сложного не представляет, join_cluster и вперед, были бы правильно сконфигурированы ноды. Но ответа на вопрос сколько нод можно добавить в кластер, пока не начнутся программные сбои, я не нашел ни в официальной документации (она весьма лаконична), ни на форумах. Интуиция подсказывает, что ограничителем будет являться движок, написанный на Erlang'е, однако, может быть кто-то уже исследовал этот вопрос и поделится опытом?

 , , ,

alexnorton ()

Proxmox 4 Cluster + HA

Доброго времени суток. Переделка очередных кастылей после подрядчика. Имеем два железных сервера RHEL 6.4 с Heartbeat, теоритически рабочую репликацию MySQL :-), GlusterFS с кодом сайта Bitrix (репликация между двумя серверами). Хотелось бы переделать всё в Proxmox кластер, завернуть сайты в ВМ на базе KVM. Это вопрос десятый и проблем не составляет. Нет общего хранилища, но хотелось бы использовать Live Migration и HA. Что посоветуете? У кого есть опыт? Локального дискового пространства несколько терабайт. Какие связки использовать и реально ли с локальных хранилищ получить HA? Смотрю в сторону Ceph.

 , , ,

sss-man ()

расскажите неучу про типы shared-дисков для ha.

вот есть у меня апач. прыгает по нодам и все счастливы.
теперь хочется, что бы вместе с самим апачем прыгал и его document_root.
создается диск, добавляется как ресурс и все дела, но:
в мануалах и гайдах все говорят также и про quorum и про fencing.
не могу вкурить разницу между ними, а также зачем они вообще нужны.
если можно, на пальцах.
вот в доке centos-a написано:

Quorum Disk is a disk-based quorum daemon, qdiskd, that provides supplemental heuristics to determine node fitness. With heuristics you can determine factors that are important to the operation of the node in the event of a network partition. For example, in a four-node cluster with a 3:1 split, ordinarily, the three nodes automatically «win» because of the three-to-one majority. Under those circumstances, the one node is fenced. With qdiskd however, you can set up heuristics that allow the one node to win based on access to a critical resource (for example, a critical network path). If your cluster requires additional methods of determining node health, then you should configure qdiskd to meet those needs.

т.е. кворумный не является обязательным ?

 , ,

dada ()

corosync: разделение узлов кластера на группы (???)

Добрый день!

Есть 5 серверов с установленных CentOS7.
Требуется на этих пяти серверах развернуть базу данных MariaDB Galera (отдав под нее 3 сервера из 5), веб-сервера Nginx также займут 3 сервера из 5.
Ко всему, есть еще пару сервисов которым нужен отдельный VIP, эти сервисы также планируется распределить равномерно по кластеру.
Возникает несколько вопросов:
1) Каким образом можно разделит узлы кластера corosync на группы?
2) Учитывая первый вопрос как настраивать quorum в кластере?
Возможно ли вообще такое? Почитав документацию, я немного приуныл.

 ,

dmnord ()