LINUX.ORG.RU
ФорумAdmin

Отваливается nfs на клиентах

 ,


0

1

Доброго времени суток!

Имеются 2 сервера centos 6.5 x64 с большим количеством дисков (raid 1 на каждом). Они объединены в один кластер c glusterfs и примонтированы к внешнему серверу который собственно раздает шары клиентам посредством nfs.

Наблюдаю уже где-то пару дней следующую проблему: на клиентах с уверенной периодичностью отваливается nfs: cannot access /home/clients_share/b_p/DISK-ONE: Stale NFS file handle. При этом на бошке к которой примонтирован gluster все работает нормально. Перемонтирование решает проблему, но опять же до того момента пока один из клиентов туда не запишет очередную порцию данных.

Бошка:

$ cat /etc/fstab

#
# /etc/fstab
# Created by anaconda on Mon May 26 13:34:22 2014
#
# Accessible filesystems, by reference, are maintained under '/dev/disk'
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
UUID=d0f200b7-32e5-4f54-b244-d9542c9d2739 /                       ext4    defaults        1 1
UUID=0accbcdb-186b-440b-8e4b-b293448e4d26 /boot                   ext3    defaults        1 2
UUID=2328b937-ca87-4b60-a512-53044ad38934 swap                    swap    defaults        0 0
tmpfs                   /dev/shm                tmpfs   defaults        0 0
devpts                  /dev/pts                devpts  gid=5,mode=620  0 0
sysfs                   /sys                    sysfs   defaults        0 0
proc                    /proc                   proc    defaults        0 0
10.1.0.4:/bigdata       /usr/local/mountpoint   glusterfs       defaults        0 0

$ cat /etc/exports

/usr/local/mountpoint/Data/f_p                  192.168.12.24(fsid=3,rw,sync,no_subtree_check,no_root_squash)


/usr/local/mountpoint/Data/f_p               192.168.23.210(fsid=4,rw,sync,no_subtree_check,no_root_squash)

/usr/local/mountpoint/Data/h_p             192.168.23.210(fsid=5,rw,sync,no_subtree_check,no_root_squash)

/usr/local/mountpoint/Data/o_p            192.168.23.210(fsid=6,rw,sync,no_subtree_check,no_root_squash)


/usr/local/mountpoint/Data/b_p                    192.168.23.100(fsid=7,rw,sync,no_subtree_check,no_root_squash)

$ uname -a
Linux shareit 2.6.32-431.20.5.el6.x86_64 #1 SMP Fri Jul 25 08:34:44 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux

На клиентах монтируется со следующими опциями: mount -o nfsvers=3 -t nfs 192.168.23.61:/usr/local/mountpoint/Data/b_p /home/clients_share/b_p

В чем может быть косяк?


А если раздавать сразу с сервера с гластером, минуя промежуточный? У гластера nfs-сервер встроен.

anonymous
()
Ответ на: комментарий от tazhate

На сервере который раздает ресурсы:

$ tail -n 1000 /var/log/messages
....
Jul 27 15:07:31 shareit rpc.mountd[1884]: authenticated unmount request from 192.168.23.210:913 for /usr/local/mountpoint/Data/o_p (/usr/local/mountpoint/Data/o_p)
Jul 27 15:07:31 shareit rpc.mountd[1884]: authenticated mount request from 192.168.23.210:834 for /usr/local/mountpoint/Data/o_p (/usr/local/mountpoint/Data/o_p)
Jul 27 15:07:31 shareit rpc.mountd[1884]: authenticated unmount request from 192.168.23.100:917 for /usr/local/mountpoint/Data/b_p (/usr/local/mountpoint/Data/b_p)
Jul 27 15:07:31 shareit rpc.mountd[1884]: authenticated mount request from 192.168.23.100:857 for /usr/local/mountpoint/Data/b_p (/usr/local/mountpoint/Data/b_p)
...

$ tail -n 1000 /var/log/glusterfs/usr-local-mountpoint.log

Final graph:
+------------------------------------------------------------------------------+
  1: volume bigdata-client-0
  2:     type protocol/client
  3:     option remote-host 10.1.0.4
  4:     option remote-subvolume /export/sdc1/brick
  5:     option transport-type socket
  6: end-volume
  7:
  8: volume bigdata-client-1
  9:     type protocol/client
 10:     option remote-host 10.1.0.5
 11:     option remote-subvolume /export/sdc1/brick
 12:     option transport-type socket
 13: end-volume
 14:
 15: volume bigdata-dht
 16:     type cluster/distribute
 17:     subvolumes bigdata-client-0 bigdata-client-1
 18: end-volume
 19:
 20: volume bigdata-write-behind
 21:     type performance/write-behind
 22:     subvolumes bigdata-dht
 23: end-volume
 24:
 25: volume bigdata-read-ahead
 26:     type performance/read-ahead
 27:     subvolumes bigdata-write-behind
 28: end-volume
 29:
 30: volume bigdata-io-cache
 31:     type performance/io-cache
 32:     option cache-size 512MB
 33:     subvolumes bigdata-read-ahead
 34: end-volume
 35:
 36: volume bigdata-quick-read
 37:     type performance/quick-read
 38:     option cache-size 512MB
 39:     subvolumes bigdata-io-cache
 40: end-volume
 41:
 42: volume bigdata-open-behind
 43:     type performance/open-behind
 44:     subvolumes bigdata-quick-read
 45: end-volume
 46:
 47: volume bigdata-md-cache
 48:     type performance/md-cache
 49:     subvolumes bigdata-open-behind
 50: end-volume
 51:
 52: volume bigdata
 53:     type debug/io-stats
 54:     option latency-measurement off
 55:     option count-fop-hits off
 56:     subvolumes bigdata-md-cache
 57: end-volume
 58:
+------------------------------------------------------------------------------+
[2014-07-28 18:31:37.798749] I [rpc-clnt.c:1685:rpc_clnt_reconfig] 0-bigdata-client-0: changing port to 49152 (from 0)
[2014-07-28 18:31:37.803498] I [client-handshake.c:1659:select_server_supported_programs] 0-bigdata-client-0: Using Program GlusterFS 3.3, Num (1298437), Version (330)
[2014-07-28 18:31:37.804375] I [client-handshake.c:1456:client_setvolume_cbk] 0-bigdata-client-0: Connected to 10.1.0.4:49152, attached to remote volume '/export/sdc1/brick'.
[2014-07-28 18:31:37.804403] I [client-handshake.c:1468:client_setvolume_cbk] 0-bigdata-client-0: Server and Client lk-version numbers are not same, reopening the fds
[2014-07-28 18:31:37.804719] I [client-handshake.c:450:client_set_lk_version_cbk] 0-bigdata-client-0: Server lk version = 1
[2014-07-28 18:31:37.805303] I [rpc-clnt.c:1685:rpc_clnt_reconfig] 0-bigdata-client-1: changing port to 49152 (from 0)
[2014-07-28 18:31:37.810113] I [client-handshake.c:1659:select_server_supported_programs] 0-bigdata-client-1: Using Program GlusterFS 3.3, Num (1298437), Version (330)
[2014-07-28 18:31:37.811182] I [client-handshake.c:1456:client_setvolume_cbk] 0-bigdata-client-1: Connected to 10.1.0.5:49152, attached to remote volume '/export/sdc1/brick'.
[2014-07-28 18:31:37.811212] I [client-handshake.c:1468:client_setvolume_cbk] 0-bigdata-client-1: Server and Client lk-version numbers are not same, reopening the fds
[2014-07-28 18:31:37.816498] I [fuse-bridge.c:4946:fuse_graph_setup] 0-fuse: switched to graph 0
[2014-07-28 18:31:37.816720] I [client-handshake.c:450:client_set_lk_version_cbk] 0-bigdata-client-1: Server lk version = 1
[2014-07-28 18:31:37.816886] I [fuse-bridge.c:3883:fuse_init] 0-glusterfs-fuse: FUSE inited with protocol versions: glusterfs 7.22 kernel 7.13

На клиентах наблюдаю такое:

$ tail -n 100 /var/log/messages
...
Jul 27 10:06:35 leo1 kernel: [2759611.131306] fsid 0:17: expected fileid 0xaff2a228e1c557d3, got 0xa445ccb4f7c76381
Jul 27 10:06:35 leo1 kernel: [2759611.143819] fsid 0:17: expected fileid 0x86038ecc3b466f80, got 0x81aa7c0c09ed0f59
Jul 27 10:06:35 leo1 kernel: [2759611.162209] fsid 0:17: expected fileid 0x9d66752b845b452e, got 0x973e6144f8afd583
Jul 27 10:06:35 leo1 kernel: [2759611.177564] fsid 0:17: expected fileid 0xb8e91bc8f63649e1, got 0xbb1dd97160c2d49b
Jul 27 10:06:35 leo1 kernel: [2759611.208367] fsid 0:17: expected fileid 0xb131c1a67ce73da0, got 0xb3466f0c6c2834d5
Jul 27 10:06:35 leo1 kernel: [2759611.219632] fsid 0:17: expected fileid 0xb2f5ec6a94131eb9, got 0xb0c1c7ef5601b7c6
Jul 27 10:06:35 leo1 kernel: [2759611.246600] fsid 0:17: expected fileid 0xa7f83c9f664da1dc, got 0x95c312aa46bd29c9
Jul 27 10:07:47 leo1 kernel: [2759683.110711] fsid 0:27: expected fileid 0x8f1ff788c8894e90, got 0xb731807ea340b180
Jul 27 10:07:47 leo1 kernel: [2759683.111056] fsid 0:27: expected fileid 0x8f1ff788c8894e90, got 0xb731807ea340b180
Jul 27 10:07:48 leo1 kernel: [2759683.582357] fsid 0:27: expected fileid 0xbb90b1ca4402d8a4, got 0x9d3d39cfb76e304a
Jul 27 10:15:57 leo1 kernel: [2760171.707158] fsid 0:1f: expected fileid 0xab3e116b954b0901, got 0x9af53d350b96a51
...

Клиенты - в основном стабильный дебиан x86. Один из них является сервер с самбой, через него часть ресурсов с кластера используют пользователи.

tetSU
() автор топика
Ответ на: комментарий от anonymous

Клиентам нужна не вся с кластера, а некоторые его части. Поэтому поднят промежуточный которые эту проблему и решает.

tetSU
() автор топика

поставьте последнюю стабильную версию гластера
http://download.gluster.org/pub/gluster/glusterfs/3.4/3.4.3/CentOS/epel-6.5/x86_64/

на оф сайте рекомендуют эту версию для продакшена
http://gluster.org/community/documentation/
«GlusterFS 3.4.3 is the latest release and recommended for production environments. »
Также попробуйте нативный гластерфс клиент для монтирования

invoice
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.