LINUX.ORG.RU
решено ФорумAdmin

Как перезагрузить сервер в режиме read-only?

 ,


0

1

Похоже, что на удалённом сервере рассыпался диск, но есть доступ по ssh.

Любая попытка выполнить команду с sudo заканчивается с ошибкой:

> sudo ls     
[sudo] password for sabo: 
zsh: bus error  sudo ls

> sudo reboot
[sudo] password for sabo: 
zsh: bus error  sudo reboot

sysrq только от root'а:

> ls -l /proc/sys/kernel/sysrq   
-rw-r--r-- 1 root root 0 июл 21 14:00 /proc/sys/kernel/sysrq

> ls -l /proc/sysrq-trigger
--w------- 1 root root 0 июл 21 14:19 /proc/sysrq-trigger

Можно ли как-то удалённо реанимировать сервер?

★★

открой remediation plan и выполняй инструкции </sarcasm>
конечно у тебя нет плана.

Можно ли как-то удалённо реанимировать сервер?

наверное, если тот, кто включил этот сервер предусматривал такую возможность. по твоему скудному посту — нельзя.

system-root ★★★★★
()
Последнее исправление: system-root (всего исправлений: 1)
Ответ на: комментарий от system-root

открой remediation plan и выполняй инструкции </sarcasm>

Там написано: езжай к серверу и перезагружай ручками.

А если в будущем поставить sysrqd, я так понимаю можно по telnet перезагружать из локальной сети?

SaBo ★★
() автор топика
Ответ на: комментарий от SaBo

я не пойму, тебе его перезагрузить хочется? echo b > /proc/sysrq-trigger и всё. только с чего ты этого хочешь? он вообще потом будет доступен?

system-root ★★★★★
()
Ответ на: комментарий от system-root

/proc/sysrq-trigger доступен только под root, а я не могу выполнить sudo.

только с чего ты этого хочешь? он вообще потом будет доступен?

Будет доступен или нет - не знаю (скорее всего будет), но от этого по факту хуже уже не будет, всё равно ехать к нему.

Хочу предварительно попробовать снять бэкапы удалённо.

SaBo ★★
() автор топика

Ну по идее можно грабу прописать опции, наверняка что-то должно быть. Но это должен быть доступ к консоли сервера - iLo, DRAC, kvm

skyman ★★★
()
Ответ на: комментарий от skyman

Доступа к консоли нет, к сожалению. Если бы была - вопроса бы такого не было.

SaBo ★★
() автор топика
Ответ на: комментарий от system-root
> bash
bash: /etc/bash.bashrc: Ошибка ввода/вывода
bash: /usr/bin/dircolors: Ошибка ввода/вывода
zsh: bus error  bash

Можно ли как-то запустить bash «без свистелок»?

SaBo ★★
() автор топика
Ответ на: комментарий от SaBo
> bash --noprofile --norc
zsh: bus error  bash --noprofile --norc
SaBo ★★
() автор топика
Ответ на: комментарий от system-root

Да, я уже об этом подумал )

Есть ещё вариант как-то залогиниться через shell:

Что-то типа:

> ssh -t myserver.net "/bin/bash --noprofile --login"
Connection to myserver.net closed.

Но не понимаю, почему соединение рвётся.

Или так:

> ssh -t myserver.net "sudo -s /bin/bash --noprofile --norc"
[sudo] password for sabo: 
Connection to myserver.net closed.
SaBo ★★
() автор топика
Ответ на: комментарий от system-root

Ну вот так, кстати, bash работает:

> ssh -t myserver.net "bash --norc -c 'echo $SHELL'"
/bin/bash
Connection to myserver.net closed.
SaBo ★★
() автор топика
Ответ на: комментарий от SaBo

А вот так уже нет:

> ssh -t myserver.net "bash --norc -c 'sudo echo $SHELL'"
[sudo] password for sabo: 
Connection to myserver.net closed.
SaBo ★★
() автор топика

А su работает? А есть какой-нибудь dash или другой легковесный шелл?

Но вообще астральные духи сулят тебе дальнюю дорогу. Может быть посыпался диск под glibc или память ядра испортилась или что-то ещё важное и нужное накрылось. sudo --version тоже не работает?

legolegs ★★★★★
()

А сделать загрузочный iso с нужным софтом и настройками, дать скачать человеку имеющему доступ к серваку и объяснить как накатить это на флешку и куда сувать в сервак, не вариант ?
А еще бывают такие штуки как kvm/ilo/ipmi.

Deleted
()
Ответ на: комментарий от SaBo

всё равно ехать к нему.
Хочу предварительно попробовать снять бэкапы удалённо.

Смысл мучать сервак если все равно к нему ехать?

anc ★★★★★
()

Короче говоря, судя по SMART диск, я так понимаю, живой:

> sudo smartctl -A /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-6-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   099   006    Pre-fail  Always       -       27629176
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       96
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       80
  7 Seek_Error_Rate         0x000f   057   057   030    Pre-fail  Always       -       1155507504209
  9 Power_On_Hours          0x0032   072   072   000    Old_age   Always       -       24731 (221 180 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       96
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   088   088   000    Old_age   Always       -       12
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       12885098499
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   051   026   045    Old_age   Always   In_the_past 49 (255 255 49 46 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       26
193 Load_Cycle_Count        0x0032   098   098   000    Old_age   Always       -       5245
194 Temperature_Celsius     0x0022   049   074   000    Old_age   Always       -       49 (0 21 0 0 0)
196 Reallocated_Event_Count 0x000f   072   072   030    Pre-fail  Always       -       24682 (40707 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1
240 Head_Flying_Hours       0x0000   081   081   000    Old_age   Offline      -       24682 (159 3 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       1562225202
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1390846645
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

Только с температурой иногда проблемы (но это в моих условиях нормально).

SaBo ★★
() автор топика
Ответ на: комментарий от SaBo

А если в будущем поставить sysrqd, я так понимаю можно по telnet перезагружать из локальной сети?

Поставил sysrqd - работает по телнету. Посмотрю как эта штука будет работать при следующем зависании.

SaBo ★★
() автор топика
Последнее исправление: SaBo (всего исправлений: 1)
Ответ на: комментарий от SaBo

В kernel.log так же нет причин перехода в ro. Последняя строчка:

Jul 21 00:20:58 s1 kernel: [35505.606320] iptables denied: IN=br0 OUT=br0 PHYSIN=eth0 PHYSOUT=vb-fusionpbx MAC=33:33:00:00:00:01:c0:4a:00:4d:4b:18:86:dd SRC=fe80:0000:0000:0000:c24a:00ff:fe4d:4b18 DST=ff02:0000:0000:0000:0000:0000:0000:0001 LEN=72 TC=0 HOPLIMIT=1 FLOWLBL=0 PROTO=ICMPv6 TYPE=130 CODE=0 
SaBo ★★
() автор топика
Ответ на: комментарий от SaBo

Короче говоря, судя по SMART диск, я так понимаю, живой:

Ага, конечно, живее все живых, только вот «температура нас побеспокоила»

Reallocated_Sector_Ct 80 (хана котенку, не будет больше пысать)
Command_Timeout 12885098499 ( запредельно, но может быть и шлейвы)
G-Sense_Error_Rate 2 ( за что вы его так?)
Reallocated_Event_Count 24682 (софтверные, но не гуд)
UDMA_CRC_Error_Count 1 (мб и шлейф?)

На всякий случай уточню, хард seagate? А то тут еще пара параметров «веселые», но похоже на вариант сигейта.

Итого: при учете Reallocated_Sector_Ct больше нуля, считайте что харду капец.

anc ★★★★★
()
Ответ на: комментарий от anc

Еще пропустил
Reported_Uncorrect 12
Живой хард, живой... :)

anc ★★★★★
()
Ответ на: комментарий от anc

Винт - дешевый десктопный Seagate.

Никогда не умел читать данные смарта.

Почему Reallocated_Sector_Ct критичен? Worst value = 100, thresh value = 36. Worst > thresh - если я правильно понимаю, то так и должно быть.

SaBo ★★
() автор топика
Последнее исправление: SaBo (всего исправлений: 1)
Ответ на: комментарий от SaBo

На счёт этого атрибута мнения разнятся. Лично я считаю, что если он достиг 10, диск нужно обязательно менять — ведь это означает прогрессирующий процесс деградации состояния поверхности либо блинов, либо головок, либо чего-то ещё аппаратного, и остановить этот процесс возможности уже нет. Кстати, по сведениям лиц, приближенных к Hitachi, сама Hitachi считает диск подлежащим замене, когда на нём находится уже 5 переназначенных секторов. Другой вопрос, официальная ли эта информация, и следуют ли этому мнению сервис-центры. Что-то мне подсказывает, что нет :)

отсюда

Если это так, то тогда да - у диска проблемы. Понаблюдаю за показателями смарта'а недельку.

SaBo ★★
() автор топика
Ответ на: комментарий от SaBo

194 Temperature_Celsius 0x0022 049 074

Максимально достигнутая температура - 74!!! Как интересно так получилось, там пожар что-ли был?

einhander ★★★★★
()
Ответ на: комментарий от einhander

Бэкапы уже, естественно )

Максимально достигнутая температура - 74!!! Как интересно так получилось, там пожар что-ли был?

Типа того. Это по фатку обычный десктоп, который стоит в душном закрытом помещении. Видимо, с приходом лета, что-то пошло не так.

SaBo ★★
() автор топика
Ответ на: комментарий от SaBo

обычный десктоп, который стоит в душном закрытом помещении.

Рекомендую пару 12" вентиляторов в корпус тогда, иначе проблемы с дисками будут преследовать его.

einhander ★★★★★
()
Ответ на: комментарий от einhander

Там что-то вроде этого, некуда вентиляторы врезать. Только если корпус снять.

На нём крутится АТС, помойка и мелочь всякая. Думаю, как сдохнет - поменять на что-то более подходящее.

SaBo ★★
() автор топика
Последнее исправление: SaBo (всего исправлений: 1)
Ответ на: комментарий от SaBo

Винт - дешевый десктопный Seagate.

ССЗБ - эти могут сдохнуть даже «мяу» не успев сказать по мониторингу смарта. Было несколько случаев, когда какие-то «гудрые удвины» зафигачивали десктопные харды в сервера/хранилки, писец, дохли сразу и без предупреждения по смарту. Вам еще повезло что как-то робит.

Почему Reallocated_Sector_Ct критичен?

Это значит что хард начал обрастать бэдами у вас их 80. Читайте выше, если больше нуля, уже считай что хана ослику.
Бывают случаи когда народ забивает на это, и более того параметр может больше и не расти, но это разговоры про дэсктоп на котором нифига критичного нет. Вы напомнили недавнюю историю моего одноклассника, любитель шутеров, сказал «пока на пройду гамку, хард менять не буду» :)
Но у вас сервак! Более того остальные показатели которые я привел совсем не айс.
Почему не мониторите показатели смарта?
PS

Никогда не умел читать данные смарта.

Простите за грубость, А на гугле вас забанили?

anc ★★★★★
()
Ответ на: комментарий от SaBo

Понаблюдаю за показателями смарта'а недельку.

«А Мьсе знает толк» То что железку менять надо, это однозначно, возможно не только хард. Не кажется ли вам, что комфортнее пока не произошел «бум бабах» подобрать время поездки самому, чем в случае «бум бабах» срочно вылетать/выезжать?

anc ★★★★★
()
Ответ на: комментарий от anc

«А Мьсе знает толк» То что железку менять надо, это однозначно, возможно не только хард. Не кажется ли вам, что комфортнее пока не произошел «бум бабах» подобрать время поездки самому, чем в случае «бум бабах» срочно вылетать/выезжать?

Нет, не кажется, т.к. есть резерв в ЦОДе, от выключения этой коробки никто особо не пострадает (и не пострадал за те сутки, что она отвалилась), по факту нужна только для того что бы не гонять локальный трафик через ЦОД.

+ теперь нужно серьезно подумать, что можно поставить вместо неё. Дешёвое по деньгам и не очень требовательное к окружающей атмосфере.

SaBo ★★
() автор топика
Последнее исправление: SaBo (всего исправлений: 1)
Ответ на: комментарий от SaBo

Нет, не кажется, т.к. есть резерв в ЦОДе, от выключения этой коробки никто особо не пострадает

Ну тогда простите, сразу вы такого не написали. Если есть резерв то конечно не «горящий» вопрос, резервирование оно всегда хорошо.

anc ★★★★★
()
Ответ на: комментарий от anc

Да там длинная история )

Сначала была эта коробочка, потом появились пром. сервера с рейдом и ILO, потом стало понятно, что нужно уезжать в ЦОД. А коробка осталась и, что самое главное, в момент переезда в ЦОД уже была настроена как Slave. Внешний канал узкий, по этому стала гонять локальный трафик. Сейчас, похоже, дешевле купить широкий канал, чем менять её на что-то. Правда, у интернета простой пару часов в год, в этот момент slave хорошо спасает + настроен автоматический резерв на Йоту при отключении основного канала. Последнее, в принципе, и роутер умеет.

SaBo ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.