LINUX.ORG.RU
ФорумTalks

Сложные ситуации - Администратора

 ,


0

2

Вообщем какие у вас были стресс ситуации в вашей работе ? Ну к примеру вы все наладили работаете, а потом резко что то происходит, и вы за всем наблюдаете но не можете решить это сразу из за невыявление ошибки, или же малого опыта, ну к примеру вы администратор сервера с сайтами, и что то резко происходит, кто то или по каким то причинам перестает резко работать, клиенты в панике вы тоже, ну что то типа такого было ? просто интересно как кто справлялся.

как кто справлялся.

Обычно, спокойно, с фейсом «Вы что, не видите? У нас ремонт!»

Suigintou ★★★★ ()
Ответ на: комментарий от Suigintou

Ну а вдруг какае то внештантая ситуация, просто интересно у кого было, или такого не у кого небыло ? Ну какае то критическая ситуация расскажите интересно, как решали, что делали, я понимаю что у нас ремонт, а если там что то серьезное и угроза всем серверам и т д - вот это интересно послушать что то такое :) Или же у всех всегда все было хорошо ?

nixbrain ()
Ответ на: комментарий от Suigintou

Ну к примеру когда начинали, может с чем то сталкивались.. не могу поверить в том что СТОЯЩИЕ АДМИНИСТРАТОРЫ никогда не набивали себе шишки !

nixbrain ()
Ответ на: комментарий от nixbrain

Было дело. Когда первый раз форк-бомбу на сервере хостинга поймал. Была паника, не знал что делать. Потом разрулил как-то, но нервов слил.

Amet13 ★★★★★ ()

RDP не умеет OpenCL. Вот где стресс-бида-пичаль-уныние :(

dk- ()

Сейчас на новоустановленном файлохранилище NetApp внезапно два диска из стойки стали светить индикатором "!", скорость обращения к хранилищу упала с 2Gbps до 10Mbps. Данные, вроде, все целы. Сам с ними не работал, так что буду писать интегратору и спрашивать, чего это новые диски возмущаются. Для нас очень критична скорость доступа, и, если бы это произошло в другое время, мы могли бы потерять много денег.

Sadler ★★★ ()
Последнее исправление: Sadler (всего исправлений: 1)

в банке где работал слетели партишены с продакшн серверов.
были на работе ~27 часов.

dada ★★★★★ ()

Моей самой большой ошибкой было то, что я не убежал из конторы вслед за it директором три года назад.

nighthawk ()

Вапще как так получается что просто интересно как тебя не забанили ты наверное знаком с модераторами а то и вообще, виртуал какого либо из модераторов а то тебя никак не забанят странно ты не находишь? и как не понимаю тут справляться с потоком твоих словомыслей не пойму.

Stahl ★★☆ ()
Ответ на: комментарий от Sadler

Спасибо, просто очень интересно, почтитать, ведь ситуации разные бывают за одно, вы можете за ранее подсказать что может случиться как это было и у вас.Вообще опыт я думаю так и приходит, из таких ситуаций. Конечно лучше предотвращать за ранее известные подводный камни, но и быть всегда готовым к чему то неожиданному, сами понимаете стабильности нет, а 100% уверенности в том что все будет работать как надо тоже.

nixbrain ()

сталкивался пару раз с 0-day уязвимостями, вот самая эпичная:
SSHD и панамские боты

а вот чтоб именно стрессовое, то помнится был случай - приходит шеф и говорит: на этой неделе выходит выпуск TV-шоу, где будет сюжет про одного из наших клиентов. в это время ожидается большой приток посетителей на его сайт, насколько большой - хз, но основная наша задача - чтобы сайт не лёг. время - дня 4 не больше. и сиди думай =)
но по итогу справились таки - главное собрать грамотно статистику по нагрузке, показать девелоперам очевидные косяки и узкие места, ну и правильно воспользоваться CDN-ом и varnish-ем.

Komintern ★★★★★ ()
Ответ на: комментарий от nixbrain

а, еще забавный был случай, когда нужно было за одну ночь перевезти ~30 серверов из одного датацентра в другой (по определенным причинам предыдущий дц перестал устраивать по качеству), естественно с минимальным простоем. при этом одновременно нужно было переконфигурить BGP, и остальные сетевые необходимости =)
не смотря на все предосторожности при упаковке и транспортировке, несколько веников посыпалось, и пришлось уже на новом месте из бакулы разворачивать.

Komintern ★★★★★ ()
Ответ на: комментарий от Komintern

Ооо спасибо полезное говорите :) интересно, читаю про бота, в панамских штанах

nixbrain ()

Ошибся в имени route-map и full view разлетелось куда не надо убивая коробки по пути :) Пара неудачных кликов в PGW - и регион сидит без телефонии. Про dwdm и его провиженинг вообще молчу.

Короче - факапы у всех бывают, основное тут - иметь правильный план работ с прописанными процедурами отката к исходному состоянию. Ну и быть в курсе где лежит disaster recovery plan (и что бы он в принципе существовал).

eabi ()

Или вот тема (года 2 назад, в калифорнии). Упал корпоративный датацентр - что-то намутили в электрической компании, бывает. Дальше дам примерную выжимку и писем в support ticket:

+:30 min: Admin: Это не мы - это электрики!

+1 h : Manager: Круто! У нас будет клевая возможность проверить как всё работает после глобального сбоя

+2 h: Admin: Есть энергия! Ура!
+2 h: Admin: Поднимаем всё
+2:30: Manager: Молодцы! Вам уважуха, электрикам - незачет

+3:00: Admin: А часть свичей не включается, хотя лампочками мигает
+3:30: Admin: Делать то что? Кому звонить?
+3:50: NetAdmin: Ну мне звонить - что там у вас?

+4:50: Netadmin: Это вам не просто свичи (это бла бла бла) - им нужен для работы dns - ну и где он?
+5:00: Admin: Какой еще dns - у нас из за вашей сети сервера не поднимаются

+5:30:Manager2: Вы нарушаете SLA 
+5:31:Manger: Мы работаем - всё очень серьезно
+5:32:Manager3 (не имеющий никакого отношения к делу): Чем я могу вам помочь?
+5:33:SenjorManager: Нука быстро мне в почту отчет о происходящем иначе мы не комплайнс по нашим процедурам

+6:00:Netadmin: Я сделал ва роутинг, хоть вы мне и не дали dns
+6:30:Admin: А сервера не поднимаются
+6:35:Admin: Кто-нить знает какие сервера нужно поднимать сначала а какие потом?
+6:50:StorageEng: Идиоты - неужели не понятно что сначала storage?
+7:00:Admin: А электричество дали на всё одновременно.

Еще через 10 часов собрали рабочую группу человек из 15, отключили сервера, написали план работ и стали аккуратно подключать.

eabi ()
Ответ на: комментарий от nixbrain

Да это просто треш и угар. Там тикет более мегабайта текста, я не смогу это толком передать.

По работе приходилось заниматься сетями мобильщиков (во многих странах, включая рф) - упаси Случай, что бы там случился power down серьезный (уровня центрального региона) - ни у кого сеть не поднимется в рабочее состояние.

Похоже сложность (в кибернетическом смысле) современных сетей такова, что обычные, наколенные методы эксплуатации уже неприемлемы.

eabi ()
Ответ на: комментарий от nixbrain

Вообщем слухай сюды такая ситуацыя сижу на уроке русяз а домашку несделал и тут учиха вызыват миня к даске вот это ситуация скажу я вам никому не пазавидуеш конечно лучше предотвращать за ранее известный подводный камни и учить домашку па рус яз опыт так и приходит из таких ситуаций

Pyzia ★★★★ ()

Такого не было разве что у вчерашних студентов.

drull ★☆☆☆ ()
Ответ на: комментарий от nixbrain

вы можете за ранее подсказать что может случиться как это было и у вас

Не выйдет. Книга рецептов на все интересные проблемы будет больше чем БСЭ. Плюс одни симптомы могут иметь кучу разных причин.

drull ★☆☆☆ ()
Ответ на: комментарий от eabi

Это да. Прежде чем залить что-то что может вызвать ЖОПУ нужно обязательно иметь бекапы. Их наличием и отличаются опытные айтишники от неопытных.

drull ★☆☆☆ ()
Ответ на: комментарий от drull

Чего не было ? внештатных ситуаций ? значит мало опыта у вас.

nixbrain ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.