Компания "Mail.ru Group"
Cloud Storage — объектное хранилище с поддержкой S3 API, которое обеспечивает надёжное масштабируемое хранение и стабильную скорость раздачи любых объектов независимо от числа одновременных обращений. Примеры использования хранилища: потоковая раздача мультимедиа, хостинг сайтов, хранение логов транзакций, электронных документов, хранение больших данных, хранение бэкапов и архивов.
Наши принципы:
- все сервисы должны быть задублированы как минимум в двух ДЦ;
- повторяемый прод — все сервисы должны быть описаны в Puppet или в манифестах для Kubernetes;
- любые повторяемые ручные действия должны быть автоматизированы;
- бэкапы — любые используемые БД обязаны иметь консистентные бэкапы и инструкции по восстановлению.
Наш стек:
- инструментарий: Lua, Python, Bash, Tarantool, Nginx, HAProxy, Puppet, Kubernetes, Ansible, БД разных типов;
- мониторинг: graphite+grafana, prometheus+alertmanager.
Вам предстоит:
- беспечивать стабильную и безаварийную работу промышленных и тестовых сервисов VKCS (S3 Public) в качестве L3 линии поддержки;
- принимать участие в устранении инцидентов;
- помогать с решением клиентских обращений, поступающих на L3 линию поддержки;
- соблюдать установленные SLA по назначенным обращениям, инцидентам;
- участвовать в проектах по сокращению time-to-market, в том числе за счёт развития автоматизации в зоне вашей ответственности;
- осуществлять обновление/модификацию ППО и СПО на тестовых и промышленных сервисах VK CS (S3 Public);
- принимать участие в дежурствах в формате on-call.
Мы ожидаем, что вы:
- работали в роли системного администратора или SRE от пяти лет;
- имеете экспертные знания в эксплуатации Linux-систем;
- обладаете уверенными знаниями в сетях и стеке TCP/IP, DNS, HTTP;
- уже работали с инструментами оркестрации и виртуализации;
- использовали инструменты управления конфигурацией Ansible, Puppet;
- знакомы с Prometheus или Grafana;
- используете в своей работе Bash для автоматизации рутины и обладаете базовыми навыками в написании кода на Python или Go;
- имеете навыки траблшутинга и готовы докапываться до истины, чтобы предотвратить повторяющиеся инциденты.
Будет плюсом:
- опыт работы с базами данных разных типов;
- знание энтерпрайзных хранилищ, дисков, клаудов;
- умение разбираться в оборудовании, железе.