Site Reliability Engineer/SRE во внутреннее облако (RTC) (в архиве)

19 Ноября

Партнерские Вакансии

Город:

Москва

Занятость:

Полная занятость

Опыт:

Более 6 лет

Компания "Яндекс"

Мы развиваем внутреннее инфраструктурное контейнерное облако, в котором расположены сервисы, создаваемые тысячами разработчиков Яндекса. Всё ради того, чтобы запуск и эксплуатация сервиса занимали минимум времени, а стоимость ресурсов облака была минимальной.

В нашу команду ищем опытного инженера. Вы будете строить гибридные облака и обеспечивать безопасную эксплуатацию кластера.

Какие задачи вас ждут:

Разворачивать и развивать bare-metal-кластеры Kubernetes
Вам предстоит проектировать и внедрять решения для развёртывания и эксплуатации крупных bare-metal-кластеров Kubernetes в выделенных дата-центрах, исследовать и адаптировать инфраструктурные сервисы для работы в гибридных средах — как на физических серверах, так и в облаках. Предстоит участвовать в развёртывании критически важных систем в Kubernetes, например YT — платформы для распределённых вычислений, при этом обеспечивать высокую производительность и отказоустойчивость. Работать с low-level-компонентами: Container Runtime (Porto), CNI, CSI, node agents, системными демонами, а также с настройкой ядра Linux и аппаратной спецификой серверов, разрабатывать собственные инструменты и контроллеры для Kubernetes, автоматизировать рутинные операции.

Развивать и совершенствовать автоматизацию обновлений облака
Вы будете поддерживать и модернизировать hostmanager — ключевой сервис для управления жизненным циклом хостов в облаке, автоматизировать обновления ОС, ядра, системных компонентов и Kubernetes-нод с минимальным влиянием на работающие сервисы, разрабатывать механизмы безопасного канареечного развёртывания и отката обновлений, интегрировать лучшие практики CI/CD и Infrastructure as Code в процессы эксплуатации инфраструктуры.

Наблюдать и управлять парком из 100+ тысяч хостов
Нужно обеспечивать высокую доступность и производительность всей инфраструктуры, анализировать метрики, логи и события для выявления и предотвращения инцидентов, участвовать в проектировании систем мониторинга, алертинга и диагностики на уровне хостов и кластеров, работать с распределёнными системами, оптимизировать использование ресурсов и снижать время простоя.

Улучшать безопасность и изоляцию системных компонентов
Предстоит работать над изоляцией dom0 и других критических компонентов виртуализации и оркестрации, внедрять механизмы безопасной загрузки (secure boot), контроля целостности, изоляции окружения, анализировать уязвимости и участвовать в повышении уровня защищённости инфраструктуры на всех уровнях: от железа до оркестратора.

Строить гибридные облачные решения
Будете интегрировать внутреннее облако с публичными облаками для создания гибридных и мультиоблачных сценариев, обеспечивать единый опыт эксплуатации сервисов независимо от их физического размещения, поддерживать кросс-платформенные решения для развёртывания, масштабирования и мониторинга сервисов.

Мы ждем, что вы

  • Пишете на Go или Python
  • Знаете, как устроен K8s, администрировали bare-metal-инсталляции, писали свои контроллеры
  • Использовали Terraform, писали свои провайдеры
  • Понимаете, как устроены большие кластеры и как их обслуживать
  • Работали с публичными облаками

Будет плюсом, если вы

  • Умеете и любите разбираться в новых технологиях
  • Пишете на C++ и хотите развиваться в системном программировании для Linux
Похожие вакансии

27 Ноября

MLops (ML Inference Engineer)( WILDBERRIES )

Москва

Компания "WILDBERRIES" Объединённая компания Wildberries и Russ — это международная технологическая компания, образованная в результате слияния...

Отправить резюме подробнее

27 Ноября

Auto QA Engineer (Python)( Диджитал зон )

Москва

Компания "Диджитал зон" DZ Systems - группа компаний, основанная в 2005 году. Мы входим в реестр аккредитованных IT компаний. Созданные нами...

Отправить резюме подробнее

27 Ноября

Data Engineer (Инженер сопровождения) в команду Сопровождения продуктов и разработки

Москва

Компания "Банк ДОМ.РФ" СТЕК: Oracle, Greenplum, DBT, Airflow, Pentaho DI ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ: Решать типовые обращения...

Отправить резюме подробнее

27 Ноября

DevOps Engineer( Finstar Financial Group )

Москва

Компания "Finstar Financial Group" Finstar Financial Group – крупный международный холдинг, включающий в себя компании по всему миру. Наша...

Отправить резюме подробнее

27 Ноября

Middle BackEnd Software Engineer

Москва

Компания "EFIX GROUP" Middle BackEnd Software Engineer Компания SG Systems занимается разработкой программного обеспечения. Небольшая...

Отправить резюме подробнее

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет: