Компания "Нейротехнологии"
Наш проект — GPU-платформа на ранней стадии, где мы строим собственную инфраструктуру для ML / AI-нагрузок с фокусом на безопасность, изоляцию клиентов и стабильную работу GPU-серверов.
Сейчас мы в поиске сильного Senior DevOps / SRE, который возьмёт на себя построение и развитие GPU-инфраструктуры, автоматизацию onboarding’а серверов, безопасность и orchestration вычислений, а также станет ключевым техническим партнёром для продукта.
Задачи:
- Подключение и активация GPU-серверов (host onboarding): установка и поддержка daemon’а платформы, автоматические проверки GPU, драйверов, CUDA/cuDNN, стабильности
- Формирование и поддержка “паспорта машины” (inventory): модель GPU, VRAM, состояние, ошибки, метрики
- Проектирование и реализация изоляции клиентов:
* Docker + NVIDIA Container Toolkit
* namespaces / cgroups
* управление секретами (tokens, SSH keys)
* сетевая изоляция (firewall, zero-trust подход)
- Запуск и управление вычислительными задачами (training / inference):
* лимиты CPU / RAM / Disk / GPU
* очереди, статусы, retry-механики
- Настройка логирования, метрик и алертов
- Интеграции с S3-совместимыми хранилищами, volumes, кеширование датасетов, checkpointing
Что нам важно:
- Уровень Middle+ / Senior DevOps или SRE
- Сильный Linux (администрирование, а не “пользователь”)
- Практический опыт с Docker и контейнерной изоляцией
- Опыт работы с NVIDIA stack: drivers, CUDA, nvidia-smi, NVIDIA Container Toolkit
- Понимание сетевой безопасности и изоляции
- Опыт работы с GPU-серверами — обязателен
Будет большим плюсом:
- Kubernetes + GPU scheduling
- Terraform / Ansible
- опыт с RunPod / Vast / Lambda / CoreWeave
- понимание ML-нагрузок (training vs inference)
Условия:
- Формат работы: удалённо
- График работы: full-time 5/2, готовность быть гибким и работать на результат
- Заработная плата: обсуждается индивидуально (фикс + бонусы)
10 Января
Web SRE/Site Reliability Engineer
Москва
Компания "ДДОС ГВАРД" Привет! Мы — DDoS-Guard. С 2011 года защищаем бизнес от DDoS-атак, ускоряем доставку контента и обеспечиваем надежный...
10 Января
Senior Data Engineer( РСХБ-Интех )
Москва
Компания "РСХБ-Интех" В связи с активным расширением команды мы в поисках Senior Data Engineer в Лабораторию искусственного интеллекта. ЧЕМ...
10 Января
DevOps Team Lead (PaaS App.Farm)
Москва
Компания "РСХБ-Интех" О ПРОЕКТЕ: Мы называем нашу платформу App.Farm. Команда занимается разработкой и развитием платформы для ускорения...
10 Января
Москва
от 300 000 руб.
Компания "UP business" Наш клиент — технологическая компания, создающая масштабируемые системы для крупных корпоративных клиентов в сфере...
10 Января
Senior Product Manager( Владис, агентство недвижимости )
Москва
от 500 000 руб.
Компания "Владис, агентство недвижимости" Мы — команда VT, создающая цифровую экосистему для агентств недвижимости. Наш флагманский продукт —...
Вакансия размещена в отрасли