Senior MLOps/Devops инженер (LLM)
09 Июня 2026
Город:
Москва
Занятость:
Полная занятость
Опыт:
Более 6 лет
Компания "Сбербанк"
Мы строим платформу для инференса и SFT opensource LLM. Используем продвинутые cutting edge движки для инференса, много экспериментируем и боремся за каждую дополнительную единицу в Token thoughput. Cейчас мы находимся в поиске MLOps-инженера, который вместе с нами продолжит настраивать и улучшать инфраструктуру инференса LLM-моделей и осуществлять вывод решений в прод контур.
Первый этап отбора на эту вакансию - общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача - уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!
Вам предстоит:
- разрабатывать и оптимизировать инфраструктуру инференса LLM-моделей для минимальной задержки и высокой пропускной способности внутренних приложений и сервисов
- обеспечивать масштабируемость и надежность LLM-serving инфраструктуры; выбирать и настраивать инструменты для инференса (sglang, vLLM, llama.cpp)
- разрабатывать механизмы разграничения доступов к API-сервисам моделей
- строить систему observability и мониторинга LLM-инференса
- собирать модели в сервисы и интерфейсы (FastAPI, Flask, Tornado, Streamlit, Chainlit и т.д.)
Мы ожидаем:
- опыт в аналогичной роли от 5 лет
- оппыт с Linux (сеть, storage, роли/пользователи, менеджмент процессов)
- уверенное владение Kubernetes (используем Istio Service Mesh)
- опыт построения высокопроизводительных LLM-сервисов (sglang, vLLM)
- опыт настройки высоконагруженных прокси-серверов (nginx, Envoy, HAProxy): load balancing, rate limiting, SSL termination, health checks
- владение языками: Bash, Python, Groovy (Jenkins scripted)
- продвинутые навыки в CI/CD и оркестрации моделей.
Будет преимуществом:
- понимание распределенных систем и GPU-коммуникации (NCCL, MPI, RDMA, InfiniBand)
- знание служебных компонентов LLM-пайплайна: токенизаторы, KV-cache, контекстное окно
- понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores)
- опыт работы с векторными БД (Opensearch, Qdrant, FAISS, pgvector) для RAG и других задач.
Мы предлагаем:
- гибридный формат работы (2-3 дня в офисе)
- годовой бонус и ежегодный пересмотр
- расширенный ДМС с первого дня + стоматологию и льготное страхование для семьи
- корпоративный университет Сбера, внутреннюю образовательную платформу, участие в IT-конференциях
- офис на Кутузовской с зонами отдыха и спортзалом
- льготную ипотеку в Сбере, корпоративную пенсионную программу, подписку СберПрайм+, скидки от партнеров и сервисов группы компаний.
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
01 Июня
Инженер строительного контроля ООО "ДОМО АРТЕ"
Москва
от 200 000 до 260 000 руб.
Вакансия компании ООО "ДОМО АРТЕ" Компания технический заказчик в строительных проектах. 15 лет на рынке, слаженная команда. Обязанности: -...
30 Мая
Инженер-аналитик в технологический отдел (производство металлоконструкций)
Москва
Компания "ЕВРАЗ" EВРАЗ СТИЛ БИЛДИНГ – поставщик готовых строительных решений на основе металлоконструкций, мы выполняем полный спектр услуг по...
30 Мая
Инженер (рентген-оборудование)
Москва
от 155 000 руб.
Компания "МЕДГРЕЙД" Чем предстоит заниматься: • Монтаж, ПНР медицинского оборудования • Помощь в подготовке пресетов и инструктаж персонала...
30 Мая
Senior QA Automation Engineer( Simplenight )
Москва
от 150 000 до 300 000 руб.
Компания "Simplenight" Position: QA Automation Engineer Level: Senior Experience: 8+ years (NOT freelancing) Location: Remote...
30 Мая
Ведущий разработчик Go (senior)
Москва
Компания "HOLODILNIK.RU" Обязанности: Поддержка и разработка нового функционала сайта создание новых интеграций с интернет витринами и...
Вакансия размещена в отрасли