MLOps\ML inference engineer
12 Декабря 2025
Город:
Москва
Занятость:
Полная занятость
Компания "Сбербанк"
Мы разрабатываем автономные агентные решения на основе больших языковых моделей (LLM) для высоконагруженных систем оценки нефинансовых рисков. Наша миссия — обеспечить мгновенную, надёжную и безопасную работу ИИ-агентов в продакшене без участия человека.
Центральный вызов — минимизировать latency и задержки в инференсе, сохраняя при этом масштабируемость, устойчивость и безопасность архитектуры.
Обязанности
- Проектировать, развивать и оптимизировать высокопроизводительный стек инференса для LLM и других моделей (низкая задержка, высокая пропускная способность)
- внедрять современные методы и архитектуры (vLLM, TensorRT-LLM, FlashAttention и др.), снижающие latency и повышающие эффективность использования GPU
- создавать инструменты наблюдаемости, позволяющие выявлять узкие места, источники нестабильности и избыточного потребления ресурсов
- участвовать в проектировании и эволюции агентных архитектур: оркестрация, память, безопасные guardrails, оценка качества
- проводить технические исследования (R&D), быстро прототипировать, измерять и масштабировать решения в продакшен.
- влиять на инженерную культуру: участвовать в дизайн-сессиях, код-ревью, менторстве, формировании best practices.
Требования
- Опыт в промышленной backend-разработке на Python (или близком стеке), с фокусом на производительность и надёжность
- глубокое понимание современных архитектур ML/LLM и интуитивное чувство, как их оптимизировать именно для инференса
- уверенный опыт работы с PyTorch, NVIDIA GPU и стеком оптимизации: CUDA, NCCL, TensorRT, cuBLAS, и т.п
- знакомство с технологиями HPC (InfiniBand, NVLink, RDMA) — приветствуется.
- опыт проектирования распределённых, высоконагруженных систем с продуманной observability (логи, метрики, трассировка)
- привычка всё измерять, принимать решения на основе данных и метрик.
- практика эксплуатации ML систем в продакшене: A/B-тесты, офлайн/онлайн-оценка, мониторинг деградации качества
- способность быстро осваивать новые концепции (агенты, RAG, инструментализация, безопасность) и доводить их до рабочего состояния.
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты и годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
02 Декабря
Middle Computer vision engineer( Сбербанк )
Москва
Компания "Сбербанк" Находимся в поиске разработчика в команду компьютерного зрения. Команда занимается обучением моделей для безопасного отдыха...
02 Декабря
Senior DS/LLM Engineer (Центр практического ИИ)
Москва
Компания "Сбербанк" Центр практического искусственного интеллекта занимается разработкой и внедрением высокотехнологичных AI-инструментов....
29 Ноября
Senior Data Engineer (GigaChat Text-to-speech)
Москва
Компания "Сбербанк" Наша команда отвечает за качество моделей TTS в GigaChat – той части нейросети, которая занимается звуком. Сейчас мы ищем...
01 Декабря
Senior ML Engineer (Multimodal LLM/Video Understanding)
Москва
Компания "Сбербанк" Мы core команда, которая отвечает за машинное обучение для понимания аудиоданных во всем Сбере. В прошлом году мы выложили в...
01 Декабря
Lead R&D Engineer (Deep Learning / Anti-Fraud)
Москва
Компания "Сбербанк" Команда Моделирования в Антифроде Сбера — Москва (офис), полный рабочий день. Мы разрабатываем одну из самых передовых...
Вакансия размещена в отрасли