MlOps inference engineer
17 Марта 2026
Город:
Москва
Занятость:
Полная занятость
Опыт:
Более 6 лет
Компания "HeadHunter"
Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.
Обязанности:
-
Разработка и оптимизация инфраструктуры инференса LLM‑моделей.
-
Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов
-
Помощь в capacity-планировании командам-заказчикам
-
Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM).
- Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок
Ключевые знания и навыки:
- Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
- Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
- Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc.
- Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
- Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand).
- Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
- Уверенное владение Python
- Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler).
- Опыт участия в архитектурном дизайне крупных AI‑платформ
- Опыт управления командой инженеров.
- Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.
Будет преимуществом:
- Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference).
- Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно.
- Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
- Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching).
- Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только.
Что предлагаем мы:
- Возможность выбора формата работы: гибрид, удаленно или из офиса
- Гибкий график
- Корпоративный ДМС со стоматологией c первого месяца работы
- Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
- Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
- Кофе в кофемашинах, чай, печенье, фрукты на кухне
- Электронная корпоративная библиотека
- Молодой, профессиональный и дружный коллектив
- Возможность профессионального развития, обучения за счет компании, участия в конференциях
- Достойный уровень заработной платы
- Совместную постановку целей и индивидуальный план развития
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
16 Марта
Москва
до 150 000 руб.
Компания "Серверные Технологии" Обязанности: Разрабатывать и поддерживать качественные UI‑компоненты Разрабатывать AI‑интерфейсы...
16 Марта
Москва
от 200 000 до 350 000 руб.
Компания "GreenCore" GreenCore — современная IT-компания, которая создаёт и развивает цифровые решения для бизнеса. Мы работаем на стыке...
17 Марта
Middle/Senior DevOps Engineer [МТС Веб Сервисы]
Москва
Компания "МТС" МТС Web Services (MWS) — бигтех-компания, предоставляющая облачные, AI-сервисы и платформенные решения под разные задачи бизнеса:...
17 Марта
Москва
Компания "Сбербанк" Дивизион корпоративного блока Сбербанка, отвечающий за все виды удаленного обслуживания юридических лиц. Мы объединяем...
17 Марта
Computer Vision Engineer Python/C++( Московский метрополитен )
Москва
Компания "Московский метрополитен" Вакансия открыта в Инновационном центре «Безопасный транспорт», который входит в структуру Московского...
Вакансия размещена в отрасли