• Войти
Работа в Москве
наверх
Создать резюме
Подбор персонала

Более 150 000 компаний ждут Ваше резюме

Войти Для работодателей
Работа в Москве
наверх
  1. Работа в Москве
  2. ⚫ Инженер ✔
  3. Вакансии в Москве

MlOps inference engineer

17 Марта 2026

HeadHunter
HeadHunter

Город:

Москва

Занятость:

Полная занятость

Опыт:

Более 6 лет

Откликнуться

Компания "HeadHunter"

Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.

Обязанности:

  • Разработка и оптимизация инфраструктуры инференса LLM‑моделей.

  • Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов

  • Помощь в capacity-планировании командам-заказчикам

  • Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM).

  • Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок

Ключевые знания и навыки:

  • Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
  • Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
  • Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc.
  • Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
  • Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand).
  • Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
  • Уверенное владение Python
  • Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler).
  • Опыт участия в архитектурном дизайне крупных AI‑платформ
  • Опыт управления командой инженеров.
  • Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.

Будет преимуществом:

  • Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference).
  • Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно.
  • Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
  • Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching).
  • Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только.

Что предлагаем мы:

  • Возможность выбора формата работы: гибрид, удаленно или из офиса
  • Гибкий график
  • Корпоративный ДМС со стоматологией c первого месяца работы
  • Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
  • Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
  • Кофе в кофемашинах, чай, печенье, фрукты на кухне
  • Электронная корпоративная библиотека
  • Молодой, профессиональный и дружный коллектив
  • Возможность профессионального развития, обучения за счет компании, участия в конференциях
  • Достойный уровень заработной платы
  • Совместную постановку целей и индивидуальный план развития

Открыть контакты работодателя

Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя

Прикрепите резюме для отклика

Загрузите файл с резюме
до 5 Mb .doc, .docx, .pdf

Создать профессиональное резюме

ОТПРАВИТЬ РЕЗЮМЕ

Уже с нами?
Войдите, чтобы отправить резюме

Похожие вакансии

16 Марта

Frontend Engineer

Москва

до 150 000 руб.

Компания "Серверные Технологии" Обязанности: Разрабатывать и поддерживать качественные UI‑компоненты Разрабатывать AI‑интерфейсы...

Отправить резюме
подробнее

16 Марта

MLOps-специалист

Москва

от 200 000  до 350 000 руб.

Компания "GreenCore" GreenCore — современная IT-компания, которая создаёт и развивает цифровые решения для бизнеса. Мы работаем на стыке...

Отправить резюме
подробнее

17 Марта

Middle/Senior DevOps Engineer [МТС Веб Сервисы]

Москва

Компания "МТС" МТС Web Services (MWS) — бигтех-компания, предоставляющая облачные, AI-сервисы и платформенные решения под разные задачи бизнеса:...

Отправить резюме
подробнее

17 Марта

QA engineer( Сбербанк )

Москва

Компания "Сбербанк" Дивизион корпоративного блока Сбербанка, отвечающий за все виды удаленного обслуживания юридических лиц. Мы объединяем...

Отправить резюме
подробнее

17 Марта

Computer Vision Engineer Python/C++( Московский метрополитен )

Москва

Компания "Московский метрополитен" Вакансия открыта в Инновационном центре «Безопасный транспорт», который входит в структуру Московского...

Отправить резюме
подробнее
Больше похожих вакансий
Подпишитесь на похожие вакансии

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет:
  • Другое
к поиску вакансий
Популярные специализации
  • Другое
  • Менеджер по продажам
  • Менеджер по работе с клиентами
  • Продавец-консультант
  • Продавец-кассир
  • Администратор
Инструменты соискателя
  • Разместить резюме
  • Найти работу
  • Поиск вакансий
  • Каталог вакансий
  • Соглашение по содействию в трудоустройстве
  • Защита персональных данных
  • Архивный каталог
  • Вакансии по профессиям
  • Поиск по городам
Инструменты работодателя
  • Разместить вакансию
  • Найти сотрудника
  • Поиск резюме
  • Каталог резюме
  • Тарифы
  • Информер с вакансиями
  • Резюме по профессиям
Больше всего ищут
  • Бармен
  • Брокер
  • Водитель такси
  • Корреспондент
  • Охранник
  • Переводчик

© 2007 - 2026 «Карьерист.ру»

  • О нас
  • Обратная связь