Senior MLOps Engineer (ONSITE Dubai)
Город:
Москва
Занятость:
Полная занятость
Компания "Неофлекс"
ONSITE позиция в Дубае (4 дня в неделю — работа из офиса)
Английский — B2 или выше
Задачи:
- Проектировать и оптимизировать пайплайны инференса AI, обеспечивая низкую задержку и высокую пропускную способность сервинга моделей для корпоративных приложений.
- Создавать и поддерживать масштабируемую AI‑инфраструктуру для эффективной поддержки сложных, крупномасштабных нагрузок.
- Обеспечивать надежное развертывание и эксплуатацию высокопроизводительных фреймворков сервинга моделей AI в разных средах.
- Обеспечивать эффективное использование GPU и экономичное выполнение AI‑нагрузок.
- Выстроить комплексный мониторинг и наблюдаемость для стабильной производительности инференса моделей.
- Соблюдать требования корпоративной безопасности, принципы governance и лучшие практики MLOps на всем протяжении жизненного цикла поставки AI‑решений.
Основные требования:
- Степень бакалавра или эквивалент.
- 7+ лет совокупного инженерного или операционного опыта.
- Не менее 5 лет релевантного опыта в аналогичной роли.
- Опыт работы в крупных и сложных глобальных предприятиях с высокой доступностью, высокими транзакционными нагрузками и географической распределеностью.
Ключевые знания и навыки:
- Инференс глубинного обучения: экспертиза в TensorRT, vLLM, Triton, FasterTransformer
- Оптимизация моделей: опыт с ONNX, GGUF, квантованием (FP16, INT8, FP8).
- Распределенные системы: опыт с NCCL, MPI, InfiniBand, RDMA и мультиузловыми GPU‑нагрузками
- Масштабируемый AI serving: практический опыт с Triton Inference Server, vLLM, TensorFlow Serving
- Профилирование и отладка: знакомство с nvidia-smi, Nsight, nvprof, TensorRT Profiler
- Управление GPU в Cloud и On‑Prem: опыт с Kubernetes (K8s), OpenShift, планированием GPU (Kubeflow, Ray, KServe).
- Понимание векторных баз данных и их применения в аналитике и AI‑нагрузках
- Уверенное владение Python, Scala и SQL
- Опыт совместной работы над программными проектами и управления архитектурой таких проектов
- Продвинутые навыки работы в среде Linux
Будет преимуществом:
- GPU‑программирование: знание CUDA, cuDNN, NCCL, Tensor Cores для оптимизации инференса
- Speculative Decoding и FlashAttention для инференса LLM
- Опыт оптимизации потоковой передачи токенов для чат‑приложений
- Опыт работы с векторными базами данных (Qdrant, Milvus) для RAG‑нагрузок
Преимущества:
- Возможность работать с передовыми технологиями в высокоинновационной среде
- Динамичная и дружелюбная рабочая атмосфера
- Помощь компании с расходами на релокацию
- Медицинская страховка
29 Декабря
Стажер (Data Engineer)( X5 Tech )
Москва
Компания "X5 Tech" X5 Group — российская розничная торговая компания, управляющая продуктовыми торговыми сетями «Пятёрочка», «Перекрёсток» и...
30 Декабря
Senior Разработчик C++ (Linux)
Москва
Компания "Система Безопасных Коммуникаций" Чем предстоит заниматься: Поддерживать существующую кодовую базу Разрабатывать новые функции...
30 Декабря
Москва
Компания "«UZUM TECHNOLOGIES»." Uzum — это новая уникальная компания в Узбекистане, которая развивает экосистему цифровых сервисов для...
29 Декабря
Москва
Компания "Staff-UP Consulting Group" В команду международной трейдинговой компании, которая является лидером в сфере криптоторговли требуется...
29 Декабря
DevOps Engineer / Site Reliability Engineer (SRE)
Москва
Компания "Kameleoon" О нас Мы - международная IT-компания с офисами в Париже, США и Германии. Наш продукт - платформа для персонализации и...
Вакансия размещена в отрасли