Компания "HeadHunter"
Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.
Обязанности:
Разработка и оптимизация инфраструктуры инференса LLM‑моделей.
Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов
Помощь в capacity-планировании командам-заказчикам
Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM).
Ключевые знания и навыки:
Будет преимуществом:
Что предлагаем мы:
16 Марта
Москва
до 150 000 руб.
Компания "Серверные Технологии" Обязанности: Разрабатывать и поддерживать качественные UI‑компоненты Разрабатывать AI‑интерфейсы...
16 Марта
Москва
от 200 000 до 350 000 руб.
Компания "GreenCore" GreenCore — современная IT-компания, которая создаёт и развивает цифровые решения для бизнеса. Мы работаем на стыке...
17 Марта
Middle/Senior DevOps Engineer [МТС Веб Сервисы]
Москва
Компания "МТС" МТС Web Services (MWS) — бигтех-компания, предоставляющая облачные, AI-сервисы и платформенные решения под разные задачи бизнеса:...
17 Марта
Москва
Компания "Сбербанк" Дивизион корпоративного блока Сбербанка, отвечающий за все виды удаленного обслуживания юридических лиц. Мы объединяем...
17 Марта
Computer Vision Engineer Python/C++( Московский метрополитен )
Москва
Компания "Московский метрополитен" Вакансия открыта в Инновационном центре «Безопасный транспорт», который входит в структуру Московского...
Вакансия размещена в отрасли