RL+NLP Разработчик

16 Ноября

от 160 000 до 200 000 руб.

Партнерские Вакансии

Город:

Москва

Занятость:

Полная занятость

Компания "МФТИ ГУ"

Обязанности:
  • Разработка и исследование методов асинхронного обучения с подкреплением для улучшения качества reasoning-моделей
  • Эволюция подходов на основе SAC и PPO/GRPO для устойчивого обучения в условиях задержек между стратегиями, устаревших траекторий и разреженных вознаграждений
  • Создание прототипов и проведение экспериментов по curriculum learning для ускорения освоения сложных математических и программных задач
  • Анализ влияния low-bit представлений (FP8, INT8) на устойчивость и качество обучения
  • Разработка исследовательских пайплайнов и участие в создании фреймворка для асинхронного обучения больших моделей
  • Поддержка рабочего кода, регулярная валидация результатов, проведение сравнительных экспериментов.
Требования:
  • Обязательное наличие оконченного высшего технического образования
  • Уверенные знания статистики, дискретных структур, теории алгоритмов, аналитической геометрии
  • Уверенное владение языком Python, а также опыт работы с фреймворком PyTorch
  • Навыки разработки под Linux (Ubuntu) и опыт использование Docker в реальных проектах
  • Опыт применения RL для обучения языковых или reasoning-моделей
  • Понимание архитектуры и механизмов обучения больших языковых моделей
  • Свободное владение техническим английским языком.
Условия:
  • работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех);
  • оформление в соответствии с ТК РФ;
  • возможность бесплатного посещения бассейна и тренажерного зала;
  • в соответствии с ТК РФ работники сферы образования обязаны предоставить справку о наличии (отсутствии) судимости и (или) факта уголовного преследования, срок изготовления которой может быть до 30 дней, просим заранее позаботиться о её получении.
Похожие вакансии

03 Декабря

Middle/senior PHP backend разработчик

Москва

Компания "Тривио" Trivio - онлайн-сервис , который помогает компаниям оптимизировать тревел-расходы, упрощая процесс организации деловых...

Отправить резюме подробнее

30 Ноября

Python разработчик (LLM)( Сбербанк )

Москва

Компания "Сбербанк" Aналитическая платформа высокой нагрузки Мы разрабатываем масштабируемую высоконагруженную платформу для обработки больших...

Отправить резюме подробнее

02 Декабря

Ruby-разработчик( Tele2 )

Москва

Компания "Tele2" Что нужно делать: Принимать участие в модернизации существующего масштабного сервиса по работе с смс-сообщениями....

Отправить резюме подробнее

03 Декабря

Разработчик DWH( МАГНИТ, Розничная сеть )

Москва

Компания "МАГНИТ, Розничная сеть" Представь себе: ты попадаешь в команду, которая буквально строит будущее огромного ритейла — «Магнит»! Мы не...

Отправить резюме подробнее

01 Декабря

Разработчик 1С (эксперт)

Москва

Компания "Компания ПЭК" Обязанности: Участие в проектировании, управлении, развитии и архитектуры ПО на платформе 1С, рефакторинг и...

Отправить резюме подробнее

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет: