NLP Engineer (Reinforcement Learning)

09 Февраля

Партнерские Вакансии

Город:

Москва

Занятость:

Полная занятость

Компания "Сбербанк"

GigaChat Reasoning — команда, которая даёт модели суперсилу размышлять. Мы придумываем среды, тренируем через online RL, ускоряем обучение и доводим решения до продакшна.

Направления:

  • улучшение GigaChat Reasoning: полный цикл обучения от холодного старта до вывода модели продакшн. Добавление новых доменов, создание датасетов и функций оценки ответов
  • развитие агентских навыков и tool calling с помощью Online RL: создание сред для обучения LLM, обучение и тестирование моделей
  • улучшение продукта Deep Research.

На эти роли мы ищем NLP инженера со знанием и опытом в Reinforcement Learning. Для всех экспериментов у нас есть кластер с большим числом A/H 100'ых.

Задачи:

  • улучшать качество работы GigaChat Reasoning на русском и английском языках
  • ускорять пайплайн обучения: профилирование узких мест, эффективный сэмплинг
  • тестировать новые Loss-функции и подходы к обучению
  • помогать выводить в прод всё, что мы обучим
  • постоянно держаться up-to-date со свежими статьями.

Для нас важно:

  • опыт в online RL и хорошие теоретические знания
  • уверенное владение Python, PyTorch
  • знание базовых алгоритмов и математики
  • знания в DL, опыт обучения простых и больших моделей
  • опыт обучения моделей для продакшена
  • понимание текущего состояния эволюции больших LLM'ов.

Будет плюсом:

  • наличие публикаций.

Мы предлагаем:

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность выбрать удобный формат работы: гибрид, офис, удаленно по РФ
  • комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.
Похожие вакансии

18 Февраля

Senior Data Engineer [Trust & Safety]

Москва

Компания "WILDBERRIES" Объединённая компания Wildberries и Russ — это международная технологическая компания, образованная в результате...

Отправить резюме подробнее

18 Февраля

Senior Data Engineer (Python)

Москва

от 350 000 до 380 000 руб.

Компания "ArtVolkov.ru" Мы усиливаем Data Team и ищем еще одного Data Engineer’а. Сейчас в команде несколько человек, и пара инженеров...

Отправить резюме подробнее

18 Февраля

Automation QA engineer (Python)( WILDBERRIES )

Москва

Компания "WILDBERRIES" Объединённая компания Wildberries и Russ — это международная технологическая компания, образованная в результате...

Отправить резюме подробнее

18 Февраля

QA Automation Engineer Java (junior)

Москва

Компания "Ростелеком" RDP - ведущий российский производитель сетевых решений, входит в ГК Ростелеком. Мы специализируемся на разработке...

Отправить резюме подробнее

19 Февраля

Инженер по автоматизации тестирования/QA automation engineer

Москва

Компания "LADA Цифра" Привет! LADA Цифра - уникальный микс талантливых людей, которые приняли вызов создать цифровое будущее в...

Отправить резюме подробнее

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет: