NLP engineer (GigaChat Pretrain Data)
13 Мая 2026
Город:
Москва
Занятость:
Полная занятость
Компания "Сбербанк"
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
Обязанности
- генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web
- исследовать токенизацию и ее влияния на качество модели (возможно написание статей)
- решать задачи кластеризации миллиардов документов
- исследовать разные факторы, которыми обладают текстовые данные
- генерировать Vision данные для прокачки VLM
- разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели
- исследовать зависимости между pretrain данными и agentic capabilities итоговой модели
- разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.
Требования
- имеешь коммерческий релевантный опыт связанный с NLP или построением инфраструктуры для данных от двух лет.
Будет плюсом
- навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
- опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
- инструментальное владение AI для анализа, генерации и автоматизации.
- диплом ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ школы прикладной математики и информатики и/или есть опыт с MapReduce системами, например, YT.
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- льготная программа ипотеки для сотрудников
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
13 Мая
Senior Data Engineer / ML Engineer (GigaChat)
Москва
Компания "Сбербанк" Наша команда отвечает за качество моделей Text-to-speech в GigaChat – той части нейросети, которая занимается звуком....
13 Мая
Москва
Компания "Сбербанк" Дирекция SberF1 – служба, которая помогает сотрудникам решать сложные проблемы технологического окружения, которые носят...
13 Мая
Data engineer (Риски розничного бизнеса)( Сбербанк )
Москва
Компания "Сбербанк" Мы команда, которая управляет риском в портфеле потребительских кредитов, и сейчас мы ищем сильного data-инженера, который...
13 Мая
Middle CV Engineer (команда CV)( Сбербанк )
Москва
Компания "Сбербанк" Мы занимаемся разработкой и внедрением CV-моделей в бизнес-процессы банка. В числе наших успешных проектов - мобильные и...
13 Мая
Москва
Компания "Сбербанк" Мы ищем опытного специалиста по работе с искусственным интеллектом и машинному обучению, готовых решать амбициозные задачи в...
Вакансия размещена в отрасли