Data Engineer (Kandinsky)( Сбербанк )
09 Апреля 2026
Город:
Москва
Занятость:
Полная занятость
Компания "Сбербанк"
Ищем талантливых специалистов в команду Управления базовых моделей Kandinsky.
Kandinsky — линейка моделей для генерации изображений и видео по текстовому описанию. Наша команда занимается обучением и развитием модели, аналитикой и построением метрик её работы, специализируется на создании инновационных решений в области искусственного интеллекта и нейросетей. Мы разрабатываем модели, направленные на улучшение взаимодействия между человеком и AI, автоматизацию процессов анализа больших объемов данных, распознавание изображений и обработку естественного языка, а также создание креативных инструментов для автоматической генерации визуального контента высокого уровня.
Обязанности
- проектирование и разработка ETL/ELT-пайплайнов для обработки изображений и видеоданных, как в экосистеме Apache Airflow, так и в формате автономных Python-скриптов.
- автоматизация процессов загрузки, предобработки и анализа данных: загрузка изображений и видео, обработка полученных данных, определение технических артефактов (например, наличие чёрных полос), трансформация и подготовка данных под требуемые форматы.
- проектирование и поддержка высоконагруженных пайплайнов с возможностью масштабирования на распределённую обработку.
- разработка высоконагруженных процессов нарезки, сжатия и конвертации видеофайлов крупного размера с использованием оптимизированных инструментов (ffmpeg, multiprocessing, async-подходы)
- реализация механизмов отслеживания состояния и истории данных: учёт уже обработанных файлов, планирование задач по догрузке, ведение служебных таблиц
- поддержка платформы данных: создание и оптимизация DDL/DML-скриптов, настройка таблиц под аналитические и операционные нагрузки
- подготовка датасетов по требованиям внутренних и внешних заказчиков, обеспечение качества и полноты данных
- поддержка CI/CD-процессов и стандартизация кодовой базы в соответствии с инженерными практиками и паттернами проектирования.
Требования
- уверенный практический опыт разработки ETL-процессов с использованием Apache Airflow либо аналогичных систем оркестрации
- опыт работы с S3 или совместимыми объектными хранилищами, понимание структуры и принципов организации data-lake
- понимание принципов распределённой обработки данных и работы PySpark
- уверенные навыки разработки на Python, включая использование асинхронных инструментов, многопроцессной обработки, работы с большими файлами и медиа-данными
- опыт написания Bash-скриптов для автоматизации рутинных процессов.
- глубокое понимание принципов проектирования чистой архитектуры, шаблонов проектирования и построения легко-поддерживаемых модульных систем
- опыт работы с PostgreSQL и ClickHouse, навыки написания оптимизированных запросов и проектирования таблиц
- опыт работы с Docker и Kubernetes, понимание контейнеризации пайплайнов данных.
Условия
- конкурентный уровень заработной платы, годовые премии по результатам работы
- участие в развитии и создании OpenSource продуктов
- корпоративная пенсионная программа, страхование от несчастных случаев, социальные гарантии, ДМС
- комфортный офис Sbergile Home (метро Кутузовская).
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
09 Апреля
QA Automation Engineer( ИЦ АЙ-ТЕКО )
Москва
Компания "ИЦ АЙ-ТЕКО" Компания « АЙ-ТЕКО» — ведущий российский системный интегратор и поставщик информационных технологий для корпоративных...
09 Апреля
Москва
Компания "Спортлевел" Привет, мы Спортлевел! IT компания в области SportTech, мы разрабатываем и предоставляем передовые спортивные технологии...
09 Апреля
Application Security Engineer в команду путешествий( Туту.ру )
Москва
Компания "Туту.ру" Привет! Туту — крупнейший в России сервис для путешествий, которым каждый месяц пользуются миллионы людей. У нас есть...
09 Апреля
QA Engineer / Тестировщик( РусБИТех-Астра )
Москва
Компания "РусБИТех-Астра" Tantor Labs — передовая технологическая компания, занимающаяся разработкой систем хранения, анализа и обработки...
09 Апреля
Senior Data Scientist( Группа компаний С7 )
Москва
Компания "Группа компаний С7" S7 TechLab – IT компания, реализующая инновационные IT продукты для подразделений группы компаний S7. Собственная...
Вакансия размещена в отрасли