Middle Data Analyst (команда Foundation Model)
22 Декабря 2025
Город:
Москва
Занятость:
Полная занятость
Компания "Сбербанк"
Наша команда занимается внедрением нейронных сетей в бизнес-процессы банка. Мы строим не только SOTA алгоритмы, но и активно «приземляем» наши исследования, растим бизнес и клиентский опыт, исследуем новые источники данных и подходы к моделированию на них. Тебе предстоит влиться в команду, занимающуюся внедрением больших нейронных сетей в различные бизнес-вертикали Банка. У нас есть много железа, еще больше данных, крутая команда и много амбициозных задач.
Обязанности
- Обработка и анализ больших данных в PySpark: загрузка, фильтрация, агрегации, джойны, обогащение данных
- Разработка и поддержка витрин и дата-сетов в PySpark для продуктовых задач и моделей (фичи, агрегаты, исторические срезы)
- Проверка качества данных в кластере: поиск дубликатов, пропусков, аномальных значений, согласование логики с владельцами систем
- Исследование данных на основе существующих витрин: расчет метрик, поиск закономерностей, формулировка простых эвристик и аналитических правил
- Подготовка наборов признаков для дата саентистов и участие в обсуждении постановки задач для ML моделей
- Взаимодействие с бизнес-заказчиками: уточнение требований к витринам/отчетам, совместное определение метрик, объяснение ограничений данных и результатов анализов.
Требования
- Практический опыт регулярной работы с PySparkDataFrame API (select, filter, withColumn, groupBy/agg, join)
- Базовое понимание ленивых вычислений и разницы между трансформациями и действиями
- Уверенный SQL: сложные JOIN ы, оконные функции, подзапросы для агрегаций и выборки последних/первых записей
- Опыт построения витрин/пайплайнов в PySpark (batch-процессы, обновление витрин, работа с большим объёмом данных)
- Понимание принципов работы Spark кластера на базовом уровне (драйвер, executors, партиционирование данных, влияние этого на производительность)
- Опыт взаимодействия с продуктом/бизнесом: формулирование аналитических задач, определение метрик, поддержка решений цифрами.
Будет плюсом:
- Опыт оптимизации PySpark задач: работа с партициями, broadcast join, минимизация shuffle операций
- Понимание, как устроен полный путь данных: от сырого слоя до витрин для ML
- Опыт в финансовой/банковской сфере или других высоконагруженных продуктах.
Условия
- Комфортный современный офис в Москве
- Формат работы - возможен гибрид после испытательного срока
- Ежегодный пересмотр зарплаты, годовая премия
- Корпоративный спортзал и зоны отдыха
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- Вознаграждение за рекомендацию друзей в команду Сбера.
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
11 Декабря
Младший бизнес-аналитик / Junior business analyst (strategic marketing)
Москва
Компания "Р-Фарм" Мы ищем младшего бизнес-аналитика для поддержки ключевых направлений бизнеса. В задачи сотрудника будет входить анализ данных...
11 Декабря
Senior LLM researcher (R&D команда Рисков)
Москва
Компания "Сбербанк" Мы используем всю мощь современных технологий ИИ для максимизации прибыли и улучшения клиентского опыта. У нас ты будешь...
12 Декабря
Москва
Компания "Корпоративный университет Сбербанка" В продуктовую команду внедрения и развития искусственного интеллекта в сфере EdTech в СБЕРе ищем...
13 Декабря
Senior Data Scientist (ЦУНДО)( Сбербанк )
Москва
Компания "Сбербанк" Ищем Senior Data Scientist в команду Центра управления наличным денежным обращением (ЦУНДО) для ведения направления по...
13 Декабря
Data Scientist (Забота о клиентах)
Москва
Компания "Сбербанк" ИТ B2C — самая крупная экосистема в Сбере. Нас более 8000 человек в 18 городах России. Мы занимаемся разработкой и...
Вакансия размещена в отрасли