Team Lead Data Engineer (Scala)

от 350 000 руб.

Spice Agency

Город:

Москва

Занятость:

Полная занятость

Компания "Spice Agency"

Компания – одно из крупнейших Бюро кредитных историй в России. В числе клиентов более 4 миллионов физических лиц, 600 банков, МФО, страховых компаний и операторов сотовой связи.

Что мы делаем?

Мы храним и обрабатываем кредитные истории более 100 миллионов россиян, уделяя большое внимание не только количеству данных, но и качеству их обработки.
Предоставляем b2b клиентам данные и аналитику по потенциальным заемщикам, которая помогает им в принятии решения о предоставлении или не предоставлении кредита.
Даем возможность физ. лицам ознакомиться со своей кредитной историей, получить выгодные предодобренные предложения от банков.

Проект

Мы строим современную платформу больших данных Data Lakehouse на базе Hadoop и GreenPlum. Платформа объединяет в себе мировые технологии загрузки, обработки, распределенных вычислений и хранения данных, а также обеспечивает полный жизненный цикл разработки аналитических продуктов и ML сервисов.

Команда

14 data engineer (команда загрузки данных и команда разработки витрин данных), Team Lead команды разработки витрин данных (вакансия), Team Lead команды загрузки данных, Tech Head of Data, архитектор.

Основными стейкхолдерами команды являются аналитики, DS, владельцы аналитических продуктов.

В составе департамента платформы данных есть еще несколько команд: системные аналитики, 2 data ops (занимаются CI/CD дата-пайплайнов) и команда SRE-инженеров (администрирование Hadoop + Greenplum).

Чем предстоит заниматься

Управлять командой из 6 DE (распределение и постановка задач, контроль исполнения всех задач команды DE, участие в найме, развитие сотрудников).
Разрабатывать пайплайны загрузки данных из различных источников (РСУБД, NoSQL, files, streaming, REST API) в Datalake.
Разрабатывать пайплайны построения витрин данных.
Разрабатывать структуру хранилища по парадигме Data Vault 2.0.
Реализовать PoC (MVP) с использованием новых инструментов и технологий.
Тестировать пайплайны обработки данных.
Разрабатывать мониторинг работы пайплайнов в продуктивном контуре.
Оптимизировать процессы хранения и обработки данных с использованием современных технологий и подходов.
Реализовывать распределенные алгоритмы на больших данных.
Продукционализировать и оптимизировать признаки для моделей машинного обучения.
Строить CDC на базе Debezium (источники Oracle, Postgres, Redis).

Что ожидаем от тебя

Опыт работы на позиции DE от 3х лет.
Опыт работы на позиции Team Lead DE от 2х лет.
Опыт разработки на Scala от 1 года.
Опыт обработки данных с помощью Apache Spark (основной фреймворк платформы), Apache Spark structured streaming, Apache Kafka.
Экспертные навыки SQL (аналитические функции, оконные функции, триггеры).
Опыт работы с манипуляцией данными в распределённых файловых хранилищах HDFS, Ceph, S3.
Опыт работы с экосистемой кластера Hadoop (Yarn, Spark History server).
Опыт работы с БД: PostgreSQL, Redis, Greenplum.
Опыт оптимизации Apache Spark задач (понимание работы изнутри, подбор параметров).
Опыт разработки дагов Apache Airflow (все пайплайны оркестрируются).

Будет плюсом

Опыт работы с табличным форматом хранения данных Delta lake.
Опыт работы с Data science в части доставки данных и продукционализации признаков для моделей машинного обучения.
Опыт построения Data lineage (DataHub), качество данных (Great Expectation).
Опыт работы с Feast (Feature Store).

Что готовы предложить

Оформление по ТК РФ: оклад + годовой бонус (10% от годового дохода) – определяется по итогу собеседований.
Компания входит в реестр аккредитованных ИТ компаний.
Удаленный формат работы. При желании можно работать в офисе класса А (г. Москва, ст. м. Павелецкая, Шлюзовая набережная).
График работы 5/2, с 9 до 18 по Московскому времени.
ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит - 25 тыс. рублей в год).
Льготная ипотека (от Сбербанк), в том числе рефинансирование (ставка по ипотеке на 2 пункта ниже).
Дополнительные дни к ежегодному отпуску (всего 31 день в году).
Современное оборудование (Lenovo ThinkPad на Windows).

Как мы проводим собеседования

15-20 минут - общение с рекрутером (в аудио-формате).
60-90 минут - техническое интервью с Team Lead команды загрузки данных и Tech Head of Data (google meet, видео встреча).
60 минут - интервью с руководителем направления разработки хранилищ данных (google meet, видео встреча).
Проверка документов 1-2 дня (анкета в электронном виде).
Оффер, обсуждение даты выхода на работу.

Мы стараемся как можно быстрее принимать решения.

Похожие вакансии

05 Ноября

Lead разработки ЦФТ в команду Импортозамещения банковских платформ

Москва

Компания "Банк ДОМ.РФ" НЕМНОГО О ПРОЕКТЕ: Мы создаем новое ядро: внедряем новую АБС на СУБД Postgres pro (ЦФТ-Банк), которая...

Отправить резюме

подробнее

05 Ноября

Manual QA engineer (Удалённо)

Москва

Компания "Чиббис" Chibbis.ru — единый сервис доставки готовой еды из ресторанов и кафе. Мы – крупнейший независимый игрок на рынке фудтеха РФ...