Team Lead Data Engineer (Scala)
от 350 000 руб.
Город:
Москва
Занятость:
Полная занятость
Компания "Spice Agency"
Компания – одно из крупнейших Бюро кредитных историй в России. В числе клиентов более 4 миллионов физических лиц, 600 банков, МФО, страховых компаний и операторов сотовой связи.
Что мы делаем?
- Мы храним и обрабатываем кредитные истории более 100 миллионов россиян, уделяя большое внимание не только количеству данных, но и качеству их обработки.
- Предоставляем b2b клиентам данные и аналитику по потенциальным заемщикам, которая помогает им в принятии решения о предоставлении или не предоставлении кредита.
- Даем возможность физ. лицам ознакомиться со своей кредитной историей, получить выгодные предодобренные предложения от банков.
Проект
Мы строим современную платформу больших данных Data Lakehouse на базе Hadoop и GreenPlum. Платформа объединяет в себе мировые технологии загрузки, обработки, распределенных вычислений и хранения данных, а также обеспечивает полный жизненный цикл разработки аналитических продуктов и ML сервисов.
Команда
14 data engineer (команда загрузки данных и команда разработки витрин данных), Team Lead команды разработки витрин данных (вакансия), Team Lead команды загрузки данных, Tech Head of Data, архитектор.
Основными стейкхолдерами команды являются аналитики, DS, владельцы аналитических продуктов.
В составе департамента платформы данных есть еще несколько команд: системные аналитики, 2 data ops (занимаются CI/CD дата-пайплайнов) и команда SRE-инженеров (администрирование Hadoop + Greenplum).
Чем предстоит заниматься
- Управлять командой из 6 DE (распределение и постановка задач, контроль исполнения всех задач команды DE, участие в найме, развитие сотрудников).
- Разрабатывать пайплайны загрузки данных из различных источников (РСУБД, NoSQL, files, streaming, REST API) в Datalake.
- Разрабатывать пайплайны построения витрин данных.
- Разрабатывать структуру хранилища по парадигме Data Vault 2.0.
- Реализовать PoC (MVP) с использованием новых инструментов и технологий.
- Тестировать пайплайны обработки данных.
- Разрабатывать мониторинг работы пайплайнов в продуктивном контуре.
- Оптимизировать процессы хранения и обработки данных с использованием современных технологий и подходов.
- Реализовывать распределенные алгоритмы на больших данных.
- Продукционализировать и оптимизировать признаки для моделей машинного обучения.
- Строить CDC на базе Debezium (источники Oracle, Postgres, Redis).
Что ожидаем от тебя
- Опыт работы на позиции DE от 3х лет.
- Опыт работы на позиции Team Lead DE от 2х лет.
- Опыт разработки на Scala от 1 года.
- Опыт обработки данных с помощью Apache Spark (основной фреймворк платформы), Apache Spark structured streaming, Apache Kafka.
- Экспертные навыки SQL (аналитические функции, оконные функции, триггеры).
- Опыт работы с манипуляцией данными в распределённых файловых хранилищах HDFS, Ceph, S3.
- Опыт работы с экосистемой кластера Hadoop (Yarn, Spark History server).
- Опыт работы с БД: PostgreSQL, Redis, Greenplum.
- Опыт оптимизации Apache Spark задач (понимание работы изнутри, подбор параметров).
- Опыт разработки дагов Apache Airflow (все пайплайны оркестрируются).
Будет плюсом
- Опыт работы с табличным форматом хранения данных Delta lake.
- Опыт работы с Data science в части доставки данных и продукционализации признаков для моделей машинного обучения.
- Опыт построения Data lineage (DataHub), качество данных (Great Expectation).
- Опыт работы с Feast (Feature Store).
Что готовы предложить
- Оформление по ТК РФ: оклад + годовой бонус (10% от годового дохода) – определяется по итогу собеседований.
- Компания входит в реестр аккредитованных ИТ компаний.
- Удаленный формат работы. При желании можно работать в офисе класса А (г. Москва, ст. м. Павелецкая, Шлюзовая набережная).
- График работы 5/2, с 9 до 18 по Московскому времени.
- ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
- Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит - 25 тыс. рублей в год).
- Льготная ипотека (от Сбербанк), в том числе рефинансирование (ставка по ипотеке на 2 пункта ниже).
- Дополнительные дни к ежегодному отпуску (всего 31 день в году).
- Современное оборудование (Lenovo ThinkPad на Windows).
Как мы проводим собеседования
-
15-20 минут - общение с рекрутером (в аудио-формате).
-
60-90 минут - техническое интервью с Team Lead команды загрузки данных и Tech Head of Data (google meet, видео встреча).
-
60 минут - интервью с руководителем направления разработки хранилищ данных (google meet, видео встреча).
-
Проверка документов 1-2 дня (анкета в электронном виде).
-
Оффер, обсуждение даты выхода на работу.
Мы стараемся как можно быстрее принимать решения.
05 Ноября
Lead разработки ЦФТ в команду Импортозамещения банковских платформ
Москва
Компания "Банк ДОМ.РФ" НЕМНОГО О ПРОЕКТЕ: Мы создаем новое ядро: внедряем новую АБС на СУБД Postgres pro (ЦФТ-Банк), которая...
05 Ноября
Москва
Компания "Чиббис" Chibbis.ru — единый сервис доставки готовой еды из ресторанов и кафе. Мы – крупнейший независимый игрок на рынке фудтеха РФ...
05 Ноября
Tech Lead (разработка/внедрение ПО)
Москва
Компания "РБ Текнолоджи" RBtechnologies – аккредитованная ИТ–компания, создана в 2009 году. Входит в RB Data Group . Основная специализация...
05 Ноября
Junior Data Analyst (блок "Сеть Продаж")
Москва
Компания "Сбербанк" Цель нашего проекта – оцифровать клиентский опыт в крупнейшей банкоматной сети Европы с десятками миллионов ежедневных...
05 Ноября
Presale engineer (Middle/Senior)
Москва
Компания "РусБИТех-Астра" Мы Группа Астра – один из лидеров российской IT-индустрии, ведущий производитель программного обеспечения, в том числе...
Вакансия размещена в отрасли