Big Data Engineer (NRT/Spark) (в архиве)

28 Апреля

Город:

Москва

Занятость:

Полная занятость

Компания "Яндекс"

Описание проекта

Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов.

Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти.

Ключевые продукты Финтеха Яндекса: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, Кредитные продукты, Яндекс ID, Яндекс Про и многое другое

Это сложная инженерная и аналитическая среда, где пересекаются хайлоад, большие данные и жёсткие требования регуляторов.

Здесь ты столкнёшься с:

Высокими нагрузками: Миллионы транзакций, таблицы с объёмом далеко за 1 млн записей
Распределёнными данными: Используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации
Архитектурой DWH: Строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы
Безопасностью и интеграцией: Проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системам

В команду платформенных данных требуется специалист по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основная задача - развитие платформы для обработки NRT- данных (near real time), повышение отказоуйсточивости и производительности потоковых процессов.

Какие задачи вас ждут:

Проектирование и развитие облачной data-платформы
Оптимизация текущей инфраструктуры и проектирование новых компонентов платформы с использованием облачных технологий Yandex Cloud. Готовимся к кратному росту объемов обрабатываемых данных.
Миграция с GreenPlum на Trino / S3
Переход с дорогостоящего в поддержке и эксплуатации Greenplum на доступ к данным в S3 через Trino. Используем современные технологии для быстрого доступа к данным в основном хранилище.
Построение единой observability-платформы для таблиц DWH
Создание единой точки входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования. Обеспечиваем наблюдаемость и контролируемость процессов.
Ускорение текущих процессов поставки данных
Оптимизация существующих и построение новых надежных процессов поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрение Spark Streaming или аналогичных решений для обеспечения near-real-time обновления данных. Ускоряем обработку растущих потоков данных.
Автоматизация ручных процессов
Построение CI/CD пайплайнов для автоматизации процессов развертывания инфраструктуры, построения новых интеграций. Отадем рутину автоматике.
Повышение безопасности доступа к данным
Выстраивание процессов автоматической выдачи и контроля доступов во всех системах, включая доступ к инфраструктуре, данным и аудит действий пользователей. Обеспечиваем безопасный и контролируемый доступ к банковским данным.
Построение тестовых окружений
Создание изолированных сред разработки, тестирования и предпрод с автоматизированными процессами тестирования. Выстраиваем среду безопасной разработки и повышаем надежность разрабатываемых решений
Развитие фреймворков обработки данных
Развитие внутренних фреймворков для загрузки, трансформации и контроля качества данных. Делаем low-code решения для ускорения разработки.

Ключевые требования

Опыт коммерческой разработки от 4 лет
Глубокое понимание устройства БД: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы
Владение разными типами СУБД: PostgreSQL, Oracle, MongoDB, Greenplum
Реальный опыт с CDC (Change Data Capture) — понимание принципов и умение реализовывать пайплайны
Уверенная работа с S3-совместимыми хранилищами

Стек для ежедневных задач:

Языки: Python (основной для разработки пайплайнов и скриптов)
Оркестрация: Apache Airflow (разработка пайплайнов)
Обработка данных: Apache Spark (Spark SQL, DataFrame)
Запросы: Trino (работа с данными через движок)

Похожие вакансии

30 Мая

Senior MLOps Engineer( Страховая компания «Сбербанк страхование» )

Москва

Компания "Страховая компания «Сбербанк страхование»" Команда Сбербанк Страхования поиске MLOps-инженера, который будет отвечать за создание и...

Отправить резюме подробнее

30 Мая

Ведущий инженер по прикладному ИИ (Senior Applied AI Engineer)

Москва

Компания "Star-staff" Мы ищем ведущего специалиста по прикладному ИИ , который будет создавать промышленные AI‑системы для обработки документов...

Отправить резюме подробнее

30 Мая

Middle DevOps Engineer

Москва

Компания "ЛОКО-БАНК" Обязанности: Поддержка и развитие CI/CD пайплайнов в GitLab CI; Управление конфигурациями и оркестрацией...

Отправить резюме подробнее

30 Мая

Lead Backend Engineer / System Architect (Highload / Distributed Systems)

Москва

от 400 000 до 500 000 руб.

Компания "Red Pill Studio" О проекте: Мы развиваем распределённую систему сбора и обработки данных с высокой нагрузкой. Это инженерно...

Отправить резюме подробнее

30 Мая

Senior Android Security / Reverse Engineer (HTTPS Traffic, Google Services)

Москва

от 380 000 до 500 000 руб.

Компания "Red Pill Studio" Ищем сильного синьор инженера, который умеет «разговаривать» с Android-приложениями на уровне трафика, протоколов и...

Отправить резюме подробнее

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет: