Дата-сайентист (Data Collection Engineer, Web Scraping / Automation)
05 Марта 2026
от 100 000 руб.
Город:
Москва
Занятость:
Частичная занятость
Компания "Российский Фонд Образовательных Программ Экономика и управление"
О проекте
Мы создаём B2B data-платформу для глубокой аналитики компаний. Наш продукт агрегирует данные из сотен открытых источников и преобразует их в ценные бизнес-сигналы: найм ключевых сотрудников, смена технологического стека, инвестиционные раунды, запуск новых продуктов и другие триггеры роста.
Наша цель — предоставлять Sales-командам, инвесторам и аналитикам инструмент для мгновенного выявления перспективных компаний на стадии активного роста.
Чем предстоит заниматься:
-
Проектирование и разработка пайплайнов для сбора данных о компаниях.
-
Настройка парсинга (web-scraping) сайтов, каталогов и публичных реестров.
-
Интеграция данных через внешние API.
-
Очистка, нормализация и структурирование необработанных данных.
-
Дедупликация компаний и умное объединение записей из множества источников.
-
Автоматизация процессов регулярного обновления данных.
-
Подготовка структурированных датасетов для аналитики и машинного обучения.
Источники данных
В работе мы используем открытые данные:
-
Корпоративные сайты и лендинги
-
Страницы вакансий и карьерные порталы
-
Бизнес-каталоги и маркетплейсы
-
Стартап-базы (Crunchbase, AngelList и др.)
-
Технологические данные сайтов (Wappalyzer, BuiltWith)
-
Публичные реестры юридических лиц
Ключевые требования:
-
Уверенный опыт веб-парсинга (Web Scraping) любой сложности.
-
Глубокое знание Python и стека инструментов: requests, Scrapy, Playwright/Selenium.
-
Опыт интеграции и работы с REST API / GraphQL.
-
Понимание устройства реляционных и NoSQL баз данных.
-
Знание принципов построения надежных Data Pipelines (ETL/ELT).
Будет большим плюсом:
-
Опыт OSINT / Data Research (поиск и верификация данных).
-
Навыки работы с B2B-данными (понимание структуры юрлиц, холдингов, ИНН и т.д.).
-
Опыт автоматизации пайплайнов (Apache Airflow, Luigi или аналоги).
Условия работы:
-
Полная удаленка (Remote).
-
Проектная занятость с возможностью перехода в долгосрочное сотрудничество.
-
Гибкий график: мы ориентируемся на результат, а не на часы в кресле.
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
11 Марта
System Level Simulator Engineer( КНС ГРУПП )
Москва
Компания "КНС ГРУПП" Мы ищем вдохновлённого инженера в команду алгоритмов и моделирования. В ваши обязанности будет входить поддержка,...
11 Марта
Machine Learning Engineer / ML-инженер
Москва
Компания "dentsu" Привет! Мы – команда R&D Digital в лидирующем российском рекламном холдинге Okkam. Наша задача - разрабатывать продукты,...
11 Марта
Data Engineer / SAP HANA Developer
Москва
от 260 000 до 350 000 руб.
Компания "А17" ЛИАН — системный интегратор с фокусом в аналитике и управлении данными. Мы работаем в трех направлениях: 1....
11 Марта
Lead iOS Engineer / Chapter Lead iOS (Трайб Digital)( ОТП Банк, АО (OTP bank) )
Москва
Компания "ОТП Банк, АО (OTP bank)" Мы ищем Lead iOS Engineer / Chapter Lead, который будет отвечать за технологическое развитие iOS-платформы...
11 Марта
Аналитик ML моделей / Data Engineer (middle)
Москва
Компания "Банк ВТБ (ПАО)" Обязанности: разработка и настройка механизмов для автоматизированного сбора данных для целей контроля моделей...
Вакансия размещена в отрасли