Data scientist (NLP)
03 Ноября 2024
Город:
Москва
Занятость:
Полная занятость
Компания "Платформа ОФД"
Платформа ОФД - продуктовая IT- компания, крупнейший в России оператор фискальных данных. № 1 в рейтинге ОФД по данным CNews, резидент Сколково.
Мы анализируем рынок российского ритейла на данных из чеков в режиме реального времени. Ежедневно мы обрабатываем 60 млн кассовых чеков - каждый 3-й чек, пробиваемый в России. В нашей базе 2 млрд уникальных названий товаров.
Мы предлагаем условия:
- Комфортный офис с relax зоной близко от м. Спортивная / МЦК Лужники
- График работы гибридный: офис 1-2 раза в неделю. Гибкое время начала рабочего дня
- Трудоустройство по ТК РФ, белая заработная плата
- ДМС, включая госпитализацию, скорую и стоматологию
- Насыщенную корпоративную жизнь
- Обучение и семинары за счет компании
- Скидки от партнеров, льготная ипотека от Сбера
Наша команда DS занимаются следующим:
- Классические задачи: классификация/тематическое моделирование, NER, NEL, задачи поиска. Все не так просто, так как объемы большие, данные сильно вариативны
- Нестандартные задачи: кластеризация / “как объединить
магазины в полигоны по три, используя нечеткий спуск по графу” / “как отсортировать данные, чтобы ускорить разметку” / “как мэтчить млрд-ы id-шников по timestamp и total_sum”
Почему у нас может быть интересно/полезно?
• Cовременный стек, можно много чему научиться
Четко сформулированные задачи и метрики оценивания моделей
• Развитая инфраструктура: есть несколько кластеров Hadoop, у DS есть
несколько мощных машин, GPU делают бр-бр
• Некоторые задачи, действительно крутые, например, мы обучаем LLM-ы и всегда держим нос по ветру в плане SOTA
(у нас хватает и данных, и ресурсов, т.к тексты короткие)
• Нужно делать мало sql и немного уметь в Spark (или очень хотеть научиться)
Стек, который мы используем:
linux, git, bash
(DS стек): jupyterhub, python, стандартный python стек (pandas, numpy, sklearn, matplolib, …), fasttext, torch, HuggingFace, transformers, BERT, LLM, MlFlow, Hadoop, Spark, Hive, Zeppelin/IntelliJ, AirFlow
Откликайся, если ты:
- Работаешь в качестве DS от года
- Знаешь Python и части DS стека
- Пишешь красивый код
- Понимаешь, как устроены модели
- Имеешь в/о
Будет плюсом, если ты:
- работаешь в DL и умеешь читать статьи
- имеешь опыт в классическом машинном обучении и практический опыт решения задач NLP
- знаешь, как работать в Zeppelin
- умеешь в Spark или очень хочешь научиться
Как проходит найм:
- Техническое интервью с TL команды DS
- Опционально: тестовое задание на дом или live coding во время тех.интервью
- Уровень дохода готовы обсуждать с успешными кандидатами
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
05 Ноября
Junior Data Analyst (блок "Сеть Продаж")
Москва
Компания "Сбербанк" Цель нашего проекта – оцифровать клиентский опыт в крупнейшей банкоматной сети Европы с десятками миллионов ежедневных...
05 Ноября
Дата-аналитик / Data Analyst( JLL )
Москва
Компания "JLL" IBC Real Estate – лидирующая компания на рынке профессиональных услуг в сфере недвижимости. Компания работает в России и странах...
05 Ноября
Москва
Компания "Lamoda tech" Мы в поиске System Analyst в направление больших данных , который будет участвовать в значимых для...
05 Ноября
Москва
от 300 000 до 510 000 руб.
Компания "HR Prime" Обязанности: Использование Apache Airflow, для автоматизации и оркестрации ETL процессов. Обработка и интеграция...
06 Ноября
Data engineer [Task Mining]( МТС )
Москва
Компания "МТС" МТС Digital — единый центр технологического развития экосистемы МТС. У нас работает больше 8000 сотрудников по 18 направлениям...
Вакансия размещена в отрасли