Data Scientist в ML-сервисы Yandex Cloud

29 Марта

Город:

Москва

Занятость:

Полная занятость

Компания "Яндекс"

Наша команда разрабатывает ML-сервисы Yandex SpeechKit, OCR и Vision, Translate, YandexGPT, Alice AI и инструменты, которые помогают специалистам по Data Science обучать нейросетевые модели на десятках терабайт данных и сотнях GPU, контролировать эксплуатацию этих моделей в облаке и в контуре клиента.

Помимо этих базовых ML-технологий, мы сами разрабатываем и продукты поверх них. Например, Realtime API (для speech-to-speech голосовых помощников), AI Search (платформу для построения раг-решений), SpeechSense (платформу речевой аналитики).

Мы ищем специалиста по Data Science и аналитике.

Какие задачи вас ждут:

Анализировать пользовательский опыт и строить метрики и процессы оценки качества ML-сервисов и продуктов

Чтобы улучшать качество наших моделей и продуктов, понимать их сильные и слабые места и приоритизировать планы разработки новой функциональности, необходима качественная и количественная аналитика. Без метрик и приборов, которые покажут, куда необходимо двигаться, жить нельзя — и вы поможете нам строить такие приборы и процессы их регулярного обновления.

Строить процессы разметки данных для обучения ML-моделей

Один из ключевых факторов, влияющих на качество ML-моделей, — это данные для обучения. Вы будете разрабатывать процессы сбора и разметки данных, оценивать и улучшать качество процессов. Примеры задач: разметка данных для распознавания речи на узбекском языке; сбор обучающих данных для задач текстовой классификации.

Помогать проверять продуктовые гипотезы

Мы не только разрабатываем модели, но и помогаем внедрять их в продукты. При внедрении возникает множество гипотез о том, что и как можно сделать с помощью моделей. Для проверки гипотез часто требуется разработать и проанализировать прототип, выбрать лучший вариант решения задачи. Вы поможете менеджерам продукта и разработчикам строить прототипы и изучать варианты технических решений. Пример задачи: анализ разных алгоритмов кластеризации текстов на основе GPT.

Мы ждем, что вы:

Пишете на Python
Хорошо знаете статистику
Разбираетесь в современных методах ML и NLP
Обрабатывали и анализировали большие объёмы данных с помощью pandas, SQL, статистических пакетов, библиотек для визуализации данных, Spark SQL, Spark, Hadoop
Работали с системами контроля версий, например с Git

Будет плюсом, если вы:

Работали с DataLens
Работали с краудсорсингом (Яндекс Толокой, Яндекс Заданиями)

Открыть контакты работодателя на полной версии сайта

ОТПРАВИТЬ РЕЗЮМЕ

Похожие вакансии

24 Марта

Разработчик сервиса агрегации LTE (General Components)

Москва

Компания "SberAutoTech" О команде: Софт автономного автомобиля - это большое число сложно взаимодействующих компонентов, ограниченных...

Отправить резюме подробнее

25 Марта

Data Scientist (Deep Learning / RecSys)

Москва

Компания "Lamoda tech" Мы в поиске Data Scientist в команду, занимающуюся применением DL подходов в задачах Lamoda. Наша цель – с помощью...

Отправить резюме подробнее

25 Марта

Senior Data Scientist (Data Management Platform)

Москва

Компания "Lamoda tech" Мы в поиске Senior Data Scientist в команду Advertising DMP (Data Management Platform) , который поможет нам...

Отправить резюме подробнее

20 Марта

ML-инженер( Факторинг Плюс )

Москва

Компания "Факторинг Плюс" Финтех компания ROWI. Создаем удобные продукты для финансирования малого и среднего бизнеса. Наши клиенты — поставщики...

Отправить резюме подробнее

24 Марта

Продуктовый аналитик (Финансовые сервисы)

Москва

Компания "Tele2" Что нужно делать: Создавать дашборды с нуля в FineBI и создавать хранилища для них. Делать выгрузки из больших хранилищ...

Отправить резюме подробнее

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет: