16 ноября 10:15
Data scientist — самая перспективная профессия XXI века. Или нет?
Леонид Жуков
Руководитель Лаборатории Сбера по искусственному интеллекту
Поделиться
twtg

В 2012 году издание Harvard Business Review назвало работу data scientist the sexiest job of the 21st century. McKinsey примерно в то же время предсказывала нехватку только в США 140–190 тыс. специалистов этого профиля к 2018 году, а к 2024-му — и вовсе 250 тыс. Возможности, открывающиеся бизнесу благодаря анализу данных, вызвали к жизни множество университетских программ и курсов Data Science, так что назревающий дефицит стал постепенно заполняться, хотя нехватка качественных спецов до сих пор остаётся. И сегодня работа data scientist’а популярна, престижна и хорошо оплачиваема. Компании продолжают активно нанимать и выстраивают DS-компетенции, определяя Data Science (DS) как работу на стыке математических, компьютерных и специализированных (domain knowledge) навыков. В результате сложно найти крупную компанию без DS-подразделения, численность которого может варьироваться от нескольких до нескольких тысяч человек.

Суть работы data scientist’а — построение полезных для бизнеса предсказательных моделей. Модели Data Science основаны на технологиях искусственного интеллекта (AI), точнее говоря — на алгоритмах машинного обучения (ML). Законченная модель содержит последовательность шагов, включающую в себя подготовку и предобработку данных, создание, вычисление и отбор признаков модели, выбор алгоритма и настройку оптимальных параметров, тренировку модели, тестирование и валидацию результатов. Причём хорошо известно, что порядка 80% времени data scientist обычно тратит на очистку, подготовку и форматирование данных и только 20% уходит на выбор и настройку самого алгоритма.

В современном крупном банке, ретейлере, телекоме могут одновременно выполняться десятки тысяч моделей (предсказание оттока клиентов, кредитный скоринг, предсказание следующего действия клиента, рекомендации и различные временные прогнозы и так далее), которые надо сначала создать и обучить, запустить в производство, а потом мониторить качество их работы, поддерживать и при необходимости переобучать. Этим и занимаются армии data scientist’ов.

Модели используется в тех случаях, когда задачу легко алгоритмизировать, и сегодня это быстрый анализ большого объёма данных, обнаружение скрытых паттернов в данных или предсказания на основе похожих примеров (когда нет необходимости в глубокой логике, концептуальном или абстрактном мышлении).

Но, независимо от области применения и типов моделей машинного обучения, процесс их создания и обучения достаточно стандартен, а значит, и сам процесс моделирования можно автоматизировать! Эта очевидная идея получила название AutoML (automated machine learning — автоматическое машинное обучение) и стала активно развиваться примерно с 2013‒2014 года.

AutoML превращает процесс создания модели из «ручной работы» мастера data scientist в массовый продукт «с полки», доступный для разработчиков, аналитиков и продвинутых бизнес-пользователей и не требующий глубокой DS-экспертизы. С увеличением доступных компьютерных мощностей, объёмов доступных данных и улучшением алгоритмов поиска оптимальных параметров AutoML начинает создавать модели, не уступающие по качеству среднему data scientist’у, но за гораздо более короткое время и с более высокой надёжностью и воспроизводимостью результатов.

Уже сегодня AutoML используется как baseline-алгоритм, с которым можно сравнивать более совершенные и сложные «ручные» решения. В недалёком будущем он сможет почти полностью заменить data scientist’а в построении простых стандартных моделей и позволит ему фокусироваться на разработке нетривиальных моделей и моделей для новых сфер и отраслей. Это повысит надёжность и качество моделей, поскольку даст возможность уйти от ручного создания признаков, поможет подобрать наиболее оптимальные параметры модели среди огромного конфигурационного пространства и протестировать их, соблюдая лучшие практики. AutoML может служить хорошей отправной точкой для начинающих data scientist’ов, заменяя их опыт и интуицию на стандартизованный процесс.

AutoML также может помогать переносу знаний из одной области в другую и значительно ускорять тренировку и оптимизацию модели, стартуя с ранее натренированных на смежных задачах и данных версиях (pre-trained models). Наконец, совмещённый с удобным пользовательском интерфейсом и выведенный в облако он может стать массовым инструментом для аналитиков и других непрофессионалов в сфере анализа данных.

Согласно правилу Парето 80/20, можно ожидать, что в скором времени 80% стандартных DS-моделей будут разрабатываться и поддерживаться системами AutoML и только 20% потребуют глубокой человеческой экспертизы. И если в 2012 году было достаточно просто уметь строить работающие ML-модели, чтобы получить the sexiest job of the 21st century, то в скором времени нужно будет уметь строить модели лучше, чем системы AutoML. И пока ещё есть немного времени в запасе на то, чтобы оттачивать свои знания в ML- и бизнес-задачах и остаться востребованным в этой профессии.

В следующей публикации мы расскажем о деталях системы AutoML, которая сейчас разрабатывается в Лаборатории искусственного интеллекта Сбера.

Леонид Жуков
Руководитель Лаборатории Сбера по искусственному интеллекту
Поделиться
twtg
Ещё по теме технологии
  • Сбер представил SberQ — уникальный HR-инструмент для оценки руководителей высшего звена

    Сбер создал уникальный HR-продукт — инструмент для оценки руководителей высшего звена SberQ. Он позволяет точно определить уровень развития необходимых руководителю компетенций, психологических и личностных особенностей в дистанционном формате, что особенно актуально в условиях пандемии коронавируса.
    16 ноября 18:48
  • СберМобайл запустил eSIM в мобильном приложении Сбербанк Онлайн

    Виртуальный оператор связи СберМобайл, входящий в экосистему Сбера, запустил виртуальную сим-карту — eSIM, которую можно оформить и использовать полностью в онлайн-режиме в мобильной версии Сбербанк Онлайн. Сегодня данная технология доступна для подключения первым 10 тысячам пользователей в 68 регионах страны. Использование eSIM отвечает всем требованиям безопасности и законодательства РФ в области оказания услуг связи.
    18 ноября 11:59

Мы используем файлы cookie

ПАО Сбербанк использует cookie (файлы с данными о прошлых посещениях сайта) для персонализации сервисов и удобства пользователей. Сбербанк серьезно относится к защите персональных данных — ознакомьтесь с условиями и принципами их обработки. Вы можете запретить сохранение cookie в настройках своего браузера.