Это также подтвердило недавнее исследование IDC и Hitachi Vantara. Но для принятия взвешенных решений и разработки стратегии на основе данных нужен специалист, который поможет разобраться в массивах информации. О профессии Data Scientist, карьерном росте и стресс-факторах рассказала Анна Румянцева, Data Scientist в компании Hitachi Vantara.
Анна Румянцева: «Специфика работы Data Scientist заключается в работе с большими объемами данных и применением моделей машинного обучения, глубинного обучения, байесовских методов и пр.» |
Есть ли шанс стать Data Scientist, если ты гуманитарий? Если да, что для этого нужно?
Хорошая математическая база является важным условием для реализации в этой профессии. Например, без знания линейной алгебры будет сложно разобраться в устройстве даже самой простой нейронной сети. Методы анализа и процессирования данных очень трудно выучить в свободное время/по вечерам/на выходных без технического образования. Но, так или иначе, работать с данными могут люди и с гуманитарным образованием, например, в смежных областях: журналистике данных (Data Journalism) или визуализации (Data Visualization).
По каким критериям отбирают специалистов на должность Data Scientist?
Если говорить о технических навыках, Data Scientist должен уметь программировать в Python/R, а также знать другие языки программирования, например, Java и C/C++. Он должен уметь работать с базами данных SQL/Git/Github, знать статистику и алгоритмы машинного обучения, основы Hadoop/MapReduce и ETL/Data Engineering, Spark Framework и облачных вычислений.
Помимо владения технической базой, Data Scientist должен уметь объяснять методы анализа и полученные результаты людям из других профессиональных сфер, а также знать английский язык – без него сейчас вообще никуда. При этом набор технических навыков и знание алгоритмов может отличаться в зависимости от уровня специалиста (Junior or Senior Data Scientist).
Можно ли назвать работу Data Scientist стрессовой?
В каждой профессии уровень стресса зависит от конкретного проекта, дедлайнов и ожиданий руководства. Стресс-факторы в Data Science могут быть связаны с подготовкой данных, объяснением результатов анализа и операционализацией проектов.
В свое время я слышала интересную аналогию, связанную с запуском проектов Data Science и Наполеоном в зимней Москве. У Наполеона была сильная армия и грандиозные амбиции по покорению России. Data Scientists тоже имеют грандиозные амбиции в начале проекта: они намерены перевернуть курс компании с ног на голову и отдать руководство нейронным сетям. Но у армии Наполеона не было нужной одежды для русской зимы, чтобы воплотить свои амбиции. У Data Scientists тоже может не быть нужного ПО, в связи с чем все намерения могут остаться на стадии Proof of Concept (доказательства концепции). Чувствовать себя «поверженным Наполеоном» – это ведь тоже стресс.
Верно ли, что Data Scientist должен обладать уникальным сплавом навыков – и технических, и социальных?
Да, социальные навыки в профессии Data Scientist играют очень важную роль. Data Scientist – это не ученый в научно-исследовательском институте. Подходы к решению задач в науке и в бизнесе сильно отличаются. В научной среде люди окружены коллегами со схожим образованием и взглядами, тогда как в компаниях часто работают люди с разными специальностями. Нужно иметь хорошие коммуникативные навыки, чтобы донести свою точку зрения до коллег.
В целом, при интеграции Data Scientist в организацию стоит помнить о нескольких моментах:
- Data Scientist должен понимать контекст бизнеса;
- Data Scientist должен понимать ход рабочих процессов;
- Нужно избавиться от нереалистичных ожиданий в отношении Data Scientist;
- Существует культурный разрыв между менеджерами, занимающимися управлением компанией, и Data Scientists.
Есть ли в работе Data Scientist место творчеству?
Безусловно! Как и во многих других профессиях, креативное, нестандартное мышление является залогом успеха. Интересный метод, который можно внедрить в анализ данных, интересная визуализация данных для передачи основных инсайтов, новые способы решения с помощью Data Science — всё это подразумевает креативный подход.
Некоторые Data Scientists находят свободное время и на личное творчество. Например, создают модели глубокого обучения, которые позволяют изменить вашу фотографию так, чтобы она стала похожа на работу кисти Пикассо. Используя GAN-сети можно получить изображение в определенном стиле. Как раз недавно одна из таких работ была продана на аукционе Christie's за 432 тысячи долларов.
Как будет трансформироваться профессия Data Scientis? Могут ли в этом деле людей заменить искусственный интеллект?
В недалеком будущем профессию Data Scientist ждут достаточно значительные перемены. Многие задачи классического машинного обучения (выбор гиперпараметров, алгоритмов, feature selection) начинают автоматизироваться с помощью методов машинного обучения.
Я думаю, перспективными направлениями в Data Science в будущем будут следующие:
- Data Engineering – умение обрабатывать большие объемы данных из разных источников;
- Узкие специалисты в глубинном обучении, байесовских методах, генетических алгоритмах и т.п.;
- Data Science в роли бизнес-консультанта. Это человек, умеющий сформировать бизнес-кейсы исходя из задач организации и разработать стратегию для их имплементации.
Есть ли различия между профессиями Data Analyst и Data Scientist?
Основная разница между Data Analyst и Data Scientist заключается в объемах анализируемых данных и методах анализа. Data Analyst в основном работает со структурированными данными и применяют статистические методы анализа. В своей работе Data Analysts используют инструменты BI (Tableau, Power BI, или даже Excel).
Специфика работы Data Scientist заключается в работе с большими объемами данных (структурированными и неструктурированными) и применением моделей машинного обучения, глубинного обучения, байесовских методов и так далее. Data Scientist должны уметь работать с более широким спектром платформ. Например, я в своей работе в Hitachi Vantara часто использую Pentaho для обработки данных и оркестрации конечного решения.
Как строится карьера при работе Data Scientist?
Очевидные пути развития карьеры – это путь к Director of Data Science & Analytics (директор по науке о данных и аналитике), Chief Data Scientist (главный специалист по данным), Chief Information Officer (директор по информационным технологиям), Chief Technology Officer (директор по технологиям). Также многие Data Scientists после работы в больших компаниях открывают свои стартапы, предлагая консалтинг в области Data Science, разрабатывая новые продукты или платформы.
Какие обязанности выполняет Data Scientist в компании?
В основном обязанности Data Scientist в компании заключаются в следующем:
- Формирование бизнес-кейсов;
- Понимание того, какие данные в компании могут быть применены к имплементации;
- Подборка методов, которые могут быть применимы к конкретному бизнес-кейсу;
- Интеграция и обработка данных;
- Дата-аналитика с помощью визуализации данных и методов статистического анализа;
- Создание моделей, их валидация и оценка результатов;
- Запуск модели в производство и разработка конечного продукта.
Все эти обязанности являются достаточно распространенными среди организаций различного профиля. В зависимости от структуры команды, некоторые задачи из списка могут выполняться инженерами данных, специалистами по ETL, Solutions Architect и другими специалистами по работе с данным.
Возможно, сейчас это высказывание покажется немного клишированным, но 60-80% рабочего времени занимает интеграция и обработка данных. Поэтому в Hitachi Vantara мы уделяем большое внимание процессу обработки данных с помощью Pentaho и сплоченной работе Data Engineers and Data Scientists.
Многие компании жалуются на отсутствие специалистов по Data Science. Почему при популярности и высокой оплате труда найти хорошего Data Scientist так сложно?
Учитывая шумиху вокруг больших данных и Data Science, многие Data Analysts, которые выполняют несложные аналитические задачи, такие как создание отчетов, дашбордов и простого анализа данных, называют себя Data Scientists. А ученые, занимающиеся данными, имеющие академическое образование, сталкиваются с трудностями при адаптации в коммерческой среде и правильном использовании своих навыков.
Кроме того, помимо найма Data Scientist на работу нужно создать инфраструктуру для работы с данными (ПО, процесс доступа к данным, развертывание решений) и разработать стратегию интеграции Data Scientist в рабочий процесс (коммуникации с ИТ, бизнес-персоналом). Если компания нанимает специалиста по Data Science и начинает скидывать на него петабайты данных в надежде на чудо, то, скорее всего, чуда не случится.