«Если компания скидывает на Data Scientist петабайты данных в надежде на чудо, то, скорее всего, чуда не случится»

10:06 18.07.2019 (обновлено: 17:38 29.07.2019)  |    7744 прочтения



Работа с данными – одно из самых приоритетных направлений у большинства зарубежных и российских компаний.

 

Это также подтвердило недавнее исследование IDC и Hitachi Vantara. Но для принятия взвешенных решений и разработки стратегии на основе данных нужен специалист, который поможет разобраться в массивах информации. О профессии Data Scientist, карьерном росте и стресс-факторах рассказала Анна Румянцева, Data Scientist в компании Hitachi Vantara.

Анна Румянцева: «Специфика работы Data Scientist заключается в работе с большими объемами данных и применением моделей машинного обучения, глубинного обучения, байесовских методов и пр.»

Есть ли шанс стать Data Scientist, если ты гуманитарий? Если да, что для этого нужно?

Хорошая математическая база является важным условием для реализации в этой профессии. Например, без знания линейной алгебры будет сложно разобраться в устройстве даже самой простой нейронной сети. Методы анализа и процессирования данных очень трудно выучить в свободное время/по вечерам/на выходных без технического образования. Но, так или иначе, работать с данными могут люди и с гуманитарным образованием, например, в смежных областях: журналистике данных (Data Journalism) или визуализации (Data Visualization).

По каким критериям отбирают специалистов на должность Data Scientist?

Если говорить о технических навыках, Data Scientist должен уметь программировать в Python/R, а также знать другие языки программирования, например, Java и C/C++. Он должен уметь работать с базами данных SQL/Git/Github, знать статистику и алгоритмы машинного обучения, основы Hadoop/MapReduce и ETL/Data Engineering, Spark Framework и облачных вычислений.

Помимо владения технической базой, Data Scientist должен уметь объяснять методы анализа и полученные результаты людям из других профессиональных сфер, а также знать английский язык – без него сейчас вообще никуда. При этом набор технических навыков и знание алгоритмов может отличаться в зависимости от уровня специалиста (Junior or Senior Data Scientist).

Можно ли назвать работу Data Scientist стрессовой?

В каждой профессии уровень стресса зависит от конкретного проекта, дедлайнов и ожиданий руководства. Стресс-факторы в Data Science могут быть связаны с подготовкой данных, объяснением результатов анализа и операционализацией проектов.

В свое время я слышала интересную аналогию, связанную с запуском проектов Data Science и Наполеоном в зимней Москве. У Наполеона была сильная армия и грандиозные амбиции по покорению России. Data Scientists тоже имеют грандиозные амбиции в начале проекта: они намерены перевернуть курс компании с ног на голову и отдать руководство нейронным сетям. Но у армии Наполеона не было нужной одежды для русской зимы, чтобы воплотить свои амбиции. У Data Scientists тоже может не быть нужного ПО, в связи с чем все намерения могут остаться на стадии Proof of Concept (доказательства концепции). Чувствовать себя «поверженным Наполеоном» – это ведь тоже стресс.

Верно ли, что Data Scientist должен обладать уникальным сплавом навыков – и технических, и социальных?

Да, социальные навыки в профессии Data Scientist играют очень важную роль. Data Scientist – это не ученый в научно-исследовательском институте. Подходы к решению задач в науке и в бизнесе сильно отличаются. В научной среде люди окружены коллегами со схожим образованием и взглядами, тогда как в компаниях часто работают люди с разными специальностями. Нужно иметь хорошие коммуникативные навыки, чтобы донести свою точку зрения до коллег.

В целом, при интеграции Data Scientist в организацию стоит помнить о нескольких моментах:

  • Data Scientist должен понимать контекст бизнеса;
  • Data Scientist должен понимать ход рабочих процессов;
  • Нужно избавиться от нереалистичных ожиданий в отношении Data Scientist;
  • Существует культурный разрыв между менеджерами, занимающимися управлением компанией, и Data Scientists.

Есть ли в работе Data Scientist место творчеству?

Безусловно! Как и во многих других профессиях, креативное, нестандартное мышление является залогом успеха. Интересный метод, который можно внедрить в анализ данных, интересная визуализация данных для передачи основных инсайтов, новые способы решения с помощью Data Science — всё это подразумевает креативный подход.

Некоторые Data Scientists находят свободное время и на личное творчество. Например, создают модели глубокого обучения, которые позволяют изменить вашу фотографию так, чтобы она стала похожа на работу кисти Пикассо. Используя GAN-сети можно получить изображение в определенном стиле. Как раз недавно одна из таких работ была продана на аукционе Christie's за 432 тысячи долларов.

Как будет трансформироваться профессия Data Scientis? Могут ли в этом деле людей заменить искусственный интеллект?

В недалеком будущем профессию Data Scientist ждут достаточно значительные перемены. Многие задачи классического машинного обучения (выбор гиперпараметров, алгоритмов, feature selection) начинают автоматизироваться с помощью методов машинного обучения.

Я думаю, перспективными направлениями в Data Science в будущем будут следующие:

  • Data Engineering – умение обрабатывать большие объемы данных из разных источников;
  • Узкие специалисты в глубинном обучении, байесовских методах, генетических алгоритмах и т.п.;
  • Data Science в роли бизнес-консультанта. Это человек, умеющий сформировать бизнес-кейсы исходя из задач организации и разработать стратегию для их имплементации.

Есть ли различия между профессиями Data Analyst и Data Scientist?

Основная разница между Data Analyst и Data Scientist заключается в объемах анализируемых данных и методах анализа. Data Analyst в основном работает со структурированными данными и применяют статистические методы анализа. В своей работе Data Analysts используют инструменты BI (Tableau, Power BI, или даже Excel).

Специфика работы Data Scientist заключается в работе с большими объемами данных (структурированными и неструктурированными) и применением моделей машинного обучения, глубинного обучения, байесовских методов и так далее. Data Scientist должны уметь работать с более широким спектром платформ. Например, я в своей работе в Hitachi Vantara часто использую Pentaho для обработки данных и оркестрации конечного решения.

Как строится карьера при работе Data Scientist?

Очевидные пути развития карьеры – это путь к Director of Data Science & Analytics (директор по науке о данных и аналитике), Chief Data Scientist (главный специалист по данным), Chief Information Officer (директор по информационным технологиям), Chief Technology Officer (директор по технологиям). Также многие Data Scientists после работы в больших компаниях открывают свои стартапы, предлагая консалтинг в области Data Science, разрабатывая новые продукты или платформы.

Какие обязанности выполняет Data Scientist в компании?

В основном обязанности Data Scientist в компании заключаются в следующем:

  • Формирование бизнес-кейсов;
  • Понимание того, какие данные в компании могут быть применены к имплементации;
  • Подборка методов, которые могут быть применимы к конкретному бизнес-кейсу;
  • Интеграция и обработка данных;
  • Дата-аналитика с помощью визуализации данных и методов статистического анализа;
  • Создание моделей, их валидация и оценка результатов;
  • Запуск модели в производство и разработка конечного продукта.

Все эти обязанности являются достаточно распространенными среди организаций различного профиля. В зависимости от структуры команды, некоторые задачи из списка могут выполняться инженерами данных, специалистами по ETL, Solutions Architect и другими специалистами по работе с данным.

Возможно, сейчас это высказывание покажется немного клишированным, но 60-80% рабочего времени занимает интеграция и обработка данных. Поэтому в Hitachi Vantara мы уделяем большое внимание процессу обработки данных с помощью Pentaho и сплоченной работе Data Engineers and Data Scientists.

Многие компании жалуются на отсутствие специалистов по Data Science. Почему при популярности и высокой оплате труда найти хорошего Data Scientist так сложно?

Учитывая шумиху вокруг больших данных и Data Science, многие Data Analysts, которые выполняют несложные аналитические задачи, такие как создание отчетов, дашбордов и простого анализа данных, называют себя Data Scientists. А ученые, занимающиеся данными, имеющие академическое образование, сталкиваются с трудностями при адаптации в коммерческой среде и правильном использовании своих навыков.

Кроме того, помимо найма Data Scientist на работу нужно создать инфраструктуру для работы с данными (ПО, процесс доступа к данным, развертывание решений) и разработать стратегию интеграции Data Scientist в рабочий процесс (коммуникации с ИТ, бизнес-персоналом). Если компания нанимает специалиста по Data Science и начинает скидывать на него петабайты данных в надежде на чудо, то, скорее всего, чуда не случится.


Теги: Большие данные Аналитика Больших Данных Data Science Hitachi Цифровая трансформация Цифровая трансформация. Практическое руководство Hitachi Vantara Партнерский материал
На ту же тему: