BIG DATA 2017: ожидание чуда против закона больших чисел

Что изменилось со времени конференции Big Data 2016? Прежде всего, акценты. Это касается и маркетинга, и инструментов анализа, и инфраструктуры. И хотя список докладчиков составлялся по субъективному выбору организаторов, основные мировые тенденции здесь прочитывались, обогащаясь местным небеспроблемным опытом.

Тематику конференции структурировали в три потока. Один из них назвали «Люди и общество; решения для маркетинга, управления персоналом, социальных процессов». Другой — «Люди, машины и процессы; решения для Интернета вещей и Индустрии 4.0». Третий — «Инфраструктура; решения для хранения и обработки Больших Данных».

Большие Данные не забыли про человека

Но сначала обратимся к предшествовавшей трем потокам пленарной сессии, на которой был представлен концептуальный доклад Федора Павлова, консультанта по технологиям хранения Dell EMC. Именно там прозвучал страшный упрек: «Большие Данные забыли о человеке!» При этом была высказана и позитивная составляющая: «Компания будет процветать и зарабатывать через облегчение жизни людей и улучшение мира вокруг».

Если слегка очистить мессидж от маркетиногового пафоса, то изложенную Павловым идеологию можно интерпретировать так: желания, высказанные человеком, уже удовлетворил бизнес предыдущих поколений. Для прорывного бизнеса нужно узнать те желания человека, о которых он и сам не знает. Объективные исследования (нейромаркетинг, то есть изучение активных областей мозга, энцефалограммы, анализ мимики) открывают в людях то, что мало совместимо с результатами опросов в фокус-группах. Теперь же пришел черед Больших Данных рассказать о человеке. Благо есть надежные системы хранения, где эти данные можно складировать.

Неожиданно, будто для контраста, звучал доклад Константина Горбача, директора по продажам отраслевых решений Yandex Data Factory. Не так давно в этой компании в «визионерском» стиле говорили о том, что Data Science перевернет мир бизнеса, если не весь мир вообще. В «Яндексе» обещали активно участвовать в этом перевороте. И участвуют, но риторика сильно изменилась.

Вместо магии — реалистичные ожидания улучшения финансовых показателей от оптимизации операционной деятельности, уточнения прогноза спроса с помощью машинного обучения; такие результаты можно пощупать.

Когда аналитики «Яндекса» сделали прогноз продаж товаров, участвующих в промоакциях, для торговой сети «Пятерочка», 87% предсказаний оказались верны с точностью до одной упаковки. То есть были «разгаданы» желания человека. Другой повод разгадать человека — заказы кадровых агентств: 26 из 50 сотрудников, чью ненадежность предсказали аналитики «Яндекса», действительно уволились.

По мнению Горбача, аналитика эффективно работает там, где работают законы больших чисел, желательно выраженные в рублях. На Магнитогорском металлургическом комбинате удалось добиться среднего снижения расхода ферросплавов на 5%. А это ожидаемая годовая экономия более 275 млн руб. и пример того, что при огромных объемах доходов и расходов аналитику Больших Данных можно и нужно использовать, ведь даже единицы процентов оборачиваются миллионами. И корпорации начинают проявлять практический интерес к Большим Данным, который еще совсем недавно был теоретическим.

Отгадывать поведение сотрудника взялись и сами рекрутинговые компании. В потоке «Люди и общество» Борис Вольфсон, директор по развитию HeadHunter, рассказал, как в этом может помочь и уже помогает машинное обучение. HH обрабатывает резюме на 350 тыс. вакансий, поэтому без автоматической фильтрации не обойтись. Быстрая машинная фильтрация отсекает большую часть нерелевантных вакансий, используя совсем немного признаков. Релевантные попадают на вход более гуманной модели следующего уровня. Обученная уже на 200 признаках, она не отфильтровывает вакансии, а меняет порядок отображения резюме.

В недалеком будущем подбирать сотрудников и искать работу будут ансамбли систем машинного обучения с уменьшающимся участием человека. А общая тенденция — переход от анализа к предсказаниям, с третьего уровня аналитики, то есть статистического анализа, разработки моделей поведения, анализа причинно-следственных связей и выбора решений, на четвертый уровень — разработку предиктивных моделей, сценарное планирование, анализ рисков, интеграцию со стратегическим планированием.

Облака отразились в озерах

Любопытный терминологически-маркетинговый сдвиг: все реже звучит слово «облако», а «озера данных» за год распространились повсеместно. О них говорят в мировой индустрии, не отстали и на этой конференции. Вообще-то «озера данных» — не слишком понятное и точное сочетание слов. Речь идет о том, что реку данных запрудили, и они залили все доступные объемы. Но поскольку «пруд данных» неблагозвучен, рынок выбрал «озера».

Соответственно лейтмотивом конференции стало следующее: современный аналитик должен иметь в своем распоряжении данные и в облаках, и в корпоративных реляционных СУБД, и в специализированных хранилищах для Больших Данных — Hadoop и ему подобных. Все более популярной становится тема доступа через привычные SQL-запросы к Большим Данным, операции над которыми когда-то вообще ограничивались MapReduce. При этом идет конвергенция двух ранее плохо совместимых технологий, двух миров: реляционные СУБД приобретают функциональность для работы со слабоструктурированными и неатомарными данными, учатся работать в радикально распределенной среде, а инструменты работы с Большими Данными осваивают все более и более полноценные версии SQL.

Oracle (компанию представлял руководитель группы перспективных технологий предпроектного консалтинга Андрей Пивоваров) рассчитывает играть в этом озерном крае роль создателя удобной и даже незаметной коммуникации всего со всем: между собственными реляционными СУБД и самыми разнообразными средствами хранения, в том числе Spark; с большим набором языков, в том числе любимым аналитиками R; с любыми типами данных, в том числе JSON.

Вместо термина «озера данных» в Oracle использут «резервуар данных». Туда залиты данные без предопределенной структуры и модели хранения. Их можно, но не нужно (ибо дорого) хранить в реляционной СУБД. Когда они понадобятся, их обработают на распределенном кластере.

Принцип, которого придерживаются ИТ-компании, таков: хранить надо все, даже ту информацию, которая кажется сейчас бесполезной, при этом не нужно тратить ресурсы на ее предобработку, пока не пришел черед ее анализировать. Эту мысль они стремились донести и до всех участников конференции. Повод для этого представился с самого начала: на вопрос к представителю правительства Москвы, будут ли доступны их Большие Данные общественности и бизнесу, в ответ было обещано предоставить значительную их часть после «приведения в приличный вид». Позже представители ИТ-компаний дружно напоминали в выступлениях и дебатах, что данные подают к столу аналитиков сырыми.

Доклад начальника управления технологий сбора и хранения данных ДБИТ в банке ВТБ24 Дмитрия Первухина продолжил тему. Это был взгляд с позиции тех, кто платит немалые деньги за сбор и хранение данных и хочет получать от их использования наглядный экономический эффект.

Если данных много — а у ВТБ24 их 140 Тбайт в Hadoop, 150 Тбайт в Teradata и каждый месяц прибавляется по 3,5 Тбайт, то в «озерах» надо хранить данные, не слишком заботясь об их качестве, особенно если это «холодные» данные. Но зато использовать многоуровневую «аналитическую фабрику» — интеллектуальные методы работы с данными, в том числе «натурные эксперименты» в специальных «песочницах». На «фабрике» есть работа и для Hadoop, и для Oracle, и для аналитики в SAS. В результате разумной организации хранения и обработки данных ВТБ24 удалось сэкономить миллионы долларов.

Большие Данные больших и маленьких машин

Cлушатели докладов потока «Люди и общество» были отделены тонкой переборкой от сидящих в соседнем зале слушателей потока «Люди, машины и процессы». Подобно этому мир социологических данных, с одной стороны, и мир машин, Интернет вещей и Промышленный интернет — с другой, для аналитических систем — миры соседние (чего, например, не скажешь о мире научных Больших Данных, они уже не за стенкой, а в другой вселенной).

Фирмы, анализирующие собранную с датчиков информацию, не прочь анализировать данные человеческих особей. Более того, примерно те же технологии, скажем, машинного обучения, годятся для предсказания поведения сотрудников и поведения машин. А в некоторых случаях речь идет и о поведении людей в отношении машин.

Дмитрий Гераськин, независимый эксперт Экспертного совета открытого правительства РФ и Национальной ассоциации Промышленного интернета, участвует в анализе успешно реализованных проектов в области Интернета вещей. Число их перевалило за сотню. Среди них исследование поведенческих моделей сотрудников, связанных с опасным производством. Чтобы выявить риски, анализируют результаты биометрического тестирования. Можно выявить неосознанный выбор опасного поведения, выработать у людей навыки осознанного безопасного поведения, а если потенциал для безопасной работы отсутствует, сотрудника следует уволить или перевести на безопасную работу.

Среди других образцовых проектов, упомянутых в докладе «Большие Данные и машинное обучение в Индустрии 4.0», есть и распознавание показаний обычных счетчиков потребления воды. Сотрудник, вооруженный всего лишь смартфоном, фотографирует показания, первая нейронная сеть сегментирует их, затем показания отправляются в базу, после чего вторая нейронная сеть, также работающая в смартфоне, распознает сами показания с точностью 99,9% — выше, чем у человека. Держа в уме, что тема потока — «Люди, машины и процессы», заметим, что от человека здесь требуется всего лишь навести объектив смартфона на счетчик и пару раз прикоснуться к меню, то есть человеку доверили наименее интеллектуальную часть процесса.

Часто ли моют корабли?

Конференция не обошлась и без канонических индустриальных объектов вроде сталеплавильных печей и турбин гидроэлектростанций. Руководитель направления Больших Данных в Hitachi Data Systems Петр Травкин задался вопросом, как часто надо чистить корабли. Ответ на него знают аналитические системы от Pentaho, компании, приобретенной HDS в 2015 году. Вообще вклад флота в мировой поток Больших Данных серьезен: если на типичном современном корабле 1000 датчиков, то с флотилии из 100 кораблей поступит в год 3,1 триллиона единиц информации.

Средства для работы с данными Интернета вещей не слишком экзотичны в глазах тех, кто следит за Большими Данными. Генеральный директор российской компании Visiology, входящей в группу Polymedia, рассказал о направлениях, в которых используют ее аналитическое ПО. Это промышленность (Интернет вещей, реляционные данные), финансы крупных корпораций, госуправление — здесь тоже нет узкой специализации.

В этом докладе ясно прозвучал мотив, поддержанный многими участниками этого форума и безусловно отражающий мировые тенденции Больших Данных: бизнес-аналитикам пора переходить на самообслуживание. Как бы печально это ни звучало, ИТ-сотрудник, владеющий технологиями хранения и анализа данных, теряет статус волшебника, фактически уступая его бизнес-аналитику, и становится обслуживающим персоналом. А если амбиции его не вписываются в эту новую картину мира Больших Данных, что ж, ему придется спуститься на землю, то есть погрузиться в тонкости проблемной области.