«Самое главное — появилось понимание того, что сами по себе данные имеют не слишком большую ценность. При необходимости их не так уж и сложно раздобыть. Гораздо ценнее знания, полученные из них, и умение эти знания получать», — так в своем выступлении на форуме подвел итог десятилетнего развития рынка технологий больших данных Сергей Мацоцкий, президент компании «ГС-Инвест», которому в 2012 году довелось открывать пленарную сессию на самом первом форуме BIG DATA.
10 лет назад многие считали, что необходимо собрать вместе как можно больше данных, после чего гениальные открытия в окружающем мире не заставят себя ждать. Однако с прорывами не сложилось: нельзя сказать, что появление больших данных радикально перевернуло нашу жизнь. Огромного количества передовых решений (IBM, EMC, Oracle и т. п.), созданных в тот период, уже не существует, да и сами технологии разделились на части, а понятие больших данных очень быстро стало зонтичным. Более того, на рынке обработки данных царят платформы категории Open Source.
По мнению Мацоцкого, открытые платформы находятся в самом начале своего феноменального развития, и чем дальше, тем большую роль они будут играть. На их базе возникают совершенно новые бизнес-модели. Это принципиально новое экономическое явление, до сих пор не слишком оцененное, будет играть очень важную роль, особенно в нашей стране, где высоки требования к импортонезависимости.
Сергей Золотарев, генеральный директор Arenadata, также отметил, что сейчас наблюдается бум экосистем, в использовании которых задали тон мировые ИТ-гиганты. У нас ярким примером является «Сбер», не случайно отказавшийся от второй части названия, — теперь это уже не только финансовый институт. Таков путь на ближайшие 10 лет: если речь идет о реализации серьезной идеи, то к этому надо относиться как к созданию экосистемы. Компаниям приходится либо разрабатывать собственную экосистему, либо становиться частью другой.
Леонид Жуков: «Развитие искусственного интеллекта является для 'Сбера' абсолютно критическим фактором повышения эффективности. Сейчас у нас трудятся 1,6 тыс. так называемых D-people — специалистов по работе с данными» |
Леонид Жуков, возглавляющий Лабораторию по искусственному интеллекту «Сбера», признал, что его коллективу приходится заниматься в буквальном смысле технологиями будущего: многие из создаваемых решений еще очень рано применять, но они универсальны и будут иметь важное прикладное значение. Например, по его мнению, в транзакционных данных заключено столько ценности, что использовать их в нынешних системах пока довольно опасно — по крайней мере, до решения этических вопросов.
В любом случае развитие искусственного интеллекта является для «Сбера» абсолютно критическим фактором повышения эффективности. Сейчас над этим трудятся 1,6 тыс. так называемых D-people — специалистов по работе с данными.
Постоянная эволюция экосистем и платформ доставляет компаниям много проблем. Как подчеркнул Евгений Степанов, руководитель направления Vertica в России и СНГ компании Micro Focus, часто организации вынуждены принимать компромиссные решения, реализуя свои платформы для работы с данными. Новые продукты требуют слишком долгой адаптации, и компании строят свои системы на существующих технологиях, которые не справляются с новыми бизнес-задачами.
Управление данными становится все актуальнее
Алексей Сидоров, директор по управлению данными Denodo, начал выступление цитатой Эйнштейна: «Вы никогда не сумеете решить возникшую проблему, если сохраните то же мышление и тот же подход, который привел вас к этой проблеме». Сидоров считает, что основной причиной проблем является жесткость созданной инфраструктуры для работы с данными. Данных стало не просто больше: они стали разнородными и перестали вписываться в существующую структуру хранилищ данных. Архитектуры, которые хорошо работали до определенного времени, перестают отвечать современным требованиям компаний. Постепенно приходит понимание того, что невозможно собрать все доступные данные в единый репозиторий. Решить проблему может архитектура виртуализации данных, подразумевающая отказ от их непосредственного перемещения.
Алексей Сидоров: «Данных стало не просто больше. Они стали разнородными и перестали вписываться в существующую жесткую структуру хранилищ данных» |
Как считает Олег Гиацинтов, технический директор DIS Group, в вопросах демократизации данных давно пора переходить от теории к практике. Не случайно 59% опрошенных бизнес-руководителей считают главной задачей директоров по данным именно демократизацию данных. Логика бизнеса очевидна: каждый сотрудник компании должен выполнять свою работу, а не искать данные или решать, можно ли им доверять. Выстроенные процессы управления данными не позволяют создать что-то новое, однако могут радикально ускорить существующие процессы.
Вопросам скорости, но уже другой — вычислительной — было посвящено и выступление Сергея Шестакова, генерального директора Luxms.
«Низкая производительность BI-систем на больших объемах данных является известной проблемой. Мы ее называем «кофе-брейк-аналитика»: после запуска отчета можно смело идти пить кофе», — признал Шестаков. По его словам, эта проблема решается путем построения дата-центричной архитектуры. При этом время выполнения запроса может сократиться в десятки раз — например, с получаса до одной минуты.
«Проблемы больших данных начинаются с метаданных. Нужны специальные инструменты для их решения — управления данными и их качеством», — заявил Роман Стрекаловский, ведущий архитектор компании «Юнидата». Если проводить аналогию со строительством дома, то управление метаданными — это план, без которого сложно построить что-то качественное. Внедрение разрозненных систем с большим потоком транзакционных данных без такого плана (а значит, и без понимания того, зачем эти технологии внедряются и как они повлияют на бизнес компании) чревато проблемами. И если такой план рождается эмпирическим путем по ходу проекта, то риски предприятия серьезно растут.
По словам Павла Егорова, руководителя проектов big data компании «Крок» в промышленности, все больше предприятий осознают необходимость создания цифровой платформы, способной выступать в роли единой точки доступа к цифровым сервисам и данным. Именно она является необходимым базисом для реализации цифрового двойника предприятия — подхода, который постепенно становится стандартом и к которому принято стремиться. Сбор данных и их обработка позволяют организовывать мониторинг событий, проводить событийный анализ, выявлять отклонения в режиме реального времени. На основе полученной информации создаются решения промышленной аналитики и цифровые ассистенты, которые в целом дают мощный синергетический эффект.
Госсектору тоже нужны данные
Крайне важно и то, что большие данные не только начали приносить пользу в бизнесе, но и стали использоваться в социальных проектах. Вера Адаева, директор Центра цифрового развития АСИ, рассказала о ряде проектов, реализованных в рамках хакатонов World AI&Data Challenge. Хакатоны хорошо зарекомендовали себя как инструмент рекрутинга и обеспечения притока инноваций в компании. Их устраивают все крупные организации, которые могут себе это позволить. Однако у государственных структур и некоммерческих сообществ такого инструмента нет.
Проекты, формирующиеся в рамках World AI&Data Challenge, — это задачи, в которые никогда не пойдет бизнес: зачастую они не слишком рентабельны и требуют проверки гипотез. Так появились решения, связанные с повышением безопасности и снижением аварийности на дорогах, изучением портретов малообеспеченных семей, повышением туристической привлекательности регионов.
Иван Фост: «Доля актуальных и достоверных данных в госсекторе составляет не более 30%, хотя о важности обеспечения качества данных говорят абсолютно все» |
Как экспериментировать с данными в российской правовой среде, не нарушая закона, обсудили участники круглого стола «Перспективы развития отрасли больших данных с учетом появления экспериментально-правовых режимов», организованного Ассоциацией больших данных. Необходимость принятия новых правил для проведения согласованных экспериментов была ясна бизнесу, но крайне тяжело воспринималась государством. О том, что такое экспериментально-правовые режимы, как работать в новых реалиях с искусственным интеллектом, а также о том, как крупный бизнес планирует участвовать в этой инициативе, беседовали участники круглого стола — представители Администрации президента РФ, Минэкономразвития РФ, АНО «Цифровая экономика», Центра цифрового развития АСИ, ДИТ Москвы и Ассоциации больших данных.
О веяниях, наблюдающихся в работе с данными в госсекторе, и проблемах, с которыми приходится сталкиваться, рассказал Иван Фост, руководитель департамента управления данными Аналитического центра при правительстве РФ. Он привел примеры аналитических сервисов для решения социальных задач — например, использование мониторинга доступности продовольствия или распространенности занятий спортом среди пенсионеров.
В целом автоматизация текущих процессов в госсекторе и их наполненность данными весьма высоки. Однако доля актуальных и достоверных данных составляет не более 30%, хотя о важности обеспечения качества данных говорят абсолютно все. Как резюмировал Фост, запросы государства очень велики: на всех уровнях власти требуются качественные данные, причем очень быстро, но при этом на разных уровнях эти требования различаются и даже зачастую противоречат друг другу.