Возможность использования облаков для хранения больших данных рассматривается сегодня во многих крупных российских компаниях. Сергей Золотарёв, генеральный директор Arenadata, рассказывает, почему следует с вниманием относиться к новым предложениям облачных провайдеров и действительно ли переход в облака остаётся лишь вопросом времени.
Переоценка подхода к хранению данных
Когда технология больших данных только создавалась, предполагалось, что самая правильная инфраструктура для их использования — Bare-Metal («голое железо»). Именно на ней разворачивались все первые кластеры как Hadoop, так и MBP MPP (Massive Parallel Processing) СУБД.
Однако за последние пару лет произошла переоценка этого подхода, которая привела к тому, что типовые инструменты больших данных появились у всех крупнейших облачных провайдеров (Amazon, Google, Microsoft Azure). Их предложением заинтересовались многие компании, ведь инфраструктура для работы с большими данными стала доступнее.
Те, кто решил воспользоваться новыми возможностями, получили ряд неоспоримых преимуществ:
- стали доступны технологии, которые весьма сложно развернуть самостоятельно;
- удалось оценить эластичность облака: в случае пиковой загрузки можно обработать большой объём информации, а затем, когда данных станет меньше, вернуться к исходной ёмкости;
- исчезла проблема дефицита кадров: не нужно тратить время на поиск специалиста, который хорошо разбирается в технологии и поможет внедрить её в компании? в облаке можно легко получить доступ к самым новым инструментам.
Не будет преувеличением, если я скажу, что во всём мире к облакам стали относиться со всей серьезностью. Наглядной иллюстрацией является слияние компаний Cloudera и Hortonworks — двух лидеров рынка Hadoop. В прошлом году новость об этой сделке широко обсуждалась, и аналитики пришли к выводу, что одной из основных её причин стало возрастающее конкурентное давление на Cloudera и Hortonworks со стороны облачных провайдеров. Но, как показало время, слияние произошло поздно, поскольку клиентская база у облачных провайдеров уже достигла критических размеров. На мой взгляд, Cloudera проигрывает эту гонку.
Другими многочисленными примерами являются крупные зарубежные инсталляции облачных проектов, предусматривающих работу с большими данными.
Облака в России
Популярность облаков в России мы оцениваем с точки зрения интереса к нашей платформе Arenadata Enterprise Data Platform (EDP) со стороны всех крупных облачных провайдеров. Сотрудничество со многими из них уже началось. Например, недавно подписано стратегическое соглашение с Mail.ru, в рамках которого вместе с Mail Cloud Solutions компания Arenadata берет на себя разработку готового промышленного решения для компаний, желающих плавно и предсказуемо осуществить миграцию сервисов в облачные среды.
Если же говорить о сценариях использования облаков в России для работы с большими данными, то среди них есть три самых востребованных.
Во-первых, многие компании охотно переносят в облако среды тестирования и разработки, а также проекты, подразумевающие командное взаимодействие. При этом они стараются держать внутри компании продуктивные кластеры и нагрузку.
Во-вторых, крупнейшие производственные предприятия, выявляя закономерности неприватных данных (например, машинной информации), с помощью облаков привлекают к их анализу группы Data Science.
В-третьих, создаются различные государственные и национальные программы. В настоящее время вопрос обеспечения безопасности информации является комплексным, организовать соблюдение всех нормативных требований очень трудно, и поэтому компании объединяются. Какой-либо облачный провайдер предоставляет все необходимые инструменты для хранения и защиты данных, на его базе реализуется платформа данных, в которой участники альянса хранят свою информацию. Пример такого рода проектов — межотраслевой консорциум «Автодата.Рус», цель которого? создание единой национальной сервисной телематической платформы «Автодата» для хранения автомобильных данных. Этот сложнейший проект может быть реализован исключительно в облаке. «Автодата» собирает партнёров, способных выстроить все уровни защищённости данных, а Arenadata берет на себя технологическое наполнение платформы.
Действительно ли неизбежен переход в облако
Согласно расчетам аналитиков, через 10–15 лет все инфраструктуры станут облачными. Дело в том, что постепенно доводов в пользу использования облаков становится больше, чем контраргументов.
Что же касается хранилищ, то сложно предсказать, какая часть данных будет обрабатываться внутри компании, а какая — в облаках. Это покажут результаты перехода ИТ-систем в облака.