Весной этого года Micro Focus представила новую версию Vertica 10, и основное внимание на «Форуме пользователей Vertica. Лето 2020» было уделено реализованным в ней техническим новинкам. Однако спикеры форума также напомнили слушателям об истории, основных направлениях развития и глобальной миссии Vertica и рассказали о практическом опыте использования унифицированного аналитического хранилища в решении бизнес-задач мировых и российских компаний.
Миссия — унификация
Vertica была создана под руководством известного специалиста в области баз данных, лауреата премии Тьюринга Майкла Стоунбрейкера как колоночная база данных с поддержкой массово-параллельной обработки (MPP), что изначально определило беспрецедентные возможности платформы с точки зрения производительности и масштабируемости.
Дальнейшее развитие Vertica за 15 лет ее истории определялось ключевыми тенденциями работы с данными, которые доминировали на рынке. Накопление огромных объемов данных требовало эффективных инструментов для их обработки — данные должны приносить пользу бизнесу, а не лежать мертвым грузом. Отличительной чертой Vertica является то, что это не просто хранилище, а аналитическое хранилище — одна из первых на рынке платформ со встроенными функциями предиктивного анализа и машинного обучения.
Еще одной важной тенденцией стало распространение облачных технологий и рост интереса заказчиков к размещению данных в облаке, на что Vertica ответила поддержкой облачного развертывания и гибридной инфраструктуры.
С ростом популярности Hadoop и востребованности технологий больших данных компании начали все активнее осваивать новый формат хранения — озера данных в противовес традиционным хранилищам, позволяющим работать только со структурированными данными. Vertica не считает правильным противопоставление этих двух типов хранения, поскольку каждый из них имеет свои преимущества для определенного круга задач. Не видят в Vertica перспектив и в организации единого централизованного репозитория для всех типов данных — по этому пути пытаются идти вендоры традиционных хранилищ.
Подход Vertica состоит в создании унифицированной платформы для работы со всем многообразием типов данных, которые доступны и необходимы бизнес-аналитикам и специалистам в исследовании данных (data science). При этом Vertica не навязывает хранение у себя этих данных (что тоже возможно, но не обязательно), а обеспечивает интеграцию своих инструментов обработки данных (построения отчетности, углубленной аналитики, машинного обучения) с внешними источниками, равно как и возможность работать с внешним инструментарием анализа данных.
В результате такого подхода Vertica на сегодняшний день занимает уникальное положение на рынке со своим предложением унифицированного аналитического хранилища, способного работать с разными типами инфраструктуры хранения, различными опциями развертывания и разнообразным инструментарием анализа данных. По существу, Vertica обеспечивает единую гибкую, высокопроизводительную и масштабируемую платформу для реализации как традиционных хранилищ структурированных данных, так и озер данных, объединяя тем самым не только разные технологии, но и, что, возможно, еще важнее, разные сообщества пользователей — бизнес-аналитиков и специалистов в исследовании данных (data scientists).
Новые вызовы и Vertica 10
Благодаря последовательной реализации своей миссии — формирования унифицированного аналитического хранилища данных, Vertica оказалась полностью готова к тем новым вызовам, которые возникли в последнее время на рынке хранения и обработки данных. На этом подробно остановился в своем выступлении Колин Махони (Colin Mahony), СЕО Vertica.
Рост объемов данных продолжается, но инфраструктура Hadoop, на которую было возложено столько надежд в недавнем прошлом, не оправдывает ожиданий с точки зрения производительности, поддержки многозадачности, обеспечения корпоративных требований к безопасности и надежности. Отказ компаний от работы с Hadoop приводит к тому, что эксабайты данных, представляющих большой интерес для бизнеса, оказываются в «подвешенном» состоянии. Одновременно растет популярность объектных облачных хранилищ, строящихся в изоляции от традиционных корпоративных хранилищ данных, информация из которых также остается актуальной для решения ряда бизнес-задач.
Колин Махони подчеркнул, что Hadoop и объектное хранение в облаке полностью «перевернули» существовавшую до того экосистему хранения, открыв дорогу бурному развитию интерактивной сложной аналитики. «Мы в Vertica понимали, что изменения в этой области настолько кардинальные, что нет смысла самостоятельно разрабатывать что-то свое. Вместо этого мы, исходя из основополагающей идеи унифицированного аналитического хранилища, решили адаптировать свою архитектуру таким образом, чтобы включить в ее орбиту объектные хранилища».
Так два года назад появилась Eon Mode — опция развертывания кластера Vertica на базе облачного хранилища. Eon Mode реализует принцип разделения хранения и вычислительных мощностей, что обеспечивает дополнительную гибкость в управлении облачными нагрузками. Как подчеркивают в компании, Eon Mode не является отдельным продуктом, это лишь вариант развертывания платформы наряду c Enterprise Mode для серверов в локальном ЦОДе, и, покупая Vertica, заказчики могут выбрать тот или иной вариант либо комбинировать их, решая проблему изолированных «вертикалей» хранения данных в облачных озерах и хранилищах on-premise.
Изначально опция Vertica Eon Mode была реализована для сервиса хранилища данных S3 в облаке Amazon (AWS). С выходом Vertica 10 обеспечивается также возможность развертывания платформы на базе облачного объектного хранилища Google Cloud Platform. Кроме того, новая версия включает в себя опцию Eon Mode for HDFS — важный шаг в направлении защиты инвестиций заказчиков в озера данных, построенные на инфраструктуре Hadoop. Эта опция обеспечит существенное улучшение гибкости и производительности работы с данными распределенной файловой системы Hadoop за счет заложенного в Eon Mode принципа разделения хранения и вычислительных мощностей и позволит применить к данным в HDFS любые инструменты продвинутой аналитики, которые предоставляет и с которыми интегрируется Vertica.
Колин Махони заметил, что при очевидном хайпе вокруг облаков реальная ситуация с ними складывается не такая уж «безоблачная»: затраты на облачную инфраструктуру оказываются более высокими, чем рассчитывают заказчики, риски с точки зрения безопасности и приватности не снимаются, а, наоборот, растут. Все это приводит к тому, что все больше компаний отказываются от развертывания своих систем в публичном облаке, предпочитая комбинировать облака и собственные ЦОДы.
Vertica полностью готова к этому. «Мы затрачиваем очень много энергии на унификацию аналитики в гибридной среде, чтобы дать организации полную свободу маневра: вы можете развернуть Vertica в одной области, затем перейти в другую или сочетать разные, с одинаковой эффективностью используя данные независимо от того, где они размещены физически», — сказал Махони.
И наконец, еще одна важнейшая тенденция последних лет — операционализация машинного обучения. Компаниям необходимо, чтобы проекты в области data science быстро выводились в продуктивную среду и начинали приносить реальную выгоду бизнесу. Многие существующие решения сдерживают этот процесс, не предоставляя нужных инструментов продвинутой аналитики или требуя сложной интеграции для развертывания моделей машинного обучения. «Vertica — идеальная платформа для сбора и подготовки данных для применения алгоритмов машинного обучения, — подчеркнул Махони. — Вы не только можете разработать модель, но и получаете возможность развернуть ее на той же самой платформе».
Vertica предоставляет широкий спектр возможностей продвинутого анализа данных, непосредственно встроенных в платформу. В Micro Focus сообщают, что по количеству таких функций Vertica лидирует на рынке и в новой версии их стало еще больше: в Vertica 10 добавлено более 30 новых аналитических инструментов. Среди них, например, VerticaPy — решение с открытым кодом, сочетающее преимущества сбора и подготовки данных в колоночной базе с МРР и построение моделей на языке Python, одном из основных инструментов data science.
Но важно также, что платформа не ограничивается собственными инструментами машинного обучения — она дает возможность работать с внешними решениями. В Vertica 10 их список расширен: платформа теперь поддерживает интеграцию с популярной открытой библиотекой Tensorflow, а также позволяет импортировать и экспортировать прогнозные модели в формате PMML.
Не просто клиенты, а партнеры
Колин Махони: «Vertica пережила много вех в своей истории, но чем крупнее мы становимся, тем больше ведем себя как стартап. Парадокс? Нет. Сегодня, чтобы добиваться успеха, надо на каждом новом уровне развития оставаться столь же инновационными, как стартапы» |
«Вдохновляют не только возможности и перспективы технологий Vertica, но и то, что делают с их помощью наши клиенты», — отметил Колин Махони. На форуме были представлены кейсы нескольких международных компаний из разных отраслей с масштабными развертываниями Vertica. Показательно то, что многие из них являются не только успешными пользователями, но и активными партнерами Vertica по развитию функциональности платформы.
Так, например, рекламная платформа theTradeDesk была одним из первых пользователей бета-версии Vertica Eon Mode и внесла значительный вклад в развитие ее функциональности. В AT&T перевели свои аналитические задачи с дорогой и функционально избыточной платформы Teradata на кластер Vertica и в процессе выдвинули идею реализации принципа разделения хранения и вычислительных мощностей Eon Mode в локальном ЦОДе, что и было успешно реализовано на базе систем хранения Pure Storage.
Разработчики Uber приняли участие в создании инструмента VerticaPy. Кроме того, во многом по инициативе этого клиента в Vertica появилась возможность развертывания Eon Mode c использованием HDFS в качестве разделяемого хранилища.
В России тоже немало активных пользователей Vertica. Дмитрий Володин, архитектор КХД Сибур Digital, признался, что давно работает с платформой и по-настоящему любит и ценит ее. Он рассказал участникам форума об организации процесса непрерывной интеграции и поставки (CI/CD) в отношении схем хранения Vertica. Подробно познакомиться с этим кейсом можно здесь.
Колин Махони заметил, что революция данных, охватившая мир, происходит и в России, и в компании впечатлены теми реализациями Vertica, которые есть в стране. Он заверил, что в Micro Focus с большим энтузиазмом относятся к развитию бизнеса Vertica в России и готовы к самому тесному общению с российскими клиентами, чтобы в полной мере понимать их отличия от западных компаний и реализовывать их потребности в области унифицированной аналитики.
«Vertica пережила много вех в своей истории, но чем крупнее мы становимся, тем больше ведем себя как стартап. Парадокс? Нет. Сегодня, чтобы добиваться успеха, надо на каждом новом уровне развития оставаться столь же инновационными, как стартапы, и, как они, продолжать делать новые интересные вещи», — подытожил глава Vertica.
Приглашаем вас познакомиться с выступлениями участников «Форума пользователей Vertica. Лето 2020». Полная трансляция форума доступна в записи — https://www.vertica.com/ru/vertica-forum/