Splice Machine объединит OLTP и OLAP

По признанию экспертов, до недавних пор объединение разнородной рабочей нагрузки в рамках одной СУБД представляло очень сложную задачу


15:18 26.11.2015   |   3420 |  Тор Олавсруд |  CIO Magazine, США

Рубрика Технологии



Версия реляционной СУБД Splice Machine 2.0 сочетает в себе масштабируемость Hadoop и присущую Spark скорость обработки данных в оперативной памяти.

Компания Splice Machine анонсировала вторую версию своей системы управления реляционными базами данных, которая обещает предоставить клиентам масштабируемость Hadoop в сочетании с производительностью Spark, при этом не потребуется переписывать код SQL и переобучать персонал.

«Это настоящий прорыв в технологиях СУБД, – заявил один из основателей и генеральный директор Splice Machine Монте Цвебен. – До недавних пор объединение разнородной рабочей нагрузки в рамках одной СУБД представляло очень сложную задачу. Компаниям приходилось обрабатывать транзакции в реальном времени на одной платформе, а затем переносить все данные на другую платформу с помощью технологий ETL (extract, transform, load) и уже там анализировать их».

Такая архитектура приводила к существенным задержкам при принятии решений: фактически компании были вынуждены оперировать вчерашними данными.

Как это работает

В новой СУБД применяется метод изоляции ресурсов – компоненты Hadoop и Spark управляются отдельными процессами, которым выделяются свои собственные ресурсы. В результате сложные запросы оперативной аналитической обработки (online analytical processing, OLAP) не мешают выполнению запросов оперативной обработки транзакций (online transaction processing, OLTP).

Устанавливая уровни приоритетов для запросов OLAP, пользователи могут быть уверены, что важные отчеты не будут блокированы процессами массовой пакетной обработки, потребляющими все доступные ресурсы кластера. В новой версии появилась также консоль расширенного управления, позволяющая следить за выполнением запросов и визуализировать каждый из этапов, включая просмотр в реальном времени сведений об ошибках при выполнении пакетного импорта.

«Процедуры анализа не влияют на транзакции и не мешают их обработке, – подчеркнул Цвебен. – При наличии гибридной архитектуры вы можете одновременно управлять нагрузкой разного характера и принимать решения на основе актуальной информации».

Такой подход идеально удобен для самых разных сценариев, начиная от цифрового маркетинга и заканчивая различными приложениями: Интернета вещей, мобильными, операционными, веб-приложениями и приложениями социальных сетей, а также ускорением процедур ETL, управлением озерами данных и снижением нагрузки на хранилища данных.

«Формируя доступную операционную платформу, предназначенную для одновременной поддержки рабочей нагрузки OLTP и OLAP, Splice Machine 2.0 предлагает бизнесу уникальный и мощный способ проведения анализа в реальном времени и выполнения оперативных запросов, не жертвуя при этом производительностью, – отметил вице-президент компании Cloudera по продуктам Чарльз Зедлевски. – В условиях, когда все больше клиентов начинают запускать Spark на платформе Cloudera, интеграция Splice Machine расширит аналитические возможности наших корпоративных центров данных и позволит клиентам из различных отраслей еще эффективнее управлять всеми типами рабочей нагрузки».

Обработка неструктурированных данных средствами SQL

Архитектура Splice Machine 2.0 предусматривает выполнение федеративных запросов к внешним базам данных и файлам с использованием Virtual Table Interfaces (VTI). Возможно также применение всех ранее созданных библиотек Spark для машинного обучения, потокового анализа, интеграции данных и графового моделирования.

Таким образом, с помощью VTI даже реляционная СУБД сможет обрабатывать неструктурированные данные.

«Появляется реальная возможность выполнять запросы к внешним данным, в том числе и неструктурированным, – указал Цвебен. – Кроме того, у нас есть интерфейс, представляющий собой, по сути, стандартный интерфейс Hadoop и обладающий всеми преимуществами обработки неструктурированной информации средствами Hadoop и Spark. Мы можем обратиться к своей базе данных и получить оттуда согласованные в транзакционном отношении данные. После обработки они помещаются обратно также с использованием транзакций. Таким образом, организации смогут воспользоваться всеми достоинствами баз данных NoSQL, не выплескивая вместе с водой и ребенка. На SQL написаны уже миллиарды строк кода. Не думаю, что компаниям имеет смысл их переписывать. К тому же SQL обладает более мощными средствами по сравнению с NoSQL. Разработчики создают корпоративные приложения, имея за плечами 30-летний опыт использования SQL. Мы вполне обоснованно полагаем, что нашим клиентам вряд ли захочется переписывать весь этот код и тратить миллионы долларов на переобучение персонала».

В настоящее время компания принимает заявки на тестирование общедоступной бета-версии Splice Machine 2.0. По оценкам Цвебена, тестирование будет продолжаться несколько месяцев, а появление окончательной версии ожидается в первой половине 2016 года.

Обращаясь к желающим принять участие в тестировании бета-версии, Цвебен сказал, что в первую очередь Splice Machine ищет организации со смешанной рабочей нагрузкой – особенно те, которым требуется обновление данных в реальном времени и предоставление множеству пользователей одновременного доступа к ним. Другое требование касается частого анализа данных, будь то регулярно получаемые отчеты или произвольный анализ.

Особенно интересуют Splice Machine сценарии использования приложений цифрового маркетинга, финансовых сервисов и приложений наук о жизни.

Заявку на участие в тестировании Splice Machine 2.0 уже направила компания Wells Fargo.

«Для сферы финансовых услуг характерен экспоненциальный рост объемов данных, причем их анализ не терпит отлагательства, – заявил глава подразделения исследований и разработок Wells Fargo Джесси Лунд. – Это заставляет нас искать новые архитектуры, позволяющие одновременно справляться как с операционной, так и с аналитической нагрузкой. Гибридная архитектура Splice Machine 2.0 производит хорошее впечатление, и нам очень хотелось бы испытать ее на деле».


Теги: Программное обеспечение Статьи NoSQL Hadoop Apache Spark in_bigdata
На ту же тему: