В поиске способов повышения эффективности работы платформ анализа больших данных, многие администраторы сетей и центров обработки данных задумываются об использовании облачных сервисов. Однако торопиться не стоит – споры о том, годится ли публичное облако для анализа больших данных, не умолкают.
Для некоторых приложений больших данных публичные облачные сервисы в расчете на длительное использование могут обойтись слишком дорого, а в силу задержек все будет работать медленнее, чем в частном облаке непосредственно на месте. К тому же во многих случаях хранить данные «у себя» имеет смысл и для соблюдения требований регуляторов, и для обеспечения необходимой безопасности.
Учитывая все это, Dell EMC совместно с компанией BlueData, поставщиком программной платформы на базе контейнеров для решения задач искусственного интеллекта и больших данных, разработали Ready Solutions for Big Data – пакет инструментов работы с большими данными, предлагаемый в качестве сервиса (Big Data as a Service, BDaaS) для ЦОДов, но развертываемый во собственной инфраструктуре клиента. В этом решении серверы, системы хранения, сетевые средства и сервисы Dell EMC объединены с программным обеспечением BlueData, и все это оптимизировано для анализа больших данных.
«Сопоставляя возможности облака и систем, развертываемых локально, поставщики ищут компромиссные решения», – подчеркнул Харольд Крейтцман, вице-президент компании Edison Group по стратегическим консультационным услугам. По заказу Dell EMC специалисты Edison Group проводили анализ общей стоимости владения Ready Solutions for Big Data.
«Безусловно, публичные облачные сервисы дают небольшим компаниям доступ к вычислительным мощностям, которыми обладают богатые крупные предприятия, без соответствующих затрат на инфраструктуру, – пояснил Крейтцман. – Но облачные сервисы требуют оплаты того, за что вы обычно не платите при использовании систем, развернутых локально (например, за перенос данных). А поскольку аналитические приложения постоянно извлекают данные из облака, такие затраты могут быть довольно существенными. Кроме того, публичные облачные сервисы обычно предоставляются в рамках определенного географического региона, а пересмотр границ региона может приводить к увеличению затрат более чем на 20%. Все полагают, что облачные решения обходятся дешевле, а на поверку выходит, что чем шире ваша география, тем выше затраты».
Решение Dell EMC Ready Solutions for Big Data с начальной стоимостью 800 тыс. долл., очевидно, предназначено для крупных компаний. В зависимости от выбранной конфигурации, различных программных средств и аппаратных технологий оно может включать в себя следующие компоненты:
- Программное обеспечение BlueData EPIC. Платформа BlueData EPIC (сокращение от Elastic Private Instant Clusters) использует контейнерную технологию Docker, позволяющую за несколько минут развернуть виртуальные кластеры Hadoop или Spark, предоставляя аналитикам и исследователям данных доступ по требованию к приложениям, данным и инфраструктуре. Сюда же относится программное обеспечение Spark, Kafka и Cassandra.
- Серверы Dell EMC PowerEdge R640 или R70xd с процессорами Intel Xeon и операционной системой Red Hat Enterprise Linux. Доступны также графические ускорители Nvidia Tesla V100.
- Коммутаторы. Мультискоростной коммутатор S5048-ON 25GbE ToR поддерживает 48 портов 25GbE и шесть портов 100GbE либо 72 порта 25GbE. Коммутатор S3048-ON оснащен 48 портами 1GbE и 4 портами 10GbE.
В состав пакета BDaaS включен также ряд базовых сервисов. Дополнительные сервисы можно получить в рамках технического сопровождения. «Мы придерживаемся интегрального, целостного подхода, – отметил директор Dell EMC по маркетингу продуктов Кевин Грей, выступая на конференции Strata Data в Нью-Йорке. – Наши специалисты выполняют установку, а наши сервисы Accelerate не только помогают проделать это, но и позволяют клиенту получить первый опыт и понять, что его ждет в дальнейшем и как лучше проводить анализ в имеющейся среде».
Зачастую компания создает решение для анализа больших данных, которое передается определенной группе аналитиков и исследователей данных, а затем уже другой проект инициируется для другой группы пользователей.
«Со временем компания погружается сразу в несколько проектов, и данные приходится реплицировать снова и снова, – пояснил Грей. – Ready Solutions предлагает серверы для консолидации программного обеспечения, данных и оборудования, что позволяет сократить затраты и усилия, необходимые для разработки приложений».