BIG DATA 2019: В фундаменте проектов больших данных

Инна Гомберт: «Залогом успеха проектов больших данных являются функциональность, масштабируемость и надежность поддерживающей их инфраструктуры, объединяющей аппаратные решения, ПО и сервисы»


17:58 03.04.2019   |   8657 |  Алексей Чернобровцев |  Computerworld Россия

Рубрика Индустрия



Отдельная секция ежегодного форума, проводимого издательством «Открытые системы», посвящена обсуждению современных платформ хранения и обработки больших данных.

Форум BIG DATA 2019, вошедший в число самых заметных событий российской ИТ-индустрии, собрал 27 марта более 400 представителей отечественных предприятий и организаций из различных отраслей.

Премиум-партнером форума в этом году стал Leaseweb, один из крупнейших европейских хостинг-провайдеров. Инна Гомберт, директор по развитию бизнеса компании, в пленарном докладе подчеркнула важность надежной масштабируемой инфраструктуры, которая объединяет аппаратные решения, ПО и сервисы и является «залогом успеха проектов больших данных». Фундамент такой инфраструктуры образуют платформы хранения больших данных, обсуждению которых была посвящена отдельная секция форума.

Одним из ведущих мировых производителей систем хранения, представленных на форуме, является компания Hitachi. Созданное ею семейство массивов хранения поставляется компанией Hitachi Vantara, образованной после череды корпоративных структурных изменений в результате объединения Hitachi Insight Group и Hitachi Data Systems. Последняя к моменту объединения приобрела компанию Pentaho, разработчика продуктов и технологий обработки больших данных, включая ее собственную аналитическую платформу.

«Pentaho – уникальное предложение, позволяющее создать единую среду для интеграции, анализа и представления поступающих из различных источников данных, что заметно повышает эффективность сотрудничества ИТ-специалистов и бизнеса, позволяет извлекать из данных ценные для бизнеса сведения», — подчеркнул Ким Несс, главный архитектор данных Hitachi Vantara в странах Европы, Ближнего Востока и Африки.

Анонсированное в конце прошлого года решение Hitachi Pentaho 8.2 встраивает аналитику и управление данными в Hitachi Content Platform, формирует озеро данных и обеспечивает поэтапное перемещение очищенных данных в хранилище в гибридных облаках.

Основными устройствами хранения, используемыми в системах обработки больших данных, остаются традиционные дисковые накопители. «К концу 2025 года до 80% данных все еще будет размещаться на жестких дисках», — заверил Григорий Никонов, системный инженер компании Western Digital, отметив при этом, что рост объемов накопленных данных стимулирует разработку новых технологий и вывод на рынок дисков повышенной емкости.

Пределы плотности магнитной записи к настоящему времени практически достигнуты, поэтому до недавнего времени увеличение емкости дисков происходило за счет роста числа пластин в заполненных гелием корпусах накопителей. Возможность дальнейшего роста объемов жестких дисков связывают с внедрением технологий записи с энергетической поддержкой. Как пояснил Никонов, это термоассистируемая магнитная запись HAMR (heat assisted magnetic recording) и сопровождаемая микроволновым излучением запись MAMR (microwave assisted magnetic recording).

В целом, к 2025 году можно ожидать появления 40-терабайтных накопителей, уверен Никонов. Сегодня объем дисков Western Digital Ultrastar DC HC 620, в которых применяется технология черепичной магнитной записи, составляет 15 Тбайт.

Рост популярности программно-конфигурируемых центров обработки данных, компонентами которых являются в том числе и программно-управляемые системы хранения, ведет к увеличению спроса на дисковые полки высокой и сверхвысокой плотности. Western Digital выпускает такие полки (Ultrastar Data60 и Ultrastar Data102, в которые устанавливаются 3,5-дюймовые диски в количестве 60 и 102 штук соответственно), а также платформу 2U24 Flash Storage Platform. Для полок разработаны система охлаждения ArctiCool и технология подавления вибрации IsoVibe.

Компания Pure Storage предлагает для работы с большими данными полностью твердотельные горизонтально масштабируемые файловые и объектные массивы FlashBlade, рассчитанные на поддержку аналитических приложений, задачи машинного обучения и другие подобные нагрузки, работающие в реальном времени.

По словам Алексея Аверина, технического директора Pure Storage в России и СНГ, платформа FlashBlade основана на архитектуре с массивным параллелизмом и по таким параметрам, как емкость, производительность и масштабируемость, полностью отвечает требованиям современных аналитических приложений на базе Apache Spark, Hadoop и ряда других технологий обработки больших данных.

Об этом свидетельствует собственный опыт компании Pure Storage, использующей Spark-кластер, системой хранения для которого служит массив FlashBlade. Кластер нужен разработчикам для обработки и хранения результатов натурного тестирования и моделирования. Производительность кластера обеспечивает обработку до 20 тыс. результатов тестов в день.

Такое же решение применяется для мониторинга и проактивного обслуживания массивов хранения более 400 заказчиков компании по всему миру. С его помощью можно оперативно выявлять и устранять возникающие проблемы, предотвращать появление уже известных нежелательных ситуаций, формировать рекомендации для совершенствования инфраструктуры (см. также «В Москве прошла вторая конференция Pure Storage », Computerworld Россия, 01 октября 2018).

«В 70% случаев мы сами инициируем устранение возможных проблем в оборудовании заказчиков», — подчеркнул Аверин.

Для многих слушателей как сенсация прозвучало сообщение Александра Степнова, менеджера по продуктам центра разработки микроэлектроники GS Nanotech. «Мы производим твердотельные накопители», — заявил он.

Расположенная в Калининградской области компания, которая входит в группу GS Group, освоила серийное производство твердотельных SATA-модулей форм-фактора 2,5 дюйма емкостью до 2 Тбайт, а также модулей с разъемами M2 емкостью до 512 Мбайт с интерфейсами SATA 3.0 6 Гбит/с. В марте текущего года в GS Group началось производство SSD-модулей с интерфейсами PCI Express и максимальной емкостью 2 Тбайт.

Все это выглядит многообещающе, и тем не менее факторами, которые определят спрос, станут цены и объемы производства GS Group.


Теги: Системы хранения Большие данные BIG DATA 2019
На ту же тему: