Корпоративные озера данных продолжают расширяться — в первую очередь за счет неструктурированных данных. Их основу сегодня составляют различный контент (аудио- и видеоматериалы, изображения, документы, результаты медицинских исследований, данные геоинформационных систем), сообщения социальных сетей и электронной почты, записи показаний различных приборов Интернета вещей (IoT и IIoT), телематических измерений и пр.
HCP позволяет расширять емкость облачного хранилища с терабайт до экзабайт, создавая значительный запас емкости по мере необходимости. |
Для хранения неструктурированных данных сегодня широко применяются облачные объектные сервисы, такие, например, как Amazon Simple Storage Service (S3), чей протокол уже стал стандартом де-факто для доступа к объектам. С одной стороны, эти сервисы позволяют не заботиться об инфраструктуре хранения и обеспечении быстрого доступа к объектам. С другой — в силу разных причин далеко не всегда данные можно и нужно размещать в публичных облаках. Но где же тогда хранить значительные объемы неструктурированных данных — во всех смыслах эффективно и безопасно?
Hitachi Content Platform
Чтобы организации смогли безопасно хранить неструктурированные данные в локальных и гибридных средах, выстраивая по-настоящему зрелые процессы DataOps, компания Hitachi Vantara разработала портфель решений Hitachi Content Platform (HCP). На их основе можно создавать не только локальные, но и распределенные хранилища данных разных типов, консолидируя с их помощью весь корпоративный контент и централизованно управляя им на протяжении всего его жизненного цикла. Расширенные функции HCP для работы с метаданными позволяют «дирижировать» триллионами файлов и объектов и выполнять поиск по ним.
Что важно, HCP позволяет обеспечить безопасный доступ к контенту, давая возможность защищать его шифрованием и прочими известными методами, предотвращая возможные утечки и заодно поддерживая выполнение требований регуляторов в отношении персональных и прочих персональных данных. В качестве одного из вариантов использования HCP предлагается подход «однократная запись — многократное чтение», который помогает минимизировать риск искажения когда-то записанных данных.
Еще одна полезная возможность HCP — так называемое обогащение данных. Как известно, совокупность данных различной природы может оказаться гораздо более содержательной, чем те же самые данные, взятые по отдельности. Простейший пример: созданные дронами материалы фото- или видеосъемки будут иметь гораздо более высокую ценность, если «привязать» к ним данные о месте, времени, погодных, геомагнитных и прочих условиях, в которых эта съемка производилась. Ну а, например, результаты компьютерной томографии едва ли вообще будут иметь какое-либо значение без данных о пациенте, его истории болезни и прочих показателях исследований ИКТ.
Поскольку окружающие нас объемы данных продолжают расти, без масштабирования не обойтись. HCP позволяет расширять емкость облачного хранилища с терабайт до экзабайт, создавая значительный запас емкости по мере необходимости.
Удаленный доступ к хранилищу неструктурированных данных, их синхронизацию и совместное использование файлов, работу удаленных файловых сервисов и защиту данных обеспечивает компонент HCP Anywhere. Доступ к данным, получаемым и хранимым на периферии и в удаленных офисах, обеспечивает компонент HCP Anywhere Edge. Анализировать данные в хранилищах HCP помогает модуль Hitachi Content Intelligence.
«Сейчас мы видим существенный рост требований к объектным хранилищам. Если какое-то время назад это были архивные системы с гарантированным неизменяемым хранением объектов, то сейчас это высокопроизводительные системы с доступом по протоколу S3 с множеством встроенного функционала для работы современных приложений, — отмечает Алексей Никифоров, руководитель департамента технологических решений Hitachi Vantara в России и странах СНГ. — Программные и аппаратные новшества в системах HCP позволяют нашим заказчикам эффективно отвечать на данные вызовы индустрии».
Решение для высокопроизводительных нагрузок
Как правило, организациям требуется не просто хранить большие объемы данных, но обрабатывать их и анализировать. Вот что об этом пишет Амита Потнис, директор по исследованиям инфраструктурных систем компании IDC: «Директорам по информационным технологиям и ИТ-специалистам больше не нужны объектные хранилища только для данных, хранение которых установлено нормативными требованиями, архивных данных, данных второго уровня или «холодных» данных. Сейчас они рассматривают такие хранилища с точки зрения новых вариантов применения и поддержки высокопроизводительных рабочих нагрузок. Эти организации также оценивают возможность внедрения распределенных файловых решений, обеспечивающих необходимую масштабируемость и производительность для обеспечения работы требовательных вычислительных приложений, систем ИИ и аналитики реального времени».
Как видим, наряду с объектным сегодня востребован и файловый доступ к неструктурированным данным — хотя бы потому, что подавляющее большинство аналитических систем, в том числе систем машинного обучения и искусственного интеллекта привыкли иметь дело именно с файлами в качестве данных «на входе», а не с объектами.
Алексей Никифоров: «Экосистема HCP позволяет решить большинство задач по хранению и обработке неструктурированной информации» |
«Экосистема HCP позволяет решить большинство задач по хранению и обработке неструктурированной информации. Придав неструктурированным данным порядок, заказчики используют HCP как единый репозиторий данных с доступом к ним из всех систем организации, — продолжает Алексей Никифоров. — Корпоративный репозиторий позволяет быстро искать данные, обрабатывать их согласно внутренним политикам или требованиям регуляторов».
Нынешним летом Hitachi Vantara в партнерстве с компанией Weka анонсировала новое решение, которое позволит пополнить ассортимент продуктов Hitachi Vantara высокопроизводительными параллельными файловыми системами на базе NVMe, которые будут интегрированы с HCP. Это решение на основе сетевой системы хранения (NAS) будет особенно востребовано в системах искусственного интеллекта, машинного обучения и аналитических приложениях.
Hitachi Vantara также объявила о расширении HCP: благодаря высокопроизводительным узлам на базе флэш-памяти платформа HCP сможет более эффективно поддерживать неструктурированные рабочие нагрузки. В частности, пропускная способность при передаче данных по протоколу Amazon Simple Storage Service (S3) вырастет почти в 3,4 раза, что может привести к снижению затрат на 34%. Обновленные узлы СХД обеспечат повышение производительности операций чтения и записи в три раза, при этом позволят втрое увеличить емкость для стоечного пространства по сравнению с предыдущим поколением.