Хранилище данных нового поколения для контента и IoT | ИТ-индустрия – новости, обзоры, аналитика, продукты и услуги

Решения семейства Hitachi Content Platform помогут не только предоставить быстрый доступ к неструктурированным данным, но и обеспечить их анализ с использованием алгоритмов искусственного интеллекта.

Корпоративные озера данных продолжают расширяться — в первую очередь за счет неструктурированных данных. Их основу сегодня составляют различный контент (аудио- и видеоматериалы, изображения, документы, результаты медицинских исследований, данные геоинформационных систем), сообщения социальных сетей и электронной почты, записи показаний различных приборов Интернета вещей (IoT и IIoT), телематических измерений и пр.

HCP позволяет расширять емкость облачного хранилища с терабайт до экзабайт, создавая значительный запас емкости по мере необходимости.

Для хранения неструктурированных данных сегодня широко применяются облачные объектные сервисы, такие, например, как Amazon Simple Storage Service (S3), чей протокол уже стал стандартом де-факто для доступа к объектам. С одной стороны, эти сервисы позволяют не заботиться об инфраструктуре хранения и обеспечении быстрого доступа к объектам. С другой — в силу разных причин далеко не всегда данные можно и нужно размещать в публичных облаках. Но где же тогда хранить значительные объемы неструктурированных данных — во всех смыслах эффективно и безопасно?

Hitachi Content Platform

Чтобы организации смогли безопасно хранить неструктурированные данные в локальных и гибридных средах, выстраивая по-настоящему зрелые процессы DataOps, компания Hitachi Vantara разработала портфель решений Hitachi Content Platform (HCP). На их основе можно создавать не только локальные, но и распределенные хранилища данных разных типов, консолидируя с их помощью весь корпоративный контент и централизованно управляя им на протяжении всего его жизненного цикла. Расширенные функции HCP для работы с метаданными позволяют «дирижировать» триллионами файлов и объектов и выполнять поиск по ним.

Что важно, HCP позволяет обеспечить безопасный доступ к контенту, давая возможность защищать его шифрованием и прочими известными методами, предотвращая возможные утечки и заодно поддерживая выполнение требований регуляторов в отношении персональных и прочих персональных данных. В качестве одного из вариантов использования HCP предлагается подход «однократная запись — многократное чтение», который помогает минимизировать риск искажения когда-то записанных данных.

Еще одна полезная возможность HCP — так называемое обогащение данных. Как известно, совокупность данных различной природы может оказаться гораздо более содержательной, чем те же самые данные, взятые по отдельности. Простейший пример: созданные дронами материалы фото- или видеосъемки будут иметь гораздо более высокую ценность, если «привязать» к ним данные о месте, времени, погодных, геомагнитных и прочих условиях, в которых эта съемка производилась. Ну а, например, результаты компьютерной томографии едва ли вообще будут иметь какое-либо значение без данных о пациенте, его истории болезни и прочих показателях исследований ИКТ.

Поскольку окружающие нас объемы данных продолжают расти, без масштабирования не обойтись. HCP позволяет расширять емкость облачного хранилища с терабайт до экзабайт, создавая значительный запас емкости по мере необходимости.

Удаленный доступ к хранилищу неструктурированных данных, их синхронизацию и совместное использование файлов, работу удаленных файловых сервисов и защиту данных обеспечивает компонент HCP Anywhere. Доступ к данным, получаемым и хранимым на периферии и в удаленных офисах, обеспечивает компонент HCP Anywhere Edge. Анализировать данные в хранилищах HCP помогает модуль Hitachi Content Intelligence.

«Сейчас мы видим существенный рост требований к объектным хранилищам. Если какое-то время назад это были архивные системы с гарантированным неизменяемым хранением объектов, то сейчас это высокопроизводительные системы с доступом по протоколу S3 с множеством встроенного функционала для работы современных приложений, — отмечает Алексей Никифоров, руководитель департамента технологических решений Hitachi Vantara в России и странах СНГ. — Программные и аппаратные новшества в системах HCP позволяют нашим заказчикам эффективно отвечать на данные вызовы индустрии».

Решение для высокопроизводительных нагрузок

Как правило, организациям требуется не просто хранить большие объемы данных, но обрабатывать их и анализировать. Вот что об этом пишет Амита Потнис, директор по исследованиям инфраструктурных систем компании IDC: «Директорам по информационным технологиям и ИТ-специалистам больше не нужны объектные хранилища только для данных, хранение которых установлено нормативными требованиями, архивных данных, данных второго уровня или «холодных» данных. Сейчас они рассматривают такие хранилища с точки зрения новых вариантов применения и поддержки высокопроизводительных рабочих нагрузок. Эти организации также оценивают возможность внедрения распределенных файловых решений, обеспечивающих необходимую масштабируемость и производительность для обеспечения работы требовательных вычислительных приложений, систем ИИ и аналитики реального времени».

Как видим, наряду с объектным сегодня востребован и файловый доступ к неструктурированным данным — хотя бы потому, что подавляющее большинство аналитических систем, в том числе систем машинного обучения и искусственного интеллекта привыкли иметь дело именно с файлами в качестве данных «на входе», а не с объектами.

Алексей Никифоров: «Экосистема HCP позволяет решить большинство задач по хранению и обработке неструктурированной информации»

«Экосистема HCP позволяет решить большинство задач по хранению и обработке неструктурированной информации. Придав неструктурированным данным порядок, заказчики используют HCP как единый репозиторий данных с доступом к ним из всех систем организации, — продолжает Алексей Никифоров. — Корпоративный репозиторий позволяет быстро искать данные, обрабатывать их согласно внутренним политикам или требованиям регуляторов».

Нынешним летом Hitachi Vantara в партнерстве с компанией Weka анонсировала новое решение, которое позволит пополнить ассортимент продуктов Hitachi Vantara высокопроизводительными параллельными файловыми системами на базе NVMe, которые будут интегрированы с HCP. Это решение на основе сетевой системы хранения (NAS) будет особенно востребовано в системах искусственного интеллекта, машинного обучения и аналитических приложениях.

Hitachi Vantara также объявила о расширении HCP: благодаря высокопроизводительным узлам на базе флэш-памяти платформа HCP сможет более эффективно поддерживать неструктурированные рабочие нагрузки. В частности, пропускная способность при передаче данных по протоколу Amazon Simple Storage Service (S3) вырастет почти в 3,4 раза, что может привести к снижению затрат на 34%. Обновленные узлы СХД обеспечат повышение производительности операций чтения и записи в три раза, при этом позволят втрое увеличить емкость для стоечного пространства по сравнению с предыдущим поколением.