BIG DATA&AI 2022: подходы и инструменты

Форум BIG DATA&AI 2022, организуемый издательством «Открытые системы», — центральное событие года по теме больших данных, продвинутой аналитики и искусственного интеллекта.

Беспрецедентный кризис вызвал резкую смену приоритетов. Кардинально изменилась и повестка ежегодного форума, отражая самые насущные проблемы, волнующие профессиональное сообщество в условиях неопределенности, санкций и болезненного расставания с иностранными поставщиками платформенных решений. Благодаря партнерам форума, его участники из первых уст узнали о возможностях доступных на российском рынке технологий для управления на основе данных. (Также о форуме см. «BIG DATA&AI 2022: лучше вместе», «Компьютерный мир», 27 апреля 2022.)

Хранилища данных

В компании «Дататех», в которой на основе отечественного ПО с открытым кодом внедряют решения управления данными, создали фреймворк для автоматизации построения хранилищ данных. Этот набор методик и готовых инструментов содержит в том числе пакетные решения, а также стандарты моделирования и разработки.

«Мы ориентировались на DevSecOps как на стандарт разработки и использовали микросервисную архитектуру, методологию Data Vault 2.0 и MPP-архитектуру на основе решения Arenadata DB», — пояснил Павел Бабурин, директор по стратегическим проектам «Дататех».

Решения компании обеспечивают извлечение данных из различных источников, их приведение к единой логической модели в соответствии с методологией Data Vault 2.0, загрузку в хранилище и формирование детальных данных согласно требованиям бизнес-модели, а также построение прикладных витрин данных для бизнес-задач и предоставление к ним доступа пользователей и информационных систем.

Специалисты «Дататех» называют фреймворк готовым продуктом. Фактически это облачный сервис, который был создан в процессе реализации проекта для одного из крупных банков. В компании намерены предлагать такую комплексную методологию банкам, которым необходимо произвести срочную миграцию данных в условиях импортозамещения.

Хотя многие проекты хранилищ данных завершены успешно, существуют проблемы, способные привести к провалам или неполной реализации потенциала работы хранилищ больших данных, отметил Александр Волынский, технический менеджер продукта ML Platform компании VK Cloud Solutions.

Исходя из опыта компании и ее заказчиков, одной из важнейших проблем он считает недостаточное качество данных в условиях значительного числа территориально распределенных источников, разделения зон ответственности и ограниченных возможностей команды инженеров по данным, обслуживающих центральное хранилище.

Чтобы обеспечить надлежащий уровень качества, предлагается отнести данные к основным продуктам деятельности каждого их источника, организовать распределенное владение ими и создать единый для всех слой сервисов доставки и обеспечения качества данных. В компании разработаны методы оценки эффективности хранилищ данных, мотивации команды инженеров по данным, выбора облачных или традиционных локальных решений для организации хранилищ.

Волынский утверждает, что при облачном подходе к работе с данными кластер Kubernetes может быть развернут и поддерживаться в облаке даже сотрудником, не являющимся специалистом по использованию этой платформы.

C ростом объемов и разнообразия типов источников данных все более актуальной становится организация централизованного управления доступом к ним. При внедрении ролевой модели доступа в одном из крупнейших российских банков, специалисты компании Denodo использовали возможности своей платформы, к которой подключаются все источники данных, а также технологию виртуализации данных, позволяющую ограничивать параметры видимости отдельных наборов, строк и столбцов данных и применять алгоритмы динамического маскирования данных.

«Сложность проекта заключалась в огромном количестве правил доступа, общее число которых достигало полутора тысяч. А кроме того, следовало учесть до семи десятков ролей и столько же привилегий «поверх» всех ролей», — рассказал Иван Кириленков, технический директор Denodo.

Чтобы справиться с этой проблемой, на основе корпоративного каталога данных сформировали полную матрицу доступа с применением набора автоматических скриптов, а также реализовали автоматическую синхронизацию ролей, тегов, правил и других объектов. Использование единой платформы работы с данными позволило сделать управление доступом проще и эффективнее.

В «Сбере» создали методологию для обеспечения регулярной доставки потребителям данных из сотен источников. К ее основным принципам относятся: исключение непродуманной загрузки озера данных; постоянное отслеживание изменений данных из различных источников, технологий их использования, применяемых инструментов; внедрение средств контроля технического и бизнес-качества данных в рамках единой корпоративной модели данных. «Реализация этих положений поможет построить озеро данных и не превратить его в болото», — полагает Лариса Ихсанова, управляющий директор и руководитель управления загрузки данных «Сбера».

Платформы

Сегодня, когда данные являются основой цифровой трансформации, появляются новые модели бизнеса и «умные» приложения, предоставляющие возможность изменять организационную структуру предприятий, считают в компании «Диасофт».

Созданная в этой компании экосистема решений для цифровой трансформации включает платформу Digital Q.AIML на базе методологии MLOps (Machine Learning Operations), предназначенной для оптимизации жизненного цикла машинного обучения.

В конвейер жизненного цикла платформы Digital Q.AIML входят фабрика обучения моделей, автоматизированный конвейер их развертывания и монитор жизни моделей. Последовательность работ при решении типовых задач для платформы включает, помимо прочего, предварительную обработку данных, выбор подходящей модели обучения и предоставление доступа к обученной модели как к сервису.

«Для выпуска моделей и упаковки их в сервисы мы пишем собственные Docker-файлы и запускаем их в публикацию в существующей сборке сервисов», — пояснил Антон Шебалкин, архитектор платформы Digital Q.AiMl.

Платформы «Диасофт» позволяют извлекать из озер данных массивы информации, анализировать их и использовать для создания новых приложений, основанных на методах глубокого машинного обучения.

Платформа быстрой бизнес-аналитики Luxms BI, которую разработали в группе компаний Luxms, — это инструментарий современных цифровых организаций, предоставляющий в реальном времени сведения, необходимые для принятия решений. Одна из особенностей Luxms BI — дата-центричная архитектура, обеспечивающая высокое быстродействие за счет приближения бизнес-логики к данным: сервер приложений Luxms BI размещен внутри базы данных. Кроме того, в зависимости от востребованности данных, используется их разделение на слои, для которых система бизнес-аналитики использует различные технологии обработки.

Сергей Шестаков: одна из особенностей Luxms BI — дата-центричная архитектура, обеспечивающая высокое быстродействие за счет приближения бизнес-логики к данным: сервер приложений размещен внутри базы данных

В конце апреля выходит версия Luxms BI v8. По словам Дмитрия Дорофеева, главного архитектора Luxms, в ней реализованы пожелания заказчиков в части самообслуживания. Инструменты Self Service предоставляют пользователям свободу действий с данными, в том числе возможность выполнять подключение к источникам, делать загрузку, подготавливать визуализацию и осуществлять ряд других функций (программирование для этого не требуется). Вместе с тем в новой версии улучшен функционал самообслуживания как для инструментария построения витрин, отчетов и анализа данных Self Service BI, так и для области ETL — Self Service ETL (Data Boring). Специалисты Luxms считают, что функционал Self-Service сопоставим с таковым у лучших зарубежных BI-решений.

Компания EasyData развивает семейство кросс-платформенных программных продуктов EasyPortal для автоматизации процессов работы с файловыми системами, реляционными СУБД, хранилищами данных, платформами Big Data.

«Платформа EasyPortal охватывает большую часть задач проектов хранилищ данных и предоставляет готовое решение для разработки проектов и управления выполнением задач на технической инфраструктуре промышленной среды», — утверждает Владимир Баранов, генеральный директор EasyData.

К компонентам платформы относятся: GETL — предметно-ориентированный язык для формирования шаблонов обработки данных; EasyLoader — инструмент выполнения разработанных задач в процессе промышленной эксплуатации с использованием готовых шаблонов для захвата и обработки данных; EasyScheduler — визуальное средство управления запуском консольных приложений на удаленных серверах; EasyPortal WebServer — интерфейс для командной работы над проектами.

По данным компании, ее программные продукты задействованы в ряде крупных проектов российских организаций в качестве ETL/ELT-платформ¸ управляющих потоками данных до десятков терабайт в сутки в хранилищах данных объемом в сотни терабайт. EasyData предлагает свое ПО для замещения решений таких зарубежных производителей, как IBM, Informatica, Oracle, SAS, и ряда других.

Основное направление деятельности компании «БИТ» — разработка цифровой платформы «Управление в пространстве» и прикладных решений на ее основе. Эта российская аналитическая платформа с подходом low-code к обработке и представлению данных относится к рекомендательным системам и интеллектуальным продуктам для поддержки принятия решений.

Цифровая платформа, созданная в БИТ, автоматизирует трехмерный картографический мониторинг, динамическое моделирование, сценарное и целевое прогнозирование; реализует цифровые модели территорий на основе больших данных и геоинформационных технологий; готовит управленческие решения на базе новых ассоциаций в процессе обработки данных в быстро меняющихся условиях; осуществляет визуальное конструирование аналитических приложений.

«Мы работаем с агрегированными большими данными, используем их для поддержки деятельности территориально распределенных организаций, в том числе органов власти, которые должны принимать решения на местах», — рассказал Алексей Завьялов, директор по продукту БИТ. Среди основных отличий от других BI-решений в БИТ называют генерацию рекомендаций и целевого управления на их основе.

Прикладные решения

В компании «Нейроспектр» используют модульную архитектуру, чтобы ускорить разработку приборов для сбора больших наборов данных, применяемых для контроля качества выпускаемой продукции методами компьютерного зрения и искусственного интеллекта.

По словам Алины Радаевой, руководителя проектов по разработке роботизированных систем, в работе дефектоскопов задействованы алгоритмы компьютерного зрения и глубокие сверточные нейронные сети, которые дополняются простыми персептронами или нейросетями. В настоящее время несколько дефектоскопов установлено в Китае. В перспективе планируется реализовать управление качеством производства, используя семейство дефектоскопов с единой информационной базой, обеспечивающих аналитику производственных процессов, в том числе формирование истории жизненных циклов выпускаемых деталей.

Никита Андреянов: основанные на данных подходы обладают рядом существенных преимуществ: выявление сложных инцидентов; определение проблемных мест в ИБ-инфраструктуре; планирование модернизации и развития ИБ-систем; анализ работы ИБ-департаментов и повышение ее эффективности

Процессы и решения, основанные на анализе больших объемов данных, способны значительно повысить эффективность комплексов информационной безопасности, убеждены в компании Crosstech Solutions Group.

Никита Андреянов, технический директор Crosstech Solutions, видит в основанных на данных подходах ряд существенных преимуществ: выявление сложных инцидентов с помощью ретроспективного анализа и обнаружения аномалий в поведенческой активности; определение проблемных мест в ИБ-инфраструктуре, планирование модернизации и развития ИБ-систем; анализ работы ИБ-департаментов и повышение ее эффективности.

В компании разработали решение DataGrain ESO (Events Stream Optimization), которое позволяет собирать, фильтровать и профилировать события информационной безопасности, централизованно хранить данные в сжатом формате, передавать лишь необходимые сведения в системы сбора и анализа информации о событиях безопасности, такие как SIEM (Security information and event management).

«Повышение функциональности DataGrain ESO, этого консолидирующего центра, превращает его в комплексную платформу работы с данными систем информационной безопасности», — отметил Андреянов. В дальнейшем это позволит перейти к концепции кибербезопасности, основанной на данных, но сегодня «нужно менять культуру работы департаментов информационной безопасности и доносить до людей важность ценности данных».