Как еще раз продемонстрировал недавний форум «Управление данными — 2020», интерес к данной тематике весьма велик: в работе форума приняли участие очно и дистанционно более 300 человек.
В условиях постоянного роста объема деловой информации одним из важнейших аспектов цифровизации предприятий становится культура работы с данными — формирование из начальных сведений знаний, которые предоставляют возможность повышения эффективности компаний и развертывания инновационных бизнес-моделей. Управление данными и принятие решений на основе обработки значительных объемов информации становятся важнейшими факторами современной экономики, социальной жизни и Индустрии 4.0.
Данные в работе крупных организаций
В рамках федерального проекта «Цифровое государственное управление» национальной программы «Цифровая экономика» в прошлом году началась разработка Национальной системы управления данными, связывающей государственные информационные системы и обеспечивающей доступность, достоверность, полноту, непротиворечивость и защищенность используемых в них данных. НСУД — это совокупность правовых, организационных, методологических и информационно-технологических элементов, которые нужны для объединения информационных систем государственных и муниципальных органов власти.
«НСУД ускорит автоматизацию процессов госуправления, обеспечит предоставление цифровых услуг на более высоком уровне», — отметил Алексей Карапузов, заместитель директора Департамента развития архитектуры и координации информатизации Минцифры России. Разработка НСУД ведется в рамках единой технической политики, определяющей принципы и требования к управлению данными в информационных системах органов власти.
Архитектурный надзор над всей экосистемой НСУД выполняют специалисты НИИ «Восход», которые также осуществляют методическое обеспечение, ведение модели государственных данных, сопровождение и техническое обслуживание Федеральной государственной информационной системы «Единая информационная платформа Национальной системы управления данными». Андрей Бадалов, директор НИИ «Восход», пояснил, что уже разработаны витрины данных, создан продуктивный программно-аппаратный комплекс платформы НСУД, а в 2021 году появятся более 20 ведомственных витрин, модели данных, аналитическое хранилище НСУД, будут утверждены единые требования к управлению госданными.
В «Росатоме», где используются сложные технологические процессы при проектировании и сооружении крупномасштабных энергетических установок, применение корпоративной системы нормативно-справочной информации, по мнению Дмитрия Рудакова, начальника управления НСИ, унифицирует обмен данными в отраслевых бизнес-процессах, повышает их эффективность и готовит основу для внедрения подходов и методологий Data Governance и Data Management.
Для решения проблем при загрузке бизнес-данных в корпоративные хранилища крупных организаций, включая сокращение времени, в «Ростелекоме» разработали решения, автоматизирующие работу с мастер-справочниками и маппингами, определяющими соответствие данных между различными семантиками одного или разных объектов. «Мы сократили время разработки, предложив удобный пользовательский интерфейс для подготовки справочников и маппингов, а также значительно упростив согласование мастер данных», — отметил Роман Генис, архитектор проектов департамента технологического развития управления данными компании.
Разработанная в компании «Газпром нефть» система интегрированного календарного планирования собирает данные о потребностях рынка, анализирует их с учетом производственных возможностей, формируя на основе реальных данных платформу управления всей цепочкой создания добавленной стоимости как единым активом. Особое внимание уделялось управлению данными, которое в конечном итоге заметно изменило отношение бизнеса к данным. К 2021 году, когда к системе будут подключены все активы логистики, переработки и сбыта, точность планирования, как ожидается, превысит 97%.
По мнению Алены Дробышевской, руководителя направления машинного обучения компании «Яндекс.Облако», серьезными препятствиями при внедрении систем машинного обучения являются сложности с данными, отсутствие ИТ-инфраструктуры, экспертных знаний, бюджетные ограничения, а также проблемы при вводе систем в промышленную эксплуатацию. Преодолению подобных трудностей способствует использование облачной инфраструктуры для развертывания новых решений. В число предлагаемых сервисов входят Yandex DataSphere, DataLens, Data Proc и ряд других. Сервис Yandex DataSphere, к примеру, служит средой для разработки и эксплуатации, предоставляет возможность совмещения продуктового и экспериментального контуров, интеграции источников данных и стандартного инструментария, оптимизации «по частям» производительности решения, а также уменьшает порог входа и стоимость прототипирования, решает проблемы при переходе к эксплуатации. «Для упрощения поиска экспертов в области машинного обучения мы создаем экосистему партнеров», — подчеркнула Дробышевская.
Если в компании намерены использовать машинное обучение для оптимизации производственных процессов, в первую очередь следует приступить к инвентаризации данных, считают в «Евразийской группе» и компании Mechanica AI, специализирующейся на проектах искусственного интеллекта в металлургии, химической индустрии, нефтехимии. Самое сложное — определить, каких данных нет. Предварительная инвентаризация препятствует затягиванию или даже провалу проектов. Основные факторы успеха состоят в понимании бизнесом преимуществ в результате внедрения конкретных моделей и в поддержке проектов на высшем уровне руководства предприятия.
По словам Максима Кокурина, руководителя департамента развития блока ИТ «Интер РАО», здесь в процессе эволюции системы управления основными данными перешли на решения российского разработчика «Юнидата». Проведена миграция данных, разработан недостающий контент справочников, спроектирована и настроена модель данных, разработаны проектные решения с учетом требований информационной безопасности, система переведена в опытно-промышленную эксплуатацию. «Импортозамещение и переход к отечественным продуктам — не хайп, а обдуманный шаг», — подчеркнул Кокурин.
В компании «Юнидата» созданы универсальная платформа «Юнидата» для построения систем управления корпоративными данными и Unidata Data Governence для решения принципиально новых задач по руководству данными как активом. С применением инструментария Data Governance совместно с Аналитическим центром при правительстве РФ выполнен проект учета социально-экономических показателей, связанных с коронавирусной инфекцией, в ходе которого проанализировано более сотни аналитических справок федеральных органов исполнительной власти и сформировано больше 120 форм отчетности для последующей загрузки.
Платформы, архитектуры, решения
Одной из современных технологий управления данными является их виртуализация, которая исключает копирование данных в единое консолидированное хранилище и предоставляет в режиме реального времени единое видение данных, не меняя их исходного местоположения. Компания Denodo представила в России платформу виртуализации данных. Вместе с тем современные хранилища данных, их гибридное развертывание, аналитические функции, масштабируемость и производительность на петабайтных объемах остаются вполне актуальными темами. Для построения унифицированного аналитического хранилища в компании Micro Focus предлагают использовать реляционную СУБД Vertica — программное решение, которое способно размещаться и на серверах, и в облаках, поддерживает интеграцию с Hadoop и хранилищами S3, может применяться в конвейерах для глубокой обработки данных.
В то же время, считают в компании Naumen, отсутствие консолидированных хранилищ и эффективных инструментов поиска порождает серьезные проблемы при работе с данными, особенно в условиях постоянного роста объемов неструктурированных сведений, содержащихся в проектной и нормативно-методической документации, публикациях, научной литературе. В Naumen утверждают, что системы корпоративного поиска на основе технологий искусственного интеллекта и средств обработки естественного языка на базе таких решений, как Naumen AI и Enterprise Search, способны значительно ускорить процесс поиска информации. По сведениям Naumen, автоматическая обработка до 10% нормативных документов в полтора раза повышает эффективность документационного обеспечения управления организацией.
Для повышения эффективности работы с информацией на естественном языке в «ТриниДата» предлагают совместно использовать онтологии для представления концептуальных и языковых моделей и методы машинного обучения. Это позволяет преобразовывать запросы на естественном языке в запросы к структурированным данным; интегрировать методы обработки информации на естественном языке со средствами консолидации корпоративных данных; создавать поисковые системы, отвечающие на вопросы на обычном языке; строить системы управления знаниями, делающие доступными объемные массивы текстовой информации; разрабатывать «понимающие» собеседников диалоговые системы.
Компания Visiology, где создали аналитическую платформу для сбора, анализа и визуализации больших объемов данных, представила на форуме ETL-инструментарий с открытым кодом ViXtract, который существенно сокращает время преобразования данных и выгрузку их в платформу бизнес-аналитики. К преимуществам ViXtract разработчики относят простоту развертывания и настройки.
Портфель программных продуктов компании Arenadata состоит из систем с открытым исходным кодом, интегрированных в платформу Arenadata Enterprise Data Platform, способную оперировать большими объемами данных в различных средах, включая публичные и частные облака. Продукты Arenadata используются в банке ВТБ, где столкнулись с прекращением поддержки продуктов Oracle и дефицитом физического пространства в связи с расширением бизнеса. Это первый в ВТБ проект импортозамещения важнейшей системы отчетности для регулирующих органов, в котором использована аналитическая распределенная СУБД Arenadata DB. Все хранилища данных банка начали поэтапную миграцию на единую новую платформу, которую планируется завершить к 2022 году.
В Arenadata рекомендуют осуществлять миграцию с унаследованных систем и инженерных комплексов на современные платформы данных. В то же время в компании Atos предлагают применять для перехода с унаследованных платформ и для работы с большими данными высокопроизводительный программно-аппаратный комплекс Atos DataLake Appliance, сертифицированный Cloudera.
В ходе форума также обсуждались практические примеры моделирования систем машинного обучения в Банке России; автоматизация применения сквозного процесса машинного обучения в Сбербанке и реализация AutoML на суперкомпьютере «Кристофари» в SberCloud; виртуализация данных в моделях искусственного интеллекта для борьбы с онкологическими и коронавирусными заболеваниями; применение технологий управления данными и искусственного интеллекта для медицинской визуализации в Департаменте здравоохранения Москвы и для поиска персонала в компании HeadHunter; интеграция с открытыми данными и применение решений LegalTech для информатизации работы юристов.
Для динамичного развития процессов цифровой трансформации необходимо объединить мир данных и мир бизнеса, считает Александр Тарасов, управляющий партнер компании DIS Group. В работе компаний становится весьма важной роль директоров по данным (Chief Data Officer), поскольку они должны формировать эффективную корпоративную стратегию управления данными. Как показывает практика, часто для успешной работы CDO не хватает реальных полномочий, которые есть у генерального директора (Chief Executive Officer), поэтому тесное взаимодействие CDO и CEO становится весьма актуальной задачей. «CDO — стратегический партнер бизнеса, инициирующий процессы цифровой трансформации», — подчеркнул Тарасов.