В рамках тематической сессии «Стратегии & инструменты» конференции ««Качество данных — 2022. Стратегия, инструменты, практики, перспективы»» (см. также ««Качество данных — 2022». данные для бизнеса») рассматривались используемые инструменты, внедренные решения. Была отмечена важность связи бизнес-процессов и управления данными. Управление данными должно приводить к достижению бизнес-результатов на основе объединения бизнес-целей, а также оценки результатов и стоимости с учетом измеряемых воздействий и рисков. По словам Александра Трекина, старшего регионального директора по продажам Precisely в России и странах СНГ, измеряемые бизнес-результаты позволяют развивать и совершенствовать программы работы с данными. Заказчикам Precisely, применявшим ориентированные на бизнес подходы, удалось, по данным компании, ускорить развертывание таких программ до 40%, повысить рентабельность инвестиций до 7 раз, а вероятность реинвестирования — более чем на 75%. Эрик Хуберт, старший инженер по продажам компании Precisely, продемонстрировал возможности инструментария Precisely Data360, который разработчики предлагают как решение со многими важными для корпоративных пользователей интегрированными функциями. Оно позволяет оптимизировать цепочки поставок данных — от сбора и обнаружения информации до ее анализа и получения результатов.
При развертывании программ работы с данными приходится делать выбор между внедрением промышленных решений качества данных и собственными разработками, учитывая требования технических заданий, размер бюджетов, сроки и ожидания рынка. В компании Tele2 сформировали набор критериев для такого решения, включающий в том числе ролевую модель, настройку шаблонов проверок, контроль версий, историю изменений, возможность самостоятельной доработки и ряд других. «Оценив имеющиеся ресурсы, собственные разработки и сформулированные требования, мы решили приобрести промышленную систему», — пояснила Екатерина Моисеева, старший менеджер по качеству данных Tele2. Выбор инструментария Ataccama позволил компании в течение трех месяцев создать фундамент управления качеством данных, осуществить интеграцию с корпоративными информационными системами и обеспечить полноценное участие команды специалистов Tele2 в выполнении проекта.
В компании «УралХим», одном из крупнейших игроков рынка минеральных удобрений нашей страны, где внедряют платформу данных и глубокой аналитики и используют Informatica DQ, именно низкое качество данных и отсутствие культуры работы с ними называют одной из причин, способных «свести на нет» эффективность цифровизации. К основным принципам управления качеством данных в «УралХиме» относят: сквозную организацию управления в рамках операционных процессов всей компании; разработку и внедрение соглашений о качестве данных совместно с ответственными представителями владельцев данных; интеграцию с другими процессами управления ИТ-ландшафтом. Для контроля качества данных используют алгоритмы искусственного интеллекта, которые, в частности, применяют для дедублирования и сопоставления справочника номенклатуры с внешними справочниками контрагентов, ранжирования весов значимости метрик, проверки физически допустимых диапазонов значений данных устройств промавтоматизации.
«Архитекторы и пользователи корпоративной системы управления качеством данных должны в первую очередь думать о пользователях, а не только о точности данных», — полагает Алексей Еремихин, архитектор решений работы с данными компании Badoo (Bumble), подчеркивая, что качественные данные должны соответствовать ожиданиям их потребителей. Для этого у каждого бизнеса есть свои возможности: от изучения ожиданий и помощи пользователям до обучения, формирования ожиданий и работы над ошибками.
Система управления мастер-данными Объединенной двигателестроительной корпорации, работа над которой ведется более 10 лет, охватывает более 4 млн объектов, 12 площадок и обслуживает 31 систему, являющуюся потребителем нормативно-справочной информации. Рост объемов данных из различных источников усложняет процесс контроля качества как собственно данных, так и метаданных. Для огромных массивов исторических данных номенклатурных справочников производственных площадок используются инструменты автоматизированной обработки заявок на нормализацию нормативно-справочной информации, а также интеллектуальная система согласования изменений и дашборд оценки качества данных. После цикла машинного обучения внедрен модуль искусственного интеллекта для приема заявок и новых «исторических» массивов. В настоящее время завершена интеграция решения MDM с единым номенклатурным справочником госкорпорации «Ростех».
Системы на основе алгоритмов машинного обучения предъявляют специальные требования к качеству данных, отмечают в компании «Лента». Такие данные, наряду с соответствием общепринятым параметрам качества, должны обладать в том числе причинно-следственной связью с моделируемыми событиями, характеризоваться отсутствием нежелательных искусственных смещений, иметь достаточный объем для обучения. Для абстрагирования данных от конкретных сценариев их использования в интеллектуальных системах управления качеством данных и решениях больших данных, в «Ленте» используют концепцию FeatureStore, позволяющую сформировать уровень управления данными для машинного обучения. На базе архитектуры FeatureStore в течение трех месяцев разработано собственное решение, максимально отвечающее требованиям компании. Теперь, в частности, релиз новой модели занимает часы, а не недели, как это было раньше.
Для машинного обучения в области обработки естественного языка в компании «ЭГО Транслейтинг» разработали решение для нормализации текстовых корпусов, которое применяется для сбора текстовых данных, их анализа, обработки и очистки для обучения нейросетей, в том числе для тренировки систем машинного перевода.
В пивоваренной компании «Балтика» ориентируются на процессный подход к управлению данных. «Данные и процессы следует рассматривать в совокупности, поскольку это не только позволяет лучше определить источники и потребителей данных, но и во многих случаях дает возможность найти точки приложения усилий для решения возникающих проблем и предотвращения дальнейших инцидентов качества данных», — утверждает Варвара Макарьина, менеджер по развитию аналитических систем. Для повышения качества данных в «Балтике» используют проверку, доработку и изменение процесса. В этой компании, к примеру, встроили обработку инцидентов в схему управления качеством данных. По словам Макарьиной, практическую помощь в работе с данными оказали советы, методы и рекомендации, которые обсуждались в докладах тематических мероприятий издательства «Открытые системы».