«Качество данных — 2022»: практика

Главный вопрос бизнеса, ответ на который постарались дать выступавшие на конференции «Открытых систем» эксперты-практики, таков: зачем заниматься управлением качеством данных?

Одна из секций конференции «Качество данных — 2022», проведенной издательством «Открытые системы», была посвящена анализу опыта управления качеством данных в организациях разных сфер деятельности (см. также ««Качество данных — 2022»: данные для бизнеса»).

Владимир Комолов из компании DM Basis ответил в своем выступлении, пожалуй, на главный бизнес-вопрос: зачем заниматься управлением качеством данных? DM Basis занимается разработкой и поддержкой программных продуктов для автомобильного рынка — от качества данных зависит приток покупателей. Качественные данные обеспечивают двукратный рост объемов продаж: в условиях рынка наличие полной и достоверной информации становится одним из основных рычагов для увеличения доходов. Особенность данных в этом сегменте — естественное устаревание из-за длительного бизнес-цикла. Обновление продуктовой линейки автомобилей требует от компаний значительного времени, при этом собранные ранее данные о клиентах теряют актуальность. Как показывает статистика, повышение качества данных в рамках программы Customer Experience способно поднять объем повторных продаж вдвое — с 10% до 23% для премиальных марок автомобилей, а для некоторых моделей — с 12% до 45%. Благодаря этому удержание действующего клиента обходится втрое дешевле, чем привлечение нового.

Сергей Горшков: «Нет абсолютно надежных инструментов проверки истинности данных, однако можно минимизировать вероятность появления случайных или намеренных ошибок»

Наиболее существенный признак качества данных — их достоверность, считает Сергей Горшков из компании «ТриниДата», которая предлагает платформу «АрхиГраф», позволяющую выстроить дата-центрическую архитектуру системы хранения данных и обеспечить цикл проверки истинности информации в корпоративных системах. Недостоверная информация может появляться по разным причинам — например, из-за случайных или преднамеренных ошибок менеджеров. Возможно также различное толкование данных разными клиентами: разночтение способно породить недостоверную трактовку результатов, поэтому при эксплуатации корпоративных систем надо гарантировать единство толкований. Встречаются и более сложные случаи — например, фактор модальности больших массивов данных, достоверность которых зависит от появления тех или иных событий, в случае возникновения которых необходимо запускать процесс перепроверки данных. Скажем, установка признака «недобросовестный контрагент» может выражать модальное субъективное суждение менеджера: «этот контрагент может стать недобросовестным и наверняка вовремя не погасит задолженность». В рамках традиционных информационных систем, опирающихся на реляционные базы данных и «зашитую в коде» модель данных, нет удовлетворительного решения обеспечения истинности данных. Системы, созданные на основе онтологических моделей данных и предназначенные для поддержки принятия решений в организации, которая работает в динамичной окружающей среде, потенциально могут решать подобные задачи. Для контроля достоверности данных, отметил Горшков, применяются системы управления основными данными (Master Data Management, MDM), помогающие унифицировать собранные во всех информационных системах данные и эффективно управлять ими. Сегодня также активно развиваются инструменты для извлечения неструктурированных данных, основанные на машинном чтении (natural-language understanding) и других технологиях искусственного интеллекта.

О внедрении в банке «Открытие» системы «Единого фронтального решения» (ЕФР) рассказали Иван Зипухо и Мария Филюшкина при участии Ники Сусловой из компании HFLabs. Проект, запущенный в 2018 году, предусматривал объединение четырех решений категории CDI (Customer Data Integration), собравшихся вместе при объединении банков «Открытие» и «Бинбанк». Разработчикам требовалось объединить 40 млн клиентских записей от банка «Открытие» и 55 млн записей от «Бинбанка». Сведение данных происходило с помощью ЕФР, разработкой которой занималась компания HFLabs. После клининга размер этого хранилища сократился до 35 млн клиентских записей. Выстраивание системы управления качеством данных для ЕФР стало одним из наиболее значимых решений при строительстве новой системы. Объединенному банку потребовалось выстроить новую схему сбора сведений о клиентах, которая способствовала как повышению качества данных, так и унификации процессов сопровождения данных и их синхронизации в базе. Сегодня в банке работает микросервисная платформа омниканальных сервисов, насчитывающая на текущий момент более 200 доменных микросервисов и более 100 отдельных баз данных. Благодаря выстроенной системе управления качеством данных на базе ЕФР, удалось вдвое увеличить скорость обучения новых сотрудников правилам поддержки банковских продуктов и втрое ускорить оформление клиентских сервисов. В то же время в несколько раз вырос штат дата-стюардов.

Ника Суслова: «Создание единой точки входа для обработки сведений о клиенте банка позволило изменить саму культуру работы с данными»

«Без учета качества данных невозможно создать эффективное производство», — уверен Ярослав Урбанский, представляющий фармацевтическую компанию «Р-Фарм», сумевшую за три месяца запустить в Москве завод по производству вакцины Sputnik V, что было бы невозможно без правильно выстроенных процессов управления качеством данных. Особенность бизнеса «Р-Фарм» — жесткие требования регуляторов рынка. Высокие стандарты проявляются в требованиях к качеству хранимых данных по различным процессам производства лекарственных средств, по их номенклатуре, ингредиентам, по срокам реализации продукции и объемам поставки. Как отметил Евгений Антропов, директор отделения управления мастер-данных компании IBS, задачей проекта было не просто согласование мастер-данных между различными заводами «Р-Фарм», предъявляющими разные требования к качеству данных, а поддержка связности информационных потоков в технологических процессах на разных площадках: от планирования выпуска, закупок сырья, производства — до продажи лекарств. Для повышения качества данных была проведена их структуризация, что позволило сформировать достоверные методики анализа продаж и финансовой отчетности. Был также создан многомерный классификатор.

Дина Татаркина из холдинга «Черкизово» отметила в своем выступлении, что заботу о качестве данных можно переложить на партнеров. В состав холдинга входит 9 птицеводческих хозяйств, 11 предприятий мясопереработки, 19 складских комплексов, 9 комбикормовых заводов, 16 свиноводческих хозяйств. В ведении компании насчитывается более 500 справочников. На первых порах сведения в систему вводили сами пользователи, что отрицательно сказывалось на качестве данных: дублирование, некорректные или устаревшие данные, отсутствие унификации в структуре и форматах. Выстраивание единой системы хранения данных началось с их централизации. Была создана система справочников с интерфейсом через портал Alfresco и интеграцией с «1С» и Opentext. Затем стала внедряться система мастер-данных с интеграцией во все учетные системы компании. Была осуществлена настройка модели управления мастер-данными через систему SAP MDG. Для источника мастер-данных был выбран интерфейс API сервиса «СПАРК» от группы «Интерфакс», обеспечивающего сбор и регулярную проверку качества накопленных данных. Для сверки используется более 300 открытых источников. Данные из «СПАРК» (более 90 тыс. записей) стали основой для наполнения мастер-системы «Черкизово», предоставляющей данные для более 1200 пользователей холдинга.

Евгений Антропов: «Проект согласования мастер-данных между различными фармацевтическими предприятиями позволил решать и бизнес-задачи благодаря поддержке связности информационных потоков»

О характерных особенностях работы с данными некоммерческих организаций рассказала Вера Адаева, представитель Агентства стратегических инициатив. В этом секторе нет традиционных показателей, используемых в бизнес-аналитике: выручки, среднего чека клиента и проч. Сбор исходных данных затруднен, в том числе и по этическим соображениям — имеются сложности со сбором отчетов от партнеров. В то же время НКО — это крупные организации, и задача снижения издержек для них актуальна, как и для коммерческих компаний. Для дальнейшего роста им необходим системный сбор данных и обеспечение их качества. Особенность НКО — широкий диапазон источников данных, среди которых значительный объем персональных, требующих строгой защиты. В таких условиях важно правильно выстроить метрики для бизнес-анализа, считает Адаева, что помогает определиться с набором собираемых данных, обеспечить прозрачность целей при управлении региональной сетью.

Доклад Михаила Петрова из Счетной палаты РФ был посвящен особенностям работы с данными в системах госуправления. Главная отличительная черта — масштаб данных и разнородный доступ к ним. Например, в 2021 году в информационной системе Счетной палаты насчитывалось 645 наборов данных. Из них доступ к 24 наборам осуществляется через API, к 361 — через ссылку на открытый источник, и только 13 наборов данных предоставляют свой интерфейс к информационной системе. При этом до сих пор используется передача на физических носителях. Такая неоднородность порождает разнообразие форматов: Excel, CSV, XML, JSON, а также «немашиночитаемые» форматы. В Счетной палате выстроена трехуровневая система обучения, а любой сотрудник, получающий доступ к работе с данными, обязан иметь хотя бы первый уровень. Высший уровень компетенции требуется для 5–10% сотрудников группы поддержки. Для обеспечения качества данных необходим не просто обученный персонал, а сотрудники, готовые самостоятельно выявлять проблемы с данными, формулировать гипотезы и находить правильные решения.

Евгений Линник из Российского футбольного союза рассказал о проекте управления данными в общественных организациях. Цифровая платформа РФС призвана обеспечить работу экосистемы российского футбола и ее переход на электронную форму взаимодействия между субъектами. Разработка такой экосистемы ведется в рамках проекта «Стратегия 2030» по развитию футбола в России. Платформа создается на базе реляционного хранилища на MySQL и Hadoop под управлением Spark для работы с неструктурированными данными. Остальная часть инфраструктуры, отвечающая за систему запросов и подготовку отчетов, формируется на Python. Платформа объединит сведения об игроках, тренерах, судьях, инспекторах, всех спортивных специалистах, возьмет на себя подсчет всех существующих в стране спортивных объектов, обеспечит взаимодействие с партнерами РФС. Цифровая платформа позволит футбольным школам и клубам по всей стране организовать свой тренировочный процесс. Главная проблема обеспечения качества данных — неполнота их источников, отметил Линник. Сбор референсных данных требует серьезной организационной работы. На текущий момент сформирована база данных по профессиональным игрокам, начинается формирование базы по любительскому футболу.