Качество данных заложено в самой концептуальной основе цифровой организации, поэтому проблемы качества так или иначе затрагиваются на всех мероприятиях, посвященных цифровизации. Но только одно из них целиком и полностью сфокусировано на решении этих проблем — конференция «Качество данных — 2021. Стратегия, инструменты, практика» издательства «Открытые системы». Сотни практиков из разных отраслей искали и нашли на этой конференции ответы на вопрос «Что делать?», а более опытные профессионалы делились с коллегами своими находками. «Если вы не знаете, что делать, инструменты вам не помогут», — напомнил Олег Гиацинтов, технический директор DIS Group, раскрывая преимущества комплексного подхода к управлению качеством данных. По его мнению, программный продукт не должен навязывать организации подход к управлению качеством. C необычного ракурса предложил взглянуть на качество данных Александр Константинов, директор по маркетингу компании «Юнидата», в которой DQ недавно оформили как отдельный продукт на собственной платформе управления данными. А в компании «Инлексис» разработали решение на основе искусственного интеллекта, которое автоматически исследует «поведение данных» и уведомляет об аномалиях. В корпоративном секторе уже накопилось внушительное количество интересных проектов с фокусом на качестве данных. Есть чей опыт изучать и на кого равняться. (О конференции см. также в статье «Качество данных — это про людей».)
Советы начинающим и не только
Один из самых ценных бонусов практических конференций — рекомендации тех, кто уже успел пройти долгий путь, который остальным еще только предстоит. «Если вы в начале пути, подумайте сразу о функции директора по данным, обязательно организуйте подразделение по управлению данными, иначе никто вам качество не наладит», — подчеркнула Любовь Кайдалова, руководитель направления по качеству данных компании «Газпром нефть». По ее мнению, для начала нужно выбрать данные, критичные для бизнеса, а мастер-данные всегда являются критичными. Кроме того, важно идентифицировать потребителей, которые знают, чего хотят от данных, и с которыми можно работать продуктивно. Чтобы заинтересовать тех, кто еще не вовлечен, необходимо делать результаты работы по качеству данных публичными, проводитьдемонстрационные дни.
Любовь Кайдалова: «Если вы в начале пути, подумайте сразу о функции директора по данным, обязательно организуйте подразделение по управлению данными, иначе никто вам качество не наладит»
Для связи потребителей данных со всеми остальными функциями, в компании «Газпром нефть» ввели роль дата-партнера. Дата-партнеры консолидируют работу по управлению данными в корпоративных программах цифровизации. Они подчиняются руководителям программ, собирают сведения о потребности в данных, организуют поиск ресурсов и следят за соблюдением стандартов качества всеми участниками процесса. «Развивайте компетенции аналитиков в предметной области бизнеса и обучайте сотрудников работе с процессами и инструментами», — советует Кайдалова.
Начинать внедрение процессов управления качеством данных следует с более зрелого бизнеса. В этой сфере необходимо найти поддержку — «евангелистов». На первых порах не рекомендуется тратить силы на декомпозицию в описании процессов, потому что это очень трудоемко, но мало меняет положение дел. «Наши KPI сфокусированы на оценке «здоровья данных», охвата данных проверками и эффективности проблем-менеджмента», — сообщила Кайдалова. Она рекомендовала также использовать международные индустриальные стандарты управления данными и требования к качеству, а кроме того, не забывать про цикл Деминга, постоянно совершенствуя процессы и данные.
Фокус — на чистоту
Как показывает практика, управление качеством данных может стать одним из путей к клиенту. В компании «Росгосстрах», которая в этом году отметит столетний юбилей, накопился огромный объем неструктурированных данных о клиентах. Ее актуальная клиентская база насчитывала 120 млн записей о физических и юридических лицах, а дополнив ее историческими данными, специалисты получили более миллиарда сущностей. Но низкое качество контактной информации сводило на нет эффективность любой маркетинговой стратегии.
Тогда в «Росгосстрахе» пересмотрели подход к хранению и обработке данных, сместив фокус на их чистоту и обогащение. В компании начали внедрять систему управления клиентскими данными (Customer Data Integration, CDI) российского разработчика HF Labs — «Единый клиент», и к настоящему моменту ее удалось развить до полноценной системы управления качеством данных.
Однако внедрение CDI-системы стало только первым шагом. «Невозможно реализовать принцип «знай своего клиента», ограничиваясь только техническим решением, — констатировала Екатерина Гордиенко, руководитель подразделения по управлению качеством клиентских данных «Росгосстраха». — Процесс работы с качеством данных многогранный, непрерывный и — главное — циклический. После выявления и устранения источника проблем можно начинать все сначала, и вслед за первыми крупными «ямами» пойдут мелкие, но не менее критичные для бизнеса».
Чтобы перейти от работы с договорами к работе с клиентами, пришлось с нуля выстраивать все процессы получения данных о клиентах. Для этого потребовалось упростить ввод данных за счет интеграции c целевыми системами и запуска модуля подсказок, упростить поиск, а также проверять данные при сохранении на наличие дублей, чтобы некачественная информация не попадала в систему управления мастер-данными (Master Data Management, MDM).
По итогам проекта были созданы методические документы и сформулирована политика управления корпоративными данными, определены владельцы различных категорий данных, разработана система KPI по качеству данных. Прибавилось три десятка новых правил, которые позволили на 22% сократить число потенциальных дублей. На следующем шаге планируется сформировать стандарты качества клиентских данных.
Рост качества коммуникативных данных привел к снижению количества неэффективных коммуникаций, что не замедлило сказаться на результативности маркетинговых кампаний.
SLA для госданных
В госсекторе, где требуется куда больший масштаб преобразований, ситуация c внедрением менеджмента качества данных развивается медленнее, чем в корпоративном, но тем не менее подвижки есть.
О статусе работ по созданию единой платформы национальной системы управления данными (НСУД) и ее роли в повышении качества государственных данных рассказала в стратегическом блоке конференции Наталья Гвоздева, советник министра цифрового развития РФ. По ее словам, Минцифры приступает к практической эксплуатации НСУД: на 2021 год запланирован ряд пилотных проектов, но основной разбор данных региональных и муниципальных органов исполнительной власти предстоит в следующем году.
Сейчас органы власти активно заполняют модели НСУД, и к апрелю планируется получить единую базу атрибутов, которая даст понимание того, какими данными располагают органы власти. До сих пор такого единого хранилища не было — соответственно, отсутствовало представление об актуальной структуре данных различных ведомств. Наиболее ясно описана и представлена на сегодняшний день структура данных Федеральной службы государственной статистики, ежегодно обрабатывающей порядка 25 млрд единиц информации. С целевой моделью данных для цифровой аналитической платформы Росстата, разработанной НИИ «Восход», участники конференции познакомились непосредственно из выступлений ее создателей и пользователей.
К лету должна появится «карта», которая поможет ориентироваться и искать данные и в других государственных информационных системах. Те, кто описывает данные, должны обязательно указать порядок проверки и контроля качества данных. Но в перспективе предполагается перейти к другой практике, когда требования к качеству данных устанавливает потребитель.
«Главная ценность НСУД для госорганов — возможность быстро понять, где находятся нужные данные и как их получить», — подчеркнула Гвоздева. Чтобы обеспечить быстрый доступ к данным, во всех органах власти внедряются витрины данных — прежде всего для предоставления госуслуг в режиме онлайн. В 2020 году создано 6 ведомственных витрин данных, разработаны типовые рекомендации по управлению качеством данных и 167 дата-сетов рекомендованы к размещению в витринах данных государственных органов власти. Помимо прочего, в НСУД формируется реестр всех ведомственных нормативных актов, которые регулируют структуру данных в информационных системах.
В ближайшее время появится SLA для государственных данных. В Минцифры готовят приказ, устанавливающий порядок управления качеством государственных данных с использованием единой информационной платформы НСУД. Этот документ будет регламентировать работу витрин данных и обяжет органы власти устранять инциденты в установленные сроки.
Пока качество данных в государственных информационных системах оставляет желать лучшего, главным образом потому, что качество собираемых первичных данных далеко не всегда проверяется. И чтобы ввести контроль качества данных при их сборе от физических и юридических лиц, придется прибегнуть к нормативному регулированию.