Качество данных становится ключевым фактором, определяющим, насколько успешными окажутся усилия предприятия по монетизации своих информационных активов, уверены участники Саммита по современному управлению данными, организованного компанией Syncsort — поставщиком решений, позволяющих обеспечить доступность больших данных для самых актуальных видов аналитической обработки. Выступившая на саммите доктор Тендю Йогуртчу, технический директор Syncsort, отметила, что для достижения высокого качества данных предприятиям нужно очень тщательно продумывать инфраструктуру данных и последовательно выстраивать процессы управления ими. Это поможет избежать множества проблем, которые, как известно, стремительно нарастают по мере увеличения объемов, потоков, скорости обработки, разнообразия форматов и источников данных.
- Сегодня в России многие инициативы в области управления данными сконцентрированы на их монетизации и получении выгоды для бизнеса. Как добиться успеха в этом направлении?
Все зависит от конкретной задачи и поставленных целей. Необходимо правильно определить источники данных и оценить, какие технологии понадобятся для обработки полученной информации. Ключевой фактор успеха — заблаговременный выбор подходящих метрик. Очень часто компании задумываются о качестве данных уже после завершения проектов, но, чтобы внести необходимые изменения на этой стадии, требуются серьезные затраты. Поэтому важно заранее определить, как будет осуществляться управление данными, где и как будут создаваться и обрабатываться данные, которым можно доверять, и затем выбрать технологии, способные обеспечить нужную гибкость и переход на перспективные платформы.
- Российские заказчики продолжают спорить, надо ли сохранять все данные или только те, ценность которых для бизнеса понятна уже сегодня. Каковы ваши рекомендации?
Считаю, что необходим компромисс. Всегда пригодятся прежние, «исторические» данные — например, для обучения создаваемых моделей и прогнозирования. Полноценный анализ данных реального времени с извлечением из них пользы тоже предполагает наличие больших объемов ранее накопленной информации. Поэтому следует искать возможности для снижения стоимости хранения как «исторических» данных, так и тех сведений, которые необходимо хранить по требованиям регуляторов. Сегодня можно организовать «холодное» хранение в облаке, переместив туда редко используемые данные, или задействовать различные инфраструктурные ресурсы.
- Менеджеры всегда хотят иметь достоверную актуальную информацию. Как обеспечить и измерить ( что тоже очень важно ) точность корпоративных данных?
Качество данных имеет первостепенное значение, и его обеспечение становится серьезной проблемой, поскольку источников данных сейчас гораздо больше, чем когда-либо. По мере того как предприятия все чаще используют для хранения новые решения, например блокчейн и облака, в ходе репликации неточные данные продвигаются все дальше и дальше, и зачастую становится трудно определить, на каком этапе они стали некорректными. В частности, блокчейн позволяет хранить информацию, которая никогда не может быть потеряна, изменена или удалена, но эта технология не способна выявлять поступающие на вход «плохие» данные. Поэтому крайне необходим контроль качества данных, поступающих в блокчейн.
Серьезным шагом к измерению качества данных станет возможность профилировать все ваши данные. Это позволит сразу же выявлять отклонения, определять процентное соотношение несущественной информации и выполнять многие другие действия. Кроме того, профилирование поможет определять бизнес-правила и оценивать, какая часть данных им соответствует.
Чтобы создать среду, способствующую получению точных данных, предприятиям следует сконцентрироваться на бизнес-проблемах, которые они пытаются решить. Конечно, многое зависит от применения правильных инструментов, но не менее важно, чтобы сотрудники, работающие с данными, понимали их суть и имели в своем распоряжении средства, которые позволяют обнаруживать любые отклонения от установленных регуляторами норм, а также выявлять персональные данные и данные платежных карт (PCI), не дожидаясь их перемещения на следующие этапы обработки и хранения.
Едва ли сотрудники смогут вручную отслеживать и оценивать всю поступающую информацию — у них попросту нет для этого времени. Зато компьютерная программа сможет быстро сканировать огромные объемы данных. Но алгоритмы машинного обучения окажутся неэффективными, если ими не будут пользоваться те специалисты, которые хорошо разбираются в бизнес-проблемах и процессах и знают, какие данные требуются и какие доступны для решения этих проблем. Алгоритмы ML могут генерировать оповещения в двух ситуациях: если возникает проблема, связанная с качеством данных, и если имеющиеся модели не могут прийти к какому-либо заключению. В последнем случае модели нужно переобучить или доработать. Следовательно, приоритетом ИТ-руководителя должно стать формирование компании, в которой грамотно работают с данными.
- Какие способы оптимизации инфраструктуры данных вы считаете наиболее эффективными?
Принцип номер один: принимая решение о хранении данных на платформе конкретного поставщика, вы должны продумать, как избежать его блокировки. Сегодня на рынке предлагаются как традиционные платформы (Teradata, Netezza, Oracle и пр.), так и облачные. Более того, организации могут хранить в облаке все свои данные, достаточно лишь выбрать инструменты, которые позволят управлять размещением информации и доступом к ней на нескольких облачных платформах. Некоторые крупные европейские банки используют сервисы трех облачных поставщиков. Если есть возможность задействовать нескольких провайдеров, надо ею воспользоваться, хотя это не всегда удается. В любом случае в составе инфраструктуры нужно иметь платформы для работы с критически важными данными. Крайне важно, чтобы эти платформы справлялись с сезонными и другими колебаниями транзакционной нагрузки.
- Многие клиенты пытаются обрабатывать и анализировать потоки данных. Нужно ли им кардинально менять свою ИТ-инфраструктуру? И есть ли способы обновления ИТ-инфраструктуры без «глобальных» изменений?
На этот вопрос нет однозначного ответа, поскольку надо понимать, что собой представляет ИТ-инфраструктура организации и какие бизнес-цели стоят перед сотрудниками. Так, предприятия, желающие создать озеро данных, чтобы объединить несколько разрозненных активов данных в масштабируемом репозитории для их последующего анализа, обычно настаивают на «глобальных» изменениях в инфраструктуре, но иногда можно выполнить «легкое» обновление — например, оптимизировав существующую облачную инфраструктуру. Кроме того, многие организации стремятся создавать потоковые каналы и обеспечивать обмен данными приложений внутри собственной сети, чтобы анализировать их в режиме реального времени. Наша компания помогает своим клиентам найти правильное решение для получения большей выгоды от имеющихся у них данных с опорой на уже сделанные инвестиции. Мы выстраиваем наши продукты семейства Syncsort Connect так, чтобы упростить интеграцию новых технологий в уже существующую ИТ-инфраструктуру, предоставляя возможности для создания потоковых каналов и более полного использования потенциала корпоративных данных.
- Количество источников данных, похоже, будет расти, и в ходе их интеграции наверняка возникнет проблема увеличения вариативности данных и, как следствие, усложнения систем. Что можно сделать с этим?
Мы уже видим, как предприятия буквально тонут в данных, поскольку число их источников за последние годы резко выросло, к тому же появились потоки и озера данных. Некоторые организации взяли стратегический курс на облака как приоритетные вычислительные среды, а другие твердо намерены хранить конфиденциальные данные внутри компании. Есть те, кто выбирает стратегию гибридного облака или использует облачные среды для архивных данных, чтобы предоставить их по первому требованию регуляторов.
Лучший способ подготовиться к росту числа источников — сосредоточиться на обеспечении качества данных до их отправки в облако, блокчейн и другие ресурсы для размещения, а также убедиться в том, что имеющиеся у вас системы очистки, обогащения и преобразования данных способны в достаточной степени масштабироваться.
- Какие проблемы станут наиболее важными с точки зрения управления данными в обозримом будущем?
Как уже было сказано, все большее значение придается качеству данных. Необходимо гарантировать достаточно высокое качество и всей той информации, что хранится на множестве унаследованных платформ, размещается на новых и используется для анализа в реальном времени. Кроме того, нужно обратить внимание на выполнение требований в отношении корпоративного управления данными и на работу с метаданными, а также исключить дублирование информации.
Еще одна проблема состоит в том, что ИТ-руководителям приходится решать сложнейшую задачу: они должны создать корпоративную инфраструктуру, которая, с одной стороны, способна противостоять серьезным угрозам, обеспечивая сохранность и безопасность критически важной информации, а с другой — демонстрировать высокую доступность данных и предоставлять широкие возможности для бизнес-аналитики. Многие организации инвестируют немалые средства в защиту от вирусов и вредоносных программ, управление обновлениями и исправлениями, обнаружение и предотвращение вторжений, а также в обучение сотрудников. Большое влияние на проекты в области управления данными окажут Общий регламент по защите персональных данных (GDPR), принятый ЕС в прошлом году, и Калифорнийский закон о конфиденциальности данных потребителей (CCPA), вступающий в силу в январе 2020 года. В связи с этим еще большее значение приобретают инструменты, способные сканировать данные с целью выявления в них конфиденциальной информации.