Александр Тимчур, архитектор аналитических решений Hitachi Vantara, рассказывает о том, для чего нужна самостоятельная подготовка и анализ данных, в каких отраслях она будет полезна и какие флагманские решения существуют сегодня на рынке.
— Насколько актуальна тема аналитики данных по модели самообслуживания (Self-Service Data Preparation) для заказчиков в России и СНГ?
Данная тема стала актуальной в России чуть менее двух лет назад. Мы отстаем от Европы и Северной Америки в среднем на год-полтора, что по меркам введения подобных инноваций очень мало. Раньше отставание России и СНГ в новых ИТ-темах составляло 3-4 года.
В основном мы получаем запросы на подобные проекты от заказчиков из финансового сектора, это банки и страховые компании. Также самостоятельной подготовкой и анализом данных интересуются ретейл-компании и телеком-операторы. Есть запросы и от государственного сектора.
— Какие бизнес-задачи помогает решать модель самообслуживания? Какие преимущества получают компании?
Во-первых, анализ данных по модели самообслуживания позволяет сократить финансовые затраты на услуги, связанные с подготовкой обогащенных и очищенных витрин данных, по которым строится аналитика, и самой прикладной аналитики — инфопанелей, отчетов, аналитических кубов. Во-вторых, Self-Service Data Preparation сэкономит время на подготовку и выполнение полноценного проекта по аналитике. Сейчас, во время финансового кризиса по всему миру, в том числе и в России, у заказчиков возникают трудности с оперативным поиском бюджета под внезапно появившуюся задачу — неважно, будет ли задача решаться внутри компании или внешним подрядчиком. Экономия же времени при выведении нового продукта на рынок или реагирование на внешние вызовы, в том числе и на вызовы безопасности, являются еще более важной задачей, нежели экономия денежных средств.
Александр Тимчур: «Во-первых, анализ данных по модели самообслуживания позволяет сократить финансовые затраты на услуги, связанные с подготовкой витрин данных и прикладной аналитики. Во-вторых, Self-Service Data Preparation сэкономит время на подготовку и выполнение полноценного проекта по аналитике» |
Если говорить о преимуществах, то для разных компаний они могут быть разные. Типовой кейс, который встречается в банках, — это подготовка аналитики для руководства в рамках входной задачи. Например, анализ рисков, когда требуется выполнить совместный анализ информации из разноплановых внутренних и внешних источников данных при условии, что форматы этих данных с течением времени меняются. При обычном подходе факт изменения любого из форматов входящих данных приводит к неработоспособности всей аналитики.
Сложнее всего бывает, когда активно используется аутсорсинг, ведь формальная передача задачи внешнему подрядчику, ее выполнение и приемка — все это требует немалых затрат времени. Типичные для аутсорсинговых компаний проекты, включающие в себя подготовку технического задания заказчиком, реализацию и тестирование всего проекта внешними подрядчиками, а также совместная передача в промышленную эксплуатацию объекта могут занимать от нескольких месяцев до полугода и более. Применение подхода с самообслуживанием, когда задача будет решена сотрудниками ИТ-отдела компании, может сократить этот срок буквально до одной-двух недель.
— В чем разница между подготовкой данных (Self-Service Data Preparation) и аналитикой (Self-Service Analytics), реализуемых по модели самообслуживания?
В полном смысле аналитика данных по модели самообслуживания включает в себя и задачи по созданию витрин или наборов данных (datasets), то есть разработку процессов по очистке, преобразованию и обогащению данных, полученных из различных источников. Вы можете возразить, что есть корпоративное хранилище данных (КХД), где эти задачи уже решены. Но дело в том, что не у всех организаций КХД внедрено, к тому же жизнь стала многообразнее, и хранилище данных теперь не «единая версия правды», а всего лишь один из источников информации. Кроме хранилища у заказчика обычно присутствуют пользовательские «песочницы» данных или озера данных — с массивной информацией (как правило, неочищенной), которая тоже нужна в работе, но не «заслужила» централизованного размещения в КХД. В случае если инструмент неспособен решать указанные задачи пользовательского ETL, задача сужается, и Self-Service Data Preparation превращается в Self-Service Analytics.
— Почему обсуждение этой темы затрагивает такие системы, как SAP ERP и SAP BW?
Мы говорим об особом выделении задач интеграции аналитики данных платформ SAP ERP/BW в корпоративный ландшафт, потому что форматы хранения данных в этих системах сложны по своей природе. Они частично закрыты и недоступны. В частности, предметные сущности распределены по десяткам именованных акронимами таблиц и обычным пользователям совершенно непонятны.
— Как компании решают задачи интеграции и аналитики SAP-данных за пределами SAP-систем?
Есть несколько подходов. Как правило, реализуются специализированные выгрузки данных из SAP-систем, и вся последующая интеграция аналитики строится на основе этих выгрузок. Выгрузки осуществляются при помощи специализированных процедур на внутренних языках SAP, для которых необходим квалифицированный разработчик. Еще часто производят выгрузку данных через Microsoft Excel, то есть используют методы, созданные при внедрении SAP. В этом случае необходимы ручные процессы при интеграции SAP-данных с не-SAP-данными. Сложности здесь возникают, с одной стороны, в дорогих и постоянно занятых разработчиках, с другой — в ручных процессах «наколеночной сборки».
— Чем отличается подход Hitachi Vantara?
Наше предложение заключается в следующем: к возможностям пользовательского ETL и анализа данных по модели самообслуживания, реализованным в нашей платформе Pentaho Enterprise, мы добавляем простую в использовании интеграцию платформы с SAP-системами. Наш партнер компания IT-Novum разработала специализированный модуль для извлечения данных как из SAP-приложений, так и из BW-систем. Этот модуль использует SAP-метаданные для отображения SAP-сущностей в формате, понятном обычным пользователям и аналитикам. Благодаря этому работа с SAP-системами по модели самообслуживания и обогащение данных SAP-контура данными внешних систем или пользовательских «песочниц» и озер данных становится достаточно несложной и быстрореализуемой.