«Ростелеком», все больше переориентируясь с традиционного на цифровой бизнес, активно ведет исследования в области Больших Данных. Как в ожидании роста цифрового бизнеса построить распределенную инфраструктуру поддержки процессов сбора, хранения и обработки данных из множества разных источников? Как наладить надежную работу в условиях разной нагрузки и объемов данных? Чтобы справиться с этими задачами, сегодня требуются универсальные инструменты, а потому применение решений категории Open Source, все больше проникающих сегодня в корпоративные ИТ-инфраструктуры, представляется стратегически правильным выбором.
Выступивший в ходе семинара «Open Source в Enterprise: это фантастика?» Борис Емельянов, руководитель команды инфраструктуры подразделения управления данными компании «Ростелеком», рассказал об опыте использования открытой массово-параллельной распределенной аналитической системы Greenplum и проблемах миграции на ее новые версии. При наличии команды квалифицированных специалистов проблем, по мнению Емельянова, быть не должно. Однако сам по себе процесс миграции и поддержки промышленной конфигурации на базе открытого ПО таит в себе подводные камни и нюансы, с которыми могут столкнуться пользователи, обладающие опытом работы только с проприетарными решениями.
О том, как обеспечить эксплуатацию динамичного, а значит, и постоянно усложняющегося ландшафта решений из разряда Open Source, рассказал Дмитрий Павлов из Arenadata.io. По мере роста компании меняются и ее требования к инфраструктуре обработки данных, увеличивается число приложений, усложняются взаимосвязи: к универсальным СУБД добавляются специализированные аналитические системы, инструменты поддержки распределенных систем, обрабатывающие различные источники данных. Со временем, в дополнение к «боевой» версии, появляется необходимость в тестовой песочнице и средствах работы с публичными и частными облаками, поскольку каждая новая система хорошо работает лишь до определенного уровня развития бизнеса, а затем начинает «тормозить». Интегрированная модульная открытая платформа Arenadata Cluster Manager, предназначенная для управления сервисами и инфраструктурой, позволяет ускорить развертывание новых сред, предоставляя возможность на одной платформе сочетать преимущества различных типов инфраструктуры при заданном уровне надежности и предсказуемости.
О рисках, сопутствующих использованию свободного ПО при выполнении реальных проектов, рассказал Максим Вихарев, разработчик системы сквозной бизнес-аналитики Alytics, предоставляемой по модели SaaS. Среди пользователей системы такие компании, как «Ростелеком», Hoff, Tefal. Продукт позволяет оценивать эффективность маркетинговых каналов, отключать неэффективные площадки и экономить бюджеты. Учитывая многообразие заказчиков, инфраструктура поддержки Alytics содержит почти все компоненты современных систем аналитики: от коннекторов данных до систем доставки, хранения, обработки и визуализации. Только сочетая ANSI SQL, MPP, обработку в оперативной памяти и оставаясь в парадигме Open Source c ключевыми компонентами инструментального стека — Greenplum, Clickhouse, PostgreSQL, а также используя простые решения, разработчикам удалось реализовать сложную аналитику по цепочкам сессий, конфигурируемые интерактивные динамические витрины бизнес-аналитики с миллисекундным откликом и другие весьма смелые запросы клиентов.