Big Data 2014: Интеграторы миров

Сергей Золотарев: «Мы интегрируем мир структурированных и мир неструктурированных данных»

В центре внимания форума Big Data, проведенного 20 марта издательством «Открытые системы», кроме самих Больших Данных, находились средства работы с ними. Один из лидеров в создании соответствующих технологий — компания Pivotal, входящая в EMC. Она была создана в начале 2013 года с целью объединения всех средств работы с Большими Данными, имевшимися в EMC и VMware. О важности новой структуры можно судить по тому, что генеральным директором Pivotal был назначен Пол Мариц, до этого возглавлявший VMware.

Глава представительства EMC/Pivotal в России и СНГ Сергей Золотарев рассказал об особенностях бизнеса компании, о сферах применения ее продуктов и о том, почему одним из инвесторов Pivotal стала General Electric.

- Решения на базе Hadoop предлагают многие компании. В чем особенность продуктов Pivotal?

Средства обработки Больших Данных вышли из проектов с открытым кодом. Все вендоры добавляют что-то свое к Hadoop. Весь вопрос в том, как «прикрутить» Hadoop к реалиям корпоративной ИТ-среды.

Мы интегрируем два мира — мир структурированных данных, обрабатываемых обычными SQL-запросами, и мир неструктурированных данных, которые обрабатываются с помощью Hadoop. Когда традиционные средства бизнес-аналитики обращаются к неструктурированным данным, то работа идет очень медленно, посредством интерпретаторов. У нас же есть Pivotal XD и HAWQ.

Первый продукт дает возможность базе данных, размещенной в памяти, напрямую взаимодействовать с Hadoop. Это так называемое предприятие реального времени. Все события, на которые надо немедленно отреагировать, вся сопутствующая информация – все держится в оперативной памяти.

HAWQ — фактически традиционная аналитическая СУБД, которая «интегрирована» с файловой системой Hadoop и за счет этого работает с данными Hadoop в сотни раз быстрее.

- Кто ваши основные клиенты — в России и в мире?

Те, кто первыми столкнулись с Большими Данными. Это интернет-компании, но они и в мире и в России создают на базе Hadoop собственные решения, финансовые организации различного профиля, например Нью-Йоркская фондовая биржа, телекоммуникационные компании. В России у нас есть проекты со Сбербанком и банком «Тинькофф Кредитные Системы», еще несколько проектов находятся на различных стадиях.

- А розничные сети еще не прибегают к вашим услугам?

Интерес есть, делали аналитику кассовых чеков, в том числе и для россиийских заказчиков. А крупнейший референсный проект — это, пожалуй, Wal-Mart. В компании прекратили развивать то BI-решение, которое у них было, и выбрали нашу платформу.

Но в целом российский ретейл к работе с Большими Данными пока не готов. Возможно, там еще недостаточно высокая конкуренция, нет стимула выжимать из имеющихся данных всю содержащуюся в них информацию, например чтобы повысить обороты на 3-4%.

- Геологоразведка пользуется вашими решениями?

Пока мало, в России и вовсе нет. В основном спрос на сбор телематики с различного рода датчиков и их анализ. Как и у крупных промышленных предприятий. Специфических задач пока практически нет.

- От промышленных датчиков, казалось бы, должна поступать достаточно структурированная информация?

Есть такое понятие, как частично структурированные данные. У предприятия есть большое количество разнообразных устройств, каждое из них выдает свой лог-файл. Информацию в нем мы можем легко прочитать и классифицировать, но у всех файлов разные форматы, у одних в одном файле 15 параметров, у других — 300.

То, что называют Интернетом вещей, и состоит из такого рода межмашинных коммуникаций. Поэтому встает задача обрабатывать данные, появляющиеся при таком взаимодействии.

И не случайно единственный внешний инвестор Pivotal – это General Electric. В этой компании решили создать платформу управления и мониторинга всех выпускаемых устройств. По оценкам GE, например, значительная часть всей электроэнергии в мире вырабатывается на ее оборудовании. А кроме того, компания производит медицинскую технику, электродвигатели, реактивные двигатели и т. д. Сначала в GE захотели создать собственную платформу. Но когда оценили размер инвестиций, то посчитали, что гораздо правильнее вложить 100 млн долл. в Pivotal.

- Технологически ваши решения не имеют ограничений сверху?

Нет. На сегодня одно из самых крупных хранилищ, которое мы построили, это хранилище для Skype — размером в несколько петабайтов.

- А снизу? Какие объемы информации выгодно обрабатывать вашими средствами?

Быстрые аналитические витрины размером в 1 Тбайт на массово-параллельных СУБД строятся дешевле, чем на традиционных базах данных. У нас есть такие клиенты, в том числе и в России, например небольшие финансовые организации. Особенно часто к нашим решениям прибегают те, кто строит свою ИТ-систему с нуля. Они видят, что у нас в несколько раз выше скорость работы, на некоторых запросах в десятки раз, в пределе и в сто раз на сложных запросах.

Еще одно из основных отличий наших продуктов по обработке Больших Данных в том, что большинство аналитических платформ доступно только в виде «черного ящика» — закрытого программно-аппаратного комплекса. Мы тоже можем поставить такой комплекс или установить ПО на стандартном оборудовании заказчика. Но мы, точнее наши партнеры — провайдеры услуг, также предоставляем услуги по работе с Большими Данными из облака.

- В России эта модель пока не применяется?

Нет. Планировали с одним из партнеров запустить такой аналитический сервис, но пока этот проект не заработал.

- Кроме GE у вас еще один необычный инвестор — IBM...

IBM — наш партнер по проекту CloudFoundry. Это особый продукт, своего рода операционная система для облака. Изначально считалось, что достаточно просто перенести то, что уже используется, в облако. Мы же считаем, что, если мы в принципе строим приложения нового типа, их и строить надо по-другому, проектировать для виртуальных сред с возможностью многократного масштабирования. Инструменты или компоненты, из которых они будут состоять, тоже должны быть другие и должны уметь в этих средах работать. Подходы к их написанию должны быть другие. CloudFoundry, утрируя, – это платформа как сервис, и для того, чтобы создавать приложения на этой платформе, нам фактически нужен платежный инструмент – заплатить за использование этой среды, а также сама идея и программист, который создает это приложение.

Все необходимые сервисы будут предоставлены виртуально. Возможность это смасштабировать на десятки тысяч узлов тоже заложена в платформе.

Мы сейчас в России это решение показываем в первую очередь разработчикам, потому что оно очень сильно востребовано именно на стадии создания продуктов, длительность цикла разработки программного продукта с использованием облачной среды в несколько раз сокращается.

- Есть планы по созданию в России центров разработки Pivotal, сотрудничеству с учебными заведениями?

У ЕМС очень большой центр разработки есть в России, в нем создается ряд продуктов компании. Ничто не мешает в этом центре — и, насколько я знаю, такие планы есть, — часть продуктов, относящихся к Большим Данным, тоже разрабатывать в России.

Что до университетов, то мы в 2012 году проводили совместно с Высшей школой экономики Data Scientist Day, посвященный профессии data scientist. Приглашали со всей России людей, которые занимаются соответствующей проблематикой, исследованиями в этой области, дали им возможность поделиться своими идеями, обсудить их, пообщаться. Приглашали и западных коллег.

Big Data 2014: Интеграторы миров

Самая интересная информация добывается сведением воедино структурированных и неструктурированных данных