В Amazon создали сервис оркестровки потоков задач обработки больших объемов данных

Пользователи Amazon Web Services вскоре смогут создавать конвейеры задач обработки данных, включающие в себя различные сервисы AWS и локальные ресурсы, с помощью нового механизма оркестровки — AWS Data Pipeline.

Сейчас сервис доступен для бета-тестирования ограниченному числу участников. Как объясняют в Amazon, Data Pipeline позволяет автоматизировать движение и обработку любых объемов данных с проверкой зависимостей. Например, можно создать конвейер, по которому раз в день будут продвигаться журналы операций экземпляра AWS EC2 на сервис хранения AWS S3, и раз в неделю будет выполняться анализ накопленных данных на кластере AWS Elastic MapReduce.

Для создания конвейера пользователь указывает источники данных и назначает операции обработки, пункт назначения и расписание выполнения. Можно также задавать условия, которые сервис должен проверить перед запуском задачи, например, существование файла, подлежащего обработке. В конвейерах могут участвовать сервисы Amazon EC2, Elastic MapReduce, а также локальные ресурсы пользователя. Конвейеры можно создавать в AWS Management Console или путем написания скриптов.