Hortonworks и HPE вместе работают над повышением производительности Apache Spark

Проект уже принес первые плоды: усовершенствованный механизм перестановок, ускорение сортировок и вычислений в оперативной памяти, более оптимальное использование доступной памяти и улучшение масштабируемости.

Компания Hortonworks, создатель дистрибутива Hadoop, и исследовательское подразделение компании Hewlett Packard Enterprise осуществляют совместный проект, направленный на кардинальное повышение быстродействия фреймворка распределенной обработки данных Apache Spark.

Как сообщили в HP Labs, исследователи переписали на C++ механизм перестановок, изначально реализованный на Java, переработали ряд алгоритмов с расчетом на более эффективное использование памяти и обеспечили возможность использования большей емкости памяти. По словам разработчиков, заказчики, попробовавшие результаты работы HP Labs, отметили повышение скорости выполнения некоторых задач в 5-15 раз.

Все доработки от HP Labs будут выпущены в открытых кодах.

В Hortonworks в свою очередь отметили, что продолжат работать над улучшением быстродействия и функциональности Spark, интеграцией с платформой управления ресурсами Apache YARN, а также реализацией возможности использования с новыми приложениями вроде Apache Zeppelin (проект в инкубаторе Apache, «веб-блокнот» для интерактивного анализа данных).