Xilinx готовит программируемые чипы для ЦОДов

Новые чипы, разрабатываемые под кодовым наименованием Everest, будут выпускаться по 7-нанометровой технологии и содержать 50 млрд транзисторов. Они предназначены для решения задач искусственного интеллекта, организации связи и сложного анализа данных.

В условиях, когда на ЦОДы возлагается задача масштабной обработки неструктурированных данных в различных современных приложениях, будущее микросхем FPGA выглядит весьма оптимистичным.

Программируемые логические матрицы (field programmable gate array, FPGA), представляющие собой, по сути, чипы, которые программируются уже после их производства, выступают в роли настраиваемых ускорителей при решении задач машинного обучения, сложного анализа данных, кодирования видео и изучения генома – то есть любых приложений, призванных сыграть важную роль в дальнейшем развитии связи, сетевых технологий, сферы здравоохранения, индустрии развлечений и прочих видов бизнеса.

Приложения эти поддаются параллельной обработке – важной особенности микросхем FPGA, конфигурацию которых можно менять прямо на ходу для реализации новых функций в процессе изменения стоящих перед ними задач.

Компания Xilinx, на протяжении нескольких десятилетий соперничающая со своим конкурентом Altera (входит сейчас в состав корпорации Intel) за технологическое лидерство в сфере FPGA, представила новую категорию продуктов на базе платформы Adaptive Compute Acceleration Platform (ACAP), возможности которых выходят за рамки возможностей существующих микросхем FPGA.

Что такое ACAP?

Первое семейство продуктов в этой категории, разрабатываемое под кодовым наименованием Everest, должно быть готово в этом году, а поставки клиентам планируется начать в следующем. Будет ли это постепенной эволюцией существующих микросхем FPGA или чем-то более радикальным, сказать сложно, поскольку компания представила новую модель, в которой отсутствуют многие технические детали – неясно, например, в каких приложениях и процессорах реального времени будут использоваться эти чипы.

Возможности, о которых известно уже сейчас, свидетельствуют о поступательном движении вперед. Продукты Everest будут поддерживать в качестве стандартной функциональности «сеть на чипе» (Network-On-a-Chip, NOC) и использовать межсоединение CCIX (Cache Coherent Interconnect for Accelerators). Ничего из этого в существующих микросхемах FPGA не применяется.

Чипы Everest, поддерживающие программируемость как оборудования, так и программных компонентов, станут первыми на рынке интегральными схемами, выпускаемыми по 7-нанометровой технологии (в данном случае, изготавливаться они будут на предприятиях TSMC). Чем меньше норма проектирования, тем выше плотность транзисторов в процессорах, что ведет к удорожанию производства и повышению быстродействия.

Хотя в информации о номенклатуре производственного процесса и достоинствах технологических процессов Intel и TSMC есть некоторые противоречия, известно, что при переходе на 7-нанометровую технологию геометрические размеры в пересчете на квадратный миллиметр уменьшатся примерно вдвое по сравнению с нынешним поколением FPGA, а производительность вырастет в четыре раза. В устройствах Everest будет присутствовать до 50 млрд транзисторов, тогда как в Stratix 10, FPGA корпорации Intel (ранее Altera), выпускаемых по 14-нанометровой технологии, транзисторов насчитывается 30 млрд.

Первый продукт Xilinx Everest, использующий технологию ACAP, будет выпускаться на основе производственных процессов TSMC. «Мы рассматриваем это как совершенно другую категорию продуктов», – указал генеральный директор Xilinx Виктор Пен. За последние четыре года на реализацию проекта, к которому были привлечены 1,5 тыс. инженеров, в Xinix потратили около миллиарда долларов.

В Xilinx утверждают, что благодаря возможности адаптации к различной рабочей нагрузке скорость выполнения процедур логического вывода при машинном обучении увеличивается в 40 раз, обработки видео и изображений – в 10 раз, а моделирования генома – в 100 раз по сравнению с системами на базе центральных и графических процессоров. ACAP в сравнении с существующей архитектурой FPGA ускорит выполнение процедур вывода приложений искусственного интеллекта в 20 раз, а скорость связи 5G – в четыре раза.

Микросхемы FPGA традиционно предлагали набор конфигурируемых логических блоков, объединенных программными средствами. Реконфигурация FPGA на протяжении многих лет выполнялась с помощью языка HDL (Hardware Description Language), но в последнее время разработчики чипов начали настраивать архитектуру устройств с использованием языков программирования высокого уровня.

Представленная недавно Xilinx однокристальная система Zynq All Programmable SoC объединяет программируемость интегрированного в этот продукт процессора ARM на программной основе с аппаратной программируемостью FPGA.

«Различные преобразования у нас выполнялись постоянно, но ACAP, если хотите – точка перегиба, – указал Пен. – FPGA и раньше были гибкими и адаптируемыми, но теперь степень всего этого заметно возросла, мы позволяем больше делать на программном уровне, и охват соответствующего класса продуктов становится значительно шире. Таким образом, по сравнению с тем, что мы видели раньше, сделан огромный шаг вперед».

Xilinx представила новую категорию продуктов на базе платформы Adaptive Compute Acceleration Platform
Источник: Xilinx

Использование высокоуровневых языков программирования

Разработчики программного обеспечения смогут настраивать Everest с помощью инструментов Си/C++, OpenCL и Python. Чипы Everest можно программировать также и на аппаратном уровне регистровых передач (register-transfer level, RTL) с помощью инструментов HDL, таких как Verilog и VHDL.

По словам аналитика Moor Insights & Strategy Карла Фройнда, Everest представляет собой скорее эволюцию стратегии Xilinx, чем какой-то радикальный шаг вперед, но при этом нужно понимать, что как аппаратные, так и программные компоненты Everest были усовершенствованы весьма существенно.

«Действительно, это целая новая категория, но формирует ее не только сам чип, но и программное обеспечение, библиотеки и даже модели веб-разработки, – пояснил он. – Xilinx много инвестирует в программные стеки – так называемые стеки ускорения, которые помогают ускорить развертывание решений FPGA, предоставляя стандартизированные библиотеки, инструменты и алгоритмы. Достаточно просто выбрать нужные компоненты и развернуть их на FPGA».

В дополнение к многоядерным однокристальным системам, спецификации которых еще не определены, Everest предложит поддержку PCIe, а также соединений CCIX, мультирежимных контроллеров Ethernet, интегрированных блоков управления безопасностью и энергопотреблением, а также программируемых интерфейсов ввода-вывода. Сюда же относятся различные типы трансиверов SerDes, преобразующих параллельные данные в последовательные и наоборот. Предлагаются, в частности, интерфейсы NRZ (с кодированием без возврата к нулю) с пропускной способностью 33 Гбит/с, PAM-4 (с модуляцией амплитуды импульса) со скоростью 58 Гбит/с и PAM-4 SerDes, рассчитанный на 112 Гбит/с. В общем случае, технология PAM обеспечивает более высокую пропускную способность, чем NRZ.

Некоторые чипы Everest предлагают также память с высокой пропускной способностью HBM (high bandwidth memory) и программируемые аналого-цифровые (ADC) и цифро-аналоговые (DAC) конвертеры.

Поддержка сети и когерентный кэш

Основным отличием между FPGA и ACAP является поддержка сетевых компонентов NOC (Network on a Chip), соединяющих различные подсистемы устройств – процессоры и компоненты ввода-вывода. До сих пор у микросхем FPGA не было NOC на системном уровне, и разработчикам приходилось создавать инфраструктуру соединений с помощью программируемой логики чипа. «Запрограммировать работу подсистем с помощью программируемой логики можно и сейчас, но вы не получите тех же характеристик производительности», – отметил Пен.

Еще один ключевой элемент – CCIX. «Революционной здесь является когерентность кэша, – пояснил Фройнд. – Впервые вы можете построить с использованием стандартного сетевого протокола ускоритель с когерентным кэшем, и ничего подобного в отрасли пока нет».

CCIX – это набор спецификаций, разработанных группой CCIX Consortium для решения проблемы когерентности кэша – исключения ошибок в тех случаях, когда разные процессоры пытаются изменить одну и ту же область памяти или обращаются к устаревшим копиям данных.

Главной целью Everest является искусственный интеллект. Никто не ждет от этих чипов конкуренции с центральными процессорами Intel или графическими процессорами Nvidia, которые используются для обработки терабайтных наборов данных в масштабных нейронных сетях машинного обучения стоуровневой глубины.

Но адаптируемость Everest по образу традиционных FPGA делает эти чипы идеальным инструментом для логического вывода и использования нейронных сетей в сценариях реальной жизни. Дело в том, что на каждом уровне нейронной сети в целях экономии времени и электроэнергии обработку следует выполнять с минимально возможным уровнем точности. В отличие от центральных процессоров, выполняющих операции с фиксированной точностью, микросхемы FPGA можно запрограммировать для обработки каждого уровня нейронной сети с минимально подходящей для этого уровня точностью.

Главная цель – оконечные устройства сети

И хотя в Xilinx заявляют, что главной их целью являются ЦОДы, именно оконечные узлы сети и устройства Интернета вещей становятся тем полем, где Everest может проявить себя во всем блеске. Приложения машинного обучения все чаще интегрируются в устройства оконечных узлов сети, на которые накладываются жесткие ограничения в части энергопотребления, что делает их идеальными кандидатами на использование FPGA.

Корпорация Microsoft, ставшая первым крупным облачным провайдером, анонсировавшим развертывание FPGA при построении инфраструктуры публичных облаков, в прошлом году объявила об использовании их в системах искусственного интеллекта на платформе глубинного обучения Project Brainwave. В Microsoft используют микросхемы FPGA Stratix 10, предлагаемые заклятым врагом Xilinx, Intel/Altera, но, тем не менее, это способствует дальнейшей популяризации применения FPGA при выполнении процедур логического вывода искусственного интеллекта.

Продолжающееся соперничество между Xilinx и Intel развернется с новой силой после перевода производственных процессов на уменьшенную норму проектирования. Intel уже анонсировала микросхемы FPGA с кодовым наименованием Falcon Mesa, которые будут выпускаться по 10-нанометровой технологии. Некоторые эксперты утверждают, что она обеспечит эквивалентную 7-нанометровому процессу TSMC плотность размещения транзисторов.

С учетом того, что Everest и, возможно, Falcon Mesa должны появиться в 2019 году, мы видим, что микросхемы FPGA – или, в случае с Xilinx, ACAP – будут играть еще более важную роль в формировании вычислительных тенденций, чем когда-либо ранее.