Компания Nvidia активизирует свои усилия на рынке оборудования для ЦОДов, повышая эффективность решения различных задач искусственного интеллекта с помощью графического процессора Tesla T4. Процессор T4 был создан на основе архитектуры Turing и, наряду с новым программным обеспечением, предназначен для значительного ускорения обработки изображений и речи, автоматизированного перевода и работы рекомендательных сервисов.
T4 является важным компонентом новой платформы Nvidia TensorRT Hyperscale Inference Platform – платы ускорителя, которая, как ожидается, начнет поставляться крупным производителям серверов для ЦОДов в четвертом квартале.
Ядра Turing Tensor Core T4 поддерживают вычисления с различными уровнями точности в приложениях искусственного интеллекта, а также в крупных программных платформах (включая TensorFlow, PyTorch, MXNet, Chainer и Caffe2) для так называемого глубинного обучения – машинного обучения в многоуровневых, или глубоких, нейронных сетях.
«Графический процессор Tesla T4 построен на основе архитектуры Turing, которая совершит революцию в области искусственного интеллекта в ЦОД, – указал генеральный директор Nvidia Дженсен Хуанг, представляя новый графический процессор на конференции GTC в Токио. – Tensor Core – это результат полного переосмысления нами концепции графических процессоров. Фактически мы изобрели графический процессор заново».
Благодаря своей массово-параллельной архитектуре графические процессоры хорошо подходят для решения задач искусственного интеллекта. Параллельные вычисления в сочетании с высокой вычислительной мощностью процессоров Nvidia способствуют тому, что они широко применяются при решении задач искусственного интеллекта, особенно при обработке данных в процессе машинного обучения. По сути, именно появление данной вычислительной платформы способствовала созданию моделей нейронных сетей глубинного обучения.
Обработка с различными уровнями точности
Способность процессоров T4 обеспечивать обработку с различными уровнями точности выгодно отличает их от прежних процессоров Nvidia P4 на базе архитектуры Pascal.
После обучения на больших наборах данных нейросетевые модели передаются в приложения, которые выполняют классификацию данных и выдачу результата на основе правил логического вывода. И если для обучения нужны интенсивные вычисления, то для логического вывода в реальных приложениях от процессора требуется максимальная гибкость.
В идеале обработка на каждом уровне нейронной сети должна выполняться с минимально подходящей для этого уровня точностью. Такой подход позволяет максимизировать скорость вычислений и сократить энергопотребление.
«Создавая архитектуру, обеспечивающую различную точность вычислений, мы добиваемся максимизации соответствия решаемой задаче и пропускной способности, затрачивая на все это 75 ватт мощности, – пояснил Хуанг. – T4 работает по меньшей мере в восемь раз быстрее, чем P4, а в некоторых ситуациях он оказывается быстрее уже в 40 раз».
Современные ЦОДы имеют дело с широким спектром приложений, обрабатывающих миллиарды голосовых запросов, переводов фраз, изображений и видеороликов, рекомендаций и операций взаимодействия в социальных сетях. По оценкам Nvidia, рынок искусственного интеллекта и когнитивных вычислений в ближайшие пять лет достигнет 20 млрд долл. При этом разным приложениям в нейронной сети требуются разные уровни обработки.
«Никто не хочет выполнять 32-разрядные вычисления с плавающей точкой там, где приложению достаточно 16-разрядных вычислений, – пояснил основатель аналитической компании Moor Insights & Strategy Патрик Мурхед. – С новой когнитивной платформой Nvidia высоко подняла планку технологий искусственного интеллекта для ЦОДов».
Что представляет собой TensorRT Hyperscale Inference Platform?
В состав платформы TensorRT Hyperscale Inference Platform, реализованной в виде небольшой платы PCIe, которая потребляет 75 ватт, входят:
- Графический процессор Nvidia Tesla T4, имеющий 320 ядер Turing Tensor и 2560 ядер CUDA (Compute Unitfied Device Architecture). CUDA – это язык программирования Nvidia, ориентированный на параллельную обработку. T4 поддерживает 16-ти и 32-разрядные операции с плавающей точкой (FP16 и FP32), а также 8-ти и 16-разрядные операции целочисленной арифметики (INT8 и INT16). Пиковая производительность T4 при выполнении операций FP16 составляет 65 TFLOPS, при выполнении операций INT8 – 130 TFLOPS и при выполнении INT4 – 260 TFLOPS.
- TensorRT 5 – оптимизатор логического вывода и исполняемая среда для глубинного обучения, которые обеспечивают высокопроизводительный логический вывод с низкими задержками, быструю оптимизацию, проверку и развертывание обученных нейронных сетей в ЦОД гипермасштаба для встроенных или автономных платформ графических процессоров. Уже реализована поддержка TensorFlow, MXNet, Caffe2 и Matlab, а также других платформ через ONNX (Open Neural Network Exchange).
- TensorRT Inference Server – сервер логического вывода для ЦОДов, доступный из Nvidia GPU Cloud. Он предназначен для обучения с вертикальным масштабированием, развертывания систем логического вывода в многооблачных кластерах графических процессоров и интеграции с Kubernetes и Docker, позволяя разработчикам автоматизировать развертывание, планирование и выполнение операций множества контейнеров приложений GPU в кластерной среде.
Ключевая задача – поддержка ПО
«Мы продолжаем инвестировать в оптимизацию всего нашего программного стека с самого низа, используя доступные платформы, – отметил вице-президент подразделения Nvidia Accelerated Computing Иан Бак. – Запустив свои уже готовые нейронные сети, клиент может взять обучающие модели и развернуть их в тот же день».
В области логического вывода компания Nvidia конкурирует с другими производителями программируемых логических матриц FPGA (field programmable gate array), в частности, с Xilinx. Микросхемы FPGA позволяют разработчикам осуществлять тонкую настройку точности вычислений для различных уровней глубинных нейронных сетей. Но FPGA требуют от программистов дополнительной подготовки. Настройка FPGA выполняется с помощью языков категории Hardware Description Language (HDL), а не языков высокого уровня, которые применяются для других чипов.
FPGA готовы конкурировать с GPU
В марте компания Xilinx представила новую категорию микросхем – Adaptive Compute Acceleration Platform (ACAP), – которая поддерживает более широкий спектр программного обеспечения по сравнению с традиционными FPGA. Поставки первой версии ACAP, разрабатывавшейся под кодовым наименованием Everest, должны начаться в следующем году. В Xilinx заявляют, что разработчики программного обеспечения смогут обращаться к Everest с использованием различных инструментов: Си/C++, OpenCL, Python и т. д. Everest поддерживает программирование и на аппаратном уровне с использованием таких HDL-языков, как Verilog и VHDL.
Поддержка программного обеспечения, предлагаемая графическими процессорами T4 в сочетании с возможностью организации вычислений различной точности, должна укрепить позиции Nvidia как в обучении, так и в логическом выводе для приложений искусственного интеллекта.
«Мы убеждены в том, что в нашем распоряжении имеется самая эффективная на сегодняшний день платформа логического вывода, – заявил Бак. – Замеры проводятся на реальных производственных нагрузках под наблюдением наших клиентов. Мы взаимодействуем с ними на всем пространстве нашего стека сверху донизу, чтобы предлагать не только лучшие средства обучения, но и лучшую платформу логического вывода. Фактически все производители серверов, использующие сегодня графические процессоры P4, к концу года перейдут на T4».
На конференции в Токио о своих намерениях поддерживать T4 заявил целый ряд производителей систем для ЦОДов, в том числе Cisco, Dell EMC, Fujitsu, HPE, IBM, Oracle и SuperMicro.
О планах использования T4 сообщили и в Google.