jueves, 22 de junio de 2017

Los aceleradores AMD Radeon Instinct™ ofrecen capacidades de machine intelligence sin precedentes



Con la primera vista previa en diciembre de 2016, esta nueva línea de aceleradores de servidor GPU -Radeon Instinct™ MI25, Radeon Instinct MI8 y Radeon Instinct MI6 – junto con la plataforma de software abierto de AMD ROCm 1.6, ayudará considerablemente a incrementar el rendimiento, eficiencia y facilidad de implementación a gran velocidad a través de la inferenciaDeep Learning y el entrenamiento para acelerar el impulso de machine intelligence.



Los tres aceleradores iniciales de Radeon Instinct están diseñados para abordar una amplia gama de aplicaciones de machine intelligence:


El acelerador de Radeon Instinct™ MI25, basado en la arquitectura de la GPU "Vega" con un proceso de 14nm FinFET, será el gran acelerador de entrenamiento global para el machine intelligence a gran escala y para el aprendizaje profundo de las aplicaciones de datacenter. El MI25 proporciona rendimiento superior de FP16 y FP32[1] en una tarjeta de servidor GPU sólo pasivamente refrigerado con 24.6 TFLOPS de FP16 o 12.3 TFLOPS de FP32 máximo rendimiento a través de sus 64 unidades de computación (4,096 procesadores de flujo). Con 16GB de banda ancha ultra-alta de memoria de HBM2 ECC[2]GPU y hasta 484 GB/s de ancho de banda de memoria, el proyecto Radeon Instinct MI25 está optimizado para aplicaciones paralelas masivas con grandes conjuntos de datos a las cargas de trabajo de los sistemas de machine intelligence y HPC-class.


El acelerador Radeon Instinct™ MI8, que aprovecha el alto rendimiento y eficiencia energética de la arquitectura GPU de "Fiji", es un pequeño factor HPC y acelerador de inferencia con 8.2 TFLOPS de pico FP16|FP32 con rendimiento de placa en menos de 175W tablero y 4GB de memoria de alto ancho de banda (HBM) en una interfaz de memoria de 512 bits. El MI8 es adecuado para inferencia de machine learning y aplicaciones HPC.


El acelerador Radeon™ MI6, basado en la aclamada arquitectura GPU "Polaris", es un acelerador de inferencia pasivamente refrescado con 5.7 TFLOPS de pico y rendimiento de FP16 | FP32 con potencia de 150W y 16GB de memoria ultra rápida de GPU GDDR5 en una interfaz de memoria de 256 bits. El MI6 es un acelerador versátil ideal para HPC y machine learning de interferencia e implementaciones de entrenamiento de borda.



El hardware de Radeon Instinct es alimentada por las soluciones de software de código abierto de AMD, incluyendo:


Con el lanzamiento previsto para el 29 de junio, la plataforma de software de ROCm 1.6 con mejoras de rendimiento y soporte para MIOpen 1.0 es escalable y totalmente de Open Source proporciona una solución computacional heterogénea, eficiente y flexible para una nueva clase de Hyperscale híbrido y sistema HPC-class para cargas de trabajo. Consta de un driver de código abierto controlador de Linux® optimizado para computación escalable multi-GPU, la plataforma de software de ROCm ofrece múltiples modelos de programación, la herramienta de conversión de HIP CUDA y soporte para la aceleración de la GPU usando el Heterogeneous Computing Compiler (HCC).


La biblioteca de Open-Source MIOpen GPU-acelerado de código abierto está ahora disponible con la plataforma de ROCm y soporta marcos de machine intelligence incluyendo soporte planificado para Caffe, TensorFlow y la Torch.

Tenemos la intención de enviar los productos de Radeon Instinct a nuestros socios de tecnología (incluyendo Boxx, Colfax, Exxact Corporation, Gigabyte, Inventec y Supermicro, entre otros) para impulsar su Deep learning y soluciones HPC a partir del tercero trimestre.





Para más información, visite Radeon.com/Instinct


[1] Cálculo de TFLOPS: Los cálculos FLOPS se llevan a cabo tomando el motor de clock de mecanismo del estado DPM más fuerte y multiplicarlo por 64 CUs para la GPU. Luego multiplique este número por 64 unidades de shader, que existe en cada CU. Entonces, este número es multiplicado por 2 FLOPS por clock para FP32. Para calcular el TFLOPS para FP16, fueron utilizados 4 FLOPS por el clock. La tasa FP64 TFLOPS se calcula utilizando la tasa de 1/16.
[2] Soporte ECC se limita a la memoria HBM2 y protección ECC no se proporciona a las estructuras internas de la GPU.

No hay comentarios.:

Publicar un comentario