Rendimiento y Escalado Multi-GPU en Octane y Redshift con Geforce RTX

Rendimiento y Escalado Multi-GPU en Octane y Redshift con Geforce RTX

Anteriormente, nos dimos cuenta que en soluciones Multi-GPU con Geforce RTX cuando realizábamos tareas de render daba lugar a un sobrecalentamiento y a una reducción significativa del rendimiento, debido a la solución de doble/triple ventilador que NVIDIA ha adoptado como estándar en esta generación de tarjetas “Founders Edition», así como en distintos modelos de ensambladores que emplean estos sistemas en sus GPUs enfocadas al sector de consumo y/o gaming. En esta entrada de blog puedes consultar los resultados de las pruebas.

Ahora que fabricantes como ASUS emplean sistemas Blower para refrigerar sus GPUs, podemos comprobar en las siguientes pruebas como se resuelven los problemas de Thermal Throttling y averiguar qué tan bien escalan estas GPUs cuando usamos 1, 2, 3, o incluso 4 de ellas para renderizar, por ejemplo, en OctaneRender y Redshift, como podemos ver a continuación.

Lo primero que podemos ver en las siguientes tablas son los resultados de los benchmarks según el número de GPUs que usemos:

Y podemos comprobar fácilmente como las GPUs escalan de manera casi lineal cuando pasamos de una GPU a cuatro:

Sin embargo, estos resultados no nos dicen nada si no los comparamos con las pruebas realizadas con sistemas Multi-GPU empleando gráficas con sistemas de ventilación Dual Fan. Aquí podemos ver la diferencia:

Llegados a este punto podemos comprobar fácilmente como en solucionas Multi-GPU con sistemas de refrigeración Blower tenemos un rendimiento notablemente superior frente a soluciones de refrigeración basadas en doble o triple ventilador.

Te recordamos nuevamente que en Azken Muga empleamos GPUs con sistemas de refrigeración Blower para todas nuestras soluciones Multi-GPU, tanto en Workstations como en Servidores de alta densidad.

Para más información no dudes en contactar con nosotros

Configuraciones Multi-GPU con Nvidia RTX | Temperatura y rendimiento

Configuraciones Multi-GPU con Nvidia RTX | Temperatura y rendimiento

Durante muchos años, configurar una estación con 2, 3 o incluso 4 GPUs era una opción viable e ideal para muchas aplicaciones de cálculo GPU como el renderizado, corrección de color y Machine/Deep Learning entre otros. Antes de la serie RTX, los diseños de ventilación de los modelos de «referencia» de NVIDIA tenían un ventilador situado cerca de la parte frontal de la GPU que introducía aire frío, lo movía a través del disipador térmico y expulsaba este aire ya caliente por la parte posterior. A este tipo de ventilación se le denomina Blower.

El uso de varias tarjetas de este tipo sólo requería un buen flujo de aire interno, espacio suficiente entre cada GPU y una fuente de alimentación lo suficientemente potente como para mantenerlas todas en funcionamiento.

Con el lanzamiento de las GPUs GeForce RTX, sin embargo, todo cambió. Esta serie se estrenó con las soluciones de doble ventilador y, aunque los distintos fabricantes y ensambladores ya usaban estos sistemas de refrigeración en generaciones anteriores, éstas se convirtieron en la norma con RTX.

Con una sola GPU, y un flujo de aire decente, esto no suele ser un gran problema. Aunque puede ser un reto en las estaciones con un factor de forma reducido (ITX) como puede ser nuestra R-Series , que tienden a tener un flujo de aire restringido. Sin embargo, una vez que pasamos a dos GPUs, habremos duplicado la cantidad de calor que se está introduciendo de nuevo al sistema, lo que requiere aún más trabajo por parte de los ventiladores del chasis, además que los ventiladores de una GPU puedan aspirar el aire ya caliente que acaba de salir de la otra GPU. Esto acabaría afectando drásticamente a las temperaturas de las GPUs y provocando un aumento de la velocidad de los ventiladores (ruido añadido) y un posible sobrecalentamiento. Cuando las GPUs se calientan demasiado, reducen la frecuencia para evitar daños y, por tanto, reducen el rendimiento (Thermal Throttling).

 

Con cuatro GPUs RTX 2080 Founders Edition (doble ventilador), comprobamos que se sobrecalientan y aceleran en cuestión de minutos después de estar bajo carga, y esto antes incluso de completar una sola pasada de, por ejemplo, OctaneBench y Redshift que son dos de los mejores motores de Render basados en GPU:

 

Y este problema se agrava con las siguientes series que hacemos en Octane y también en Redshift:

 

En sistemas Multi-GPU tanto en Geforce RTX como Quadro RTX, empleando tarjetas con sistemas de refrigeración Blower, podemos comprobar como las GPUs pueden mantener el rendimiento completo con cada serie que pasan en Octane y Redshift.

¿Existen maneras de solucionar estos problemas de rendimiento y refrigeración?

Sí. En el caso de las Geforce RTX, OEMs como Asus, Gigabyte y PNY han incluido en su catálogo GPUs con sistemas de ventilación Blower diseñadas para configuraciones Multi-GPU (aquí podemos enlazar con nuestras Geforce de la web). Pero estaríamos limitados por los 6, 8 u 11 GB de memoria de vídeo que se encuentran en estas GPUs. Para los usuarios que deseen utilizar varias tarjetas con más de 11 GB de VRAM, las GPUs Quadro RTX son la única opción (enlazar con la sección de Quadro de la web), además de las ventajas que estas conllevan, tanto a nivel de drivers dedicados como en términos de garantía, ya que son las únicas aceptadas por Nvidia, fuera de la gama Tesla, para integrar en servidores.

 

En Azken Muga todas nuestras estaciones y servidores están perfectamente configurados basándonos en estos estudios y con las pruebas de stress y rendimiento más exigentes posibles. Puedes echar un vistazo a nuestras Workstations Multi-GPU (Enlazar con Workstations / GPGPU Deep Learning de la web) y a nuestros servidores para HPC y GPU Computing donde integramos sistemas de alta densidad con hasta 10 GPUs. (enlazamos con Servidores / HPC GPU Computing de la web). Si tienes alguna duda, siempre puedes contactar con nosotros

 

 

Nvidia Tesla T4

Nvidia Tesla T4

 

 

NVIDIA T4 lleva aceleración por GPU a los servidores empresariales líderes en el mundo.

 

Las GPUs profesionales NVIDIA T4 y las librerías de aceleración CUDA-X preparan los Data Center para las diversas y complejas cargas de trabajo actuales que incluyen HPC Deep Learning tanto entrenamiento como inferencia, machine learning, data analytics, encoding y visualización gráfica. Con el soporte de la plataforma NGC (Nvidia GPU Cloud), los equipos de TI pueden construir infraestructuras de Data Center acelerados por GPU estándar con la mayoría de los fabricantes de servidores del mundo como ASUS Server.

 

Con respecto a la configuraciones clásica de CPU (Ver: Nota al pie) con NVIDIA T4 obtenemos:

  • Hasta un 33% más de rendimiento en infraestructuras de escritorio virtual (VDI).
  • Hasta 35x veces más rápido en Machine Learning.
  • Hasta 10 veces más rápido en entrenamiento en Deep Learning.
  • Hasta 40 veces más rápido para obtener información sobre la inferencia de Deep Learning.

(Nota el pie de pagina)

Aceleración en Deep Learning

 

Si bien el Deep Learning ha llegado bastante recientemente al mercado de la IA, las compañías han estado utilizando el Deep Learning para recopilar información a partir de datos durante décadas. La GPU del centro de datos NVIDIA T4 puede acelerar estas técnicas de aprendizaje automático utilizando RAPIDS, un conjunto de bibliotecas de open source para la preparación de datos y Deep Learning en la  GPU. Usando herramientas de desarrollo familiares como Python, una GPU T4 puede acelerar el aprendizaje de la máquina hasta 35X en comparación con un servidor solo para CPU, incluidos algoritmos como XGBoost, PCA, K-means, k-NN, DBScan y tSVD.

 

 

Los Tensor cores de Turing aceleran NVIDIA T4 en servidores profesionales.

 

 

NVIDIA T4 se basa en la revolucionaria tecnología Tensor Core de NVIDIA Turing ™ con computación de precisión múltiple para Workloads de AI. Al potenciar el rendimiento innovador de FP32 y FP16 a  INT8, así como a INT4, T4 ofrece un rendimiento de inferencia hasta 40 veces mayor que las CPU,  para capacitación, un solo servidor con dos GPU T4 reemplaza nueve servidores de CPU de doble socket.

 

Los desarrolladores pueden utilizar los Tensor Core de Turing directamente a través de las bibliotecas de software NVIDIA CUDA-X AI integrándose con todos los frameworks de AI. Construidas sobre CUDA, el modelo de programación paralelo de NVIDIA, las librerías CUDA-X proporcionan optimizaciones para los requisitos informáticos específicos de inteligencia artificial, máquinas autónomas, computación de alto rendimiento y gráficos.

 

Experiencias excepcionales de VDI con NVIDIA T4

 

Los servidores principales equipados con NVIDIA T4 están certificados por nuestros socios para el software de GPU virtual, lo que garantiza que los usuarios disfruten de experiencias de escritorio virtual de alta calidad desde cualquier lugar y en cualquier dispositivo. Desde trabajadores y profesionales móviles hasta diseñadores e ingenieros, NVIDIA T4 combinada con el software virtual de NVIDIA GPU – NVIDIA GRID® Virtual PC (GRID vPC) y NVIDIA Quadro® Virtual Data Center Workstation (Quadro vDWS), puede acelerar la experiencia VDI, ofreciendo hasta un 33 % de mejora de rendimiento que los entornos VDI solo para CPU.

 

Los servidores profesionales están preparados para NGC

 

Los contenedores NGC están preconstruidos y altamente optimizados para la computación de GPU. Ofrecen la experiencia incomparable de NVIDIA y el apoyo al ecosistema para los frameworks de Deep Learning, el software RAPIDS, NVIDIA TensorRT ™ y más de 600 aplicaciones informáticas de alto rendimiento.  NGC de NVIDIA permite a todos los fabricantes de servidores validar los contenedores NGC en sus plataformas para brindar a los administradores de Data Center la confianza para implementar despliegues hyper-escalables y elásticos de su infraestructura.

 

 

INFERENCIA TIEMPO REAL

 

La capacidad de respuesta es clave para la participación del usuario en servicios tales como inteligencia artificial conversacional, sistemas de recomendación y búsqueda visual. A medida que los modelos aumentan en precisión y complejidad, entregar la respuesta correcta en el momento requiere una capacidad de cómputo exponencialmente mayor. T4 ofrece hasta 40 veces más rendimiento, por lo que se pueden atender más solicitudes en tiempo real.

 

 

Rendimiento de transcodificación de video

 

A medida que el volumen de los videos online continúa creciendo exponencialmente, la demanda de soluciones para buscar de manera eficiente y obtener información del video también continúa creciendo. Tesla T4 ofrece un rendimiento innovador para aplicaciones de video AI, con motores de transcodificación de hardware dedicados que ofrecen el doble de rendimiento de decodificación que las GPU de generaciones anteriores. T4 puede decodificar hasta 38 streams de video en HD total, lo que facilita la integración del aprendizaje profundo escalable en los canales de video para ofrecer servicios de video innovadores e inteligentes.

NVIDIA Tesla T4 Specifications

Performance

 

  • Turing Tensor Cores: 320
  • NVIDIA CUDA® cores: 2,560
  • Single Precision Performance (FP32):8.1 TFLOPS
  • Mixed Precision (FP16/FP32): 65 FP16 TFLOPS
  • INT8 Precision: 130 INT8 TOPS
  • INT4 Precision: 260 INT4 TOPS
  • Interconnect: Gen3 – x16 PCIe

Memory:

 

  • Capacity:16 GB GDDR6
  • Bandwidth: 320+ GB/s

Power: 70 watts

NOTA:

VDI: GRID vPC probado en un servidor con 2x Intel Xeon Gold 6148 (20c, 2.4 GHz), GRID vPC con T4-1B (64 VM), VMware ESXi 6.7, NVIDIA vGPU Software (410.91 / 412.16), Windows 10 (1803) , 2 vCPU, 4 GB de RAM, resolución 1920x1080, monitor único, VMware Horizon 7.6 La experiencia del usuario se midió utilizando una herramienta de evaluación comparativa interna de NVIDIA que mide marcos remotos que ejecutan aplicaciones de productividad de oficina como Microsoft PowerPoint, Word, Excel, Chrome, visualización de PDF y video reproducción.

Machine Learning: nodos de la CPU (61 GB de memoria, 8 vCPU, plataforma de 64 bits), Apache Spark. Conjunto de datos CSV de 200 GB; La preparación de datos incluye uniones, transformaciones variables. Configuración del servidor GPU: Dual-Socket Xeon E5-2698 v4@3.6GHz, 20 GPU T4 en 5 nodos, cada uno con 4 GPU T4. Todos se ejecutan en la red InfiniBand, los datos de la CPU para XGBoost y los pasos de conversión de datos se estiman en base a los datos medidos para 20 nodos de la CPU, y reducen el tiempo de ejecución en un 60% para normalizar la capacitación en un conjunto de datos más pequeño en T4.

Deep Learning Training and Inference: GPU: Dual-Socket Xeon E5-2698 v4@3.6GHz. Servidores GPU: 2xT4s para entrenamiento, 1xT4 para inferencia, contenedor NGC 18.11-py3 con CUDA 10.0.130; NCCL 2.3.7, cuDNN 7.4.1.5; cuBLAS 10.0.130 | Controlador NVIDIA: 384.145.

 

Nvidia Geforce Titan RTX

Nvidia Geforce Titan RTX

NVIDIA® TITAN RTX™ es la tarjeta gráfica de PC más rápida que jamás se haya creado. Cuenta con la tecnología de la galardonada arquitectura Turing™, que aporta 576 núcleos Tensor con un rendimiento de 130 TFLOPs y una memoria GDDR6 ultrarrápida de 24 GB para tu PC.

NVIDIA TURING

Las tarjetas gráficas TITAN RTX cuentan con la tecnología de la arquitectura de GPU Turing y la novedosa RTX plataforma. Esto te proporciona hasta el séxtuple de rendimiento que las tarjetas gráficas de la anterior generación con la potencia del trazado de rayos en tiempo real y la inteligencia artificial.

TITAN RTX y RAPIDS ofrecen un inicio rápido y simple para explorar los flujos de trabajo de la ciencia de datos acelerados por GPU y son la solución perfecta para desarrolladores y aficionados.

NVLINK™

El enlace NVLINK duplica la capacidad de memoria efectiva de la GPU a 48 GB y escala el rendimiento con un ancho de banda total de transferencia de datos de hasta 100 GB/s mediante la tecnología NVIDIA NVLink™.