NVIDIA DGX STATION A100: El Equipo de trabajo para la Era de La IA

NVIDIA DGX STATION A100: El Equipo de trabajo para la Era de La IA

Los equipos de ciencia de datos están a la vanguardia de la innovación, pero a menudo se les deja buscando ciclos de computación de IA disponibles para completar los proyectos. Necesitan un recurso dedicado que se pueda conectar en cualquier lugar y que proporcione el máximo rendimiento para múltiples usuarios simultáneos en cualquier parte del mundo. NVIDIA DGX Station™ A100 lleva la supercomputación de IA a los equipos de data science, ofreciendo la tecnología de un data center sin tener que disponer de uno, o infraestructura de IT adicional. Su potente rendimiento, una pila de software totalmente optimizada y el acceso directo a los DGXperts de NVIDIA aseguran tiempos más rápidos de investigación.

NVIDIA GTC20 KEYNOTE: NOVEDADES DE PRODUCTO

NVIDIA GTC20 KEYNOTE: NOVEDADES DE PRODUCTO

Tras la inauguración del #GTC20 y durante el discurso de apertura de NVIDA, se anunciaron una serie de nuevos productos que entrarán en el mercado utilizando su arquitectura de NVIDIA Ampere.

NVIDIA está ayudando a los profesionales a afrontar la pandemia del Coronavirus y facilitando el trabajo remoto en contenidos de alta resolución con múltiples cargas de trabajo que requieren enormes recursos de computación.

NVIDIA RTX A6000

 

La nueva NVIDIA RTX A6000 combina 48 GB de memoria de gráfica con la última generación de RT Cores, Tensor Cores y CUDA Cores para ofrecer el rendimiento extremo de escritorio que los ingenieros y artistas necesitan para innovar desde cualquier lugar. Con un rendimiento y unas funciones de vanguardia, la RTX A6000 permite trabajar a la velocidad de la inspiración para abordar las necesidades urgentes de hoy y, al mismo tiempo, satisfacer las tareas de alta carga computacional del mañana, que evolucionan rápidamente.

NVIDIA RTX A40

 

La GPU NVIDIA A40 es un salto evolutivo en el rendimiento y las capacidades de carga de trabajo múltiple del centro de datos, que combina los mejores gráficos profesionales de su clase con una potente aceleración de los cálculos y la IA para afrontar los retos de diseño, creatividad y ciencia de hoy en día. NVIDIA A40 ofrece a los profesionales funciones de vanguardia para el renderizado de trazas de rayos, la simulación, la producción virtual y mucho más en cualquier momento y lugar.

NVIDIA BLUEFIELD®

 

La unidad de procesamiento de datos (DPU) NVIDIA® BlueField® pone en marcha una innovación sin precedentes para los centros de datos modernos y ofrece una amplia gama de servicios avanzados de red, almacenamiento y seguridad para cargas de trabajo de cálculo e inteligencia artificial complejas. Al combinar el adaptador de red ConnectX®, líder en el sector, con una serie de núcleos Arm, BlueField ofrece motores de aceleración por hardware especialmente diseñados para este fin, con una completa infraestructura de centro de datos en la programabilidad del chip.

Ventajas:

Seguridad desde el perímetro hasta el servidor
Almacenamiento de datos para la expansión de la carga de trabajo
Red de alto rendimiento y eficiencia
Infraestructura definida por el software

Además de estos nuevos productos, NVIDIA también ha anunciado que está construyendo el superordenador más potente del Reino Unido, dedicado a ayudar a los investigadores del sector sanitario a utilizar la IA para resolver problemas médicos acuciantes como el de COVID-19. Se espera que el superordenador «Cambridge-1» se ponga en funcionamiento a finales de año y será un sistema DGX SuperPOD™ de NVIDIA que será capaz de proporcionar más de 400 petaflops de rendimiento de IA y 8 petaflops de rendimiento de Linpack. Esto lo hará estar entre las 3 supercomputadoras más eficientes del mundo en la actual lista de Green500.

 

 «El superordenador Cambridge-1 servirá como centro de innovación para el Reino Unido y fomentará el trabajo pionero que están realizando los investigadores del país en el ámbito de la asistencia sanitaria crítica y el descubrimiento de fármacos», dijo Jensen Huang en su discurso de apertura del GTC.

Las 4 áreas de enfoque clave:

Investigación conjunta de la industria – Resolver problemas de asistencia sanitaria y ciencia de los datos a gran escala que de otra manera no podrían abordarse debido a su tamaño, lo que resulta en la mejora de los resultados de los pacientes, el aumento de las tasas de éxito y la disminución de los costes generales de la asistencia sanitaria.

Tiempo de cálculo concedido por la universidad – El acceso al tiempo de la GPU NVIDIA se donará como recurso a estudios específicos para contribuir a la búsqueda de curas.

Apoyo a las empresas de IA –  NVIDIA brindará oportunidades de aprendizaje y colaborará con las empresas de nueva creación para nutrir a la próxima generación y proporcionar un acceso temprano a las herramientas de IA.

Educar a los futuros practicantes de la IA – El sistema servirá como destino para los investigadores de primera clase y proporcionará experiencias prácticas a la próxima generación.

 

NVIDIA CLARA DISCOVERY™

 

Clara Discovery está optimizada para funcionar con NVIDIA DGX™ A100 y reúne la potencia de la imagen, la radiología y la genómica para desarrollar aplicaciones de IA para las mayores tareas computacionales de la sanidad. NVIDIA ayudará a los investigadores a aprovechar las ventajas de Clara Discovery para sobrealimentar todo el proceso de desarrollo de fármacos, con lo que se abrirá el potencial para sacar al mercado con mayor rapidez medicamentos que salvan vidas.

 

Permaneced atentos a nuevos anuncios durante la semana en el #GTC20!

Nvidia Tesla T4

Nvidia Tesla T4

 

 

 

NVIDIA T4 lleva aceleración por GPU a los servidores empresariales líderes en el mundo.

 

Las GPUs profesionales NVIDIA T4 y las librerías de aceleración CUDA-X preparan los Data Center para las diversas y complejas cargas de trabajo actuales que incluyen HPC Deep Learning tanto entrenamiento como inferencia, machine learning, data analytics, encoding y visualización gráfica. Con el soporte de la plataforma NGC (Nvidia GPU Cloud), los equipos de TI pueden construir infraestructuras de Data Center acelerados por GPU estándar con la mayoría de los fabricantes de servidores del mundo como ASUS Server.

Con respecto a la configuraciones clásica de CPU (Ver: Nota al pie) con NVIDIA T4 obtenemos:

  • Hasta un 33% más de rendimiento en infraestructuras de escritorio virtual (VDI).
  • Hasta 35x veces más rápido en Machine Learning.
  • Hasta 10 veces más rápido en entrenamiento en Deep Learning.
  • Hasta 40 veces más rápido para obtener información sobre la inferencia de Deep Learning.

(Nota el pie de pagina)

Aceleración en Deep Learning

 

Si bien el Deep Learning ha llegado bastante recientemente al mercado de la IA, las compañías han estado utilizando el Deep Learning para recopilar información a partir de datos durante décadas. La GPU del centro de datos NVIDIA T4 puede acelerar estas técnicas de aprendizaje automático utilizando RAPIDS, un conjunto de bibliotecas de open source para la preparación de datos y Deep Learning en la  GPU. Usando herramientas de desarrollo familiares como Python, una GPU T4 puede acelerar el aprendizaje de la máquina hasta 35X en comparación con un servidor solo para CPU, incluidos algoritmos como XGBoost, PCA, K-means, k-NN, DBScan y tSVD.

 

Los Tensor cores de Turing aceleran NVIDIA T4 en servidores profesionales.

 

NVIDIA T4 se basa en la revolucionaria tecnología Tensor Core de NVIDIA Turing ™ con computación de precisión múltiple para Workloads de AI. Al potenciar el rendimiento innovador de FP32 y FP16 a  INT8, así como a INT4, T4 ofrece un rendimiento de inferencia hasta 40 veces mayor que las CPU,  para capacitación, un solo servidor con dos GPU T4 reemplaza nueve servidores de CPU de doble socket.

Los desarrolladores pueden utilizar los Tensor Core de Turing directamente a través de las bibliotecas de software NVIDIA CUDA-X AI integrándose con todos los frameworks de AI. Construidas sobre CUDA, el modelo de programación paralelo de NVIDIA, las librerías CUDA-X proporcionan optimizaciones para los requisitos informáticos específicos de inteligencia artificial, máquinas autónomas, computación de alto rendimiento y gráficos.

 

Experiencias excepcionales de VDI con NVIDIA T4

 

Los servidores principales equipados con NVIDIA T4 están certificados por nuestros socios para el software de GPU virtual, lo que garantiza que los usuarios disfruten de experiencias de escritorio virtual de alta calidad desde cualquier lugar y en cualquier dispositivo. Desde trabajadores y profesionales móviles hasta diseñadores e ingenieros, NVIDIA T4 combinada con el software virtual de NVIDIA GPU – NVIDIA GRID® Virtual PC (GRID vPC) y NVIDIA Quadro® Virtual Data Center Workstation (Quadro vDWS), puede acelerar la experiencia VDI, ofreciendo hasta un 33 % de mejora de rendimiento que los entornos VDI solo para CPU. 

Los servidores profesionales están preparados para NGC

Los contenedores NGC están preconstruidos y altamente optimizados para la computación de GPU. Ofrecen la experiencia incomparable de NVIDIA y el apoyo al ecosistema para los frameworks de Deep Learning, el software RAPIDS, NVIDIA TensorRT ™ y más de 600 aplicaciones informáticas de alto rendimiento.  NGC de NVIDIA permite a todos los fabricantes de servidores validar los contenedores NGC en sus plataformas para brindar a los administradores de Data Center la confianza para implementar despliegues hyper-escalables y elásticos de su infraestructura.

 

INFERENCIA TIEMPO REAL

La capacidad de respuesta es clave para la participación del usuario en servicios tales como inteligencia artificial conversacional, sistemas de recomendación y búsqueda visual. A medida que los modelos aumentan en precisión y complejidad, entregar la respuesta correcta en el momento requiere una capacidad de cómputo exponencialmente mayor. T4 ofrece hasta 40 veces más rendimiento, por lo que se pueden atender más solicitudes en tiempo real.

 

Rendimiento de transcodificación de video

 

A medida que el volumen de los videos online continúa creciendo exponencialmente, la demanda de soluciones para buscar de manera eficiente y obtener información del video también continúa creciendo. Tesla T4 ofrece un rendimiento innovador para aplicaciones de video AI, con motores de transcodificación de hardware dedicados que ofrecen el doble de rendimiento de decodificación que las GPU de generaciones anteriores. T4 puede decodificar hasta 38 streams de video en HD total, lo que facilita la integración del aprendizaje profundo escalable en los canales de video para ofrecer servicios de video innovadores e inteligentes.

NVIDIA Tesla T4 Specifications

Performance

 

  • Turing Tensor Cores: 320
  • NVIDIA CUDA® cores: 2,560
  • Single Precision Performance (FP32):8.1 TFLOPS
  • Mixed Precision (FP16/FP32): 65 FP16 TFLOPS
  • INT8 Precision: 130 INT8 TOPS
  • INT4 Precision: 260 INT4 TOPS
  • Interconnect: Gen3 – x16 PCIe

Memory:

 

  • Capacity:16 GB GDDR6
  • Bandwidth: 320+ GB/s

Power: 70 watts

NOTA:

VDI: GRID vPC probado en un servidor con 2x Intel Xeon Gold 6148 (20c, 2.4 GHz), GRID vPC con T4-1B (64 VM), VMware ESXi 6.7, NVIDIA vGPU Software (410.91 / 412.16), Windows 10 (1803) , 2 vCPU, 4 GB de RAM, resolución 1920×1080, monitor único, VMware Horizon 7.6 La experiencia del usuario se midió utilizando una herramienta de evaluación comparativa interna de NVIDIA que mide marcos remotos que ejecutan aplicaciones de productividad de oficina como Microsoft PowerPoint, Word, Excel, Chrome, visualización de PDF y video reproducción.

Machine Learning: nodos de la CPU (61 GB de memoria, 8 vCPU, plataforma de 64 bits), Apache Spark. Conjunto de datos CSV de 200 GB; La preparación de datos incluye uniones, transformaciones variables. Configuración del servidor GPU: Dual-Socket Xeon E5-2698 v4@3.6GHz, 20 GPU T4 en 5 nodos, cada uno con 4 GPU T4. Todos se ejecutan en la red InfiniBand, los datos de la CPU para XGBoost y los pasos de conversión de datos se estiman en base a los datos medidos para 20 nodos de la CPU, y reducen el tiempo de ejecución en un 60% para normalizar la capacitación en un conjunto de datos más pequeño en T4.

Deep Learning Training and Inference: GPU: Dual-Socket Xeon E5-2698 v4@3.6GHz. Servidores GPU: 2xT4s para entrenamiento, 1xT4 para inferencia, contenedor NGC 18.11-py3 con CUDA 10.0.130; NCCL 2.3.7, cuDNN 7.4.1.5; cuBLAS 10.0.130 | Controlador NVIDIA: 384.145.

 

Rendimiento y Escalado Multi-GPU en Octane y Redshift con Geforce RTX

Rendimiento y Escalado Multi-GPU en Octane y Redshift con Geforce RTX

Anteriormente, nos dimos cuenta que en soluciones Multi-GPU con Geforce RTX cuando realizábamos tareas de render daba lugar a un sobrecalentamiento y a una reducción significativa del rendimiento, debido a la solución de doble/triple ventilador que NVIDIA ha adoptado como estándar en esta generación de tarjetas “Founders Edition», así como en distintos modelos de ensambladores que emplean estos sistemas en sus GPUs enfocadas al sector de consumo y/o gaming. En esta entrada de blog puedes consultar los resultados de las pruebas.

Ahora que fabricantes como ASUS emplean sistemas Blower para refrigerar sus GPUs, podemos comprobar en las siguientes pruebas como se resuelven los problemas de Thermal Throttling y averiguar qué tan bien escalan estas GPUs cuando usamos 1, 2, 3, o incluso 4 de ellas para renderizar, por ejemplo, en OctaneRender y Redshift, como podemos ver a continuación.

Lo primero que podemos ver en las siguientes tablas son los resultados de los benchmarks según el número de GPUs que usemos:

Y podemos comprobar fácilmente como las GPUs escalan de manera casi lineal cuando pasamos de una GPU a cuatro:

Sin embargo, estos resultados no nos dicen nada si no los comparamos con las pruebas realizadas con sistemas Multi-GPU empleando gráficas con sistemas de ventilación Dual Fan. Aquí podemos ver la diferencia:

Llegados a este punto podemos comprobar fácilmente como en solucionas Multi-GPU con sistemas de refrigeración Blower tenemos un rendimiento notablemente superior frente a soluciones de refrigeración basadas en doble o triple ventilador.

Te recordamos nuevamente que en Azken Muga empleamos GPUs con sistemas de refrigeración Blower para todas nuestras soluciones Multi-GPU, tanto en Workstations como en Servidores de alta densidad.

Para más información no dudes en contactar con nosotros

Configuraciones Multi-GPU con Nvidia RTX | Temperatura y rendimiento

Configuraciones Multi-GPU con Nvidia RTX | Temperatura y rendimiento

Durante muchos años, configurar una estación con 2, 3 o incluso 4 GPUs era una opción viable e ideal para muchas aplicaciones de cálculo GPU como el renderizado, corrección de color y Machine/Deep Learning entre otros. Antes de la serie RTX, los diseños de ventilación de los modelos de «referencia» de NVIDIA tenían un ventilador situado cerca de la parte frontal de la GPU que introducía aire frío, lo movía a través del disipador térmico y expulsaba este aire ya caliente por la parte posterior. A este tipo de ventilación se le denomina Blower.

El uso de varias tarjetas de este tipo sólo requería un buen flujo de aire interno, espacio suficiente entre cada GPU y una fuente de alimentación lo suficientemente potente como para mantenerlas todas en funcionamiento.

Con el lanzamiento de las GPUs GeForce RTX, sin embargo, todo cambió. Esta serie se estrenó con las soluciones de doble ventilador y, aunque los distintos fabricantes y ensambladores ya usaban estos sistemas de refrigeración en generaciones anteriores, éstas se convirtieron en la norma con RTX.

Con una sola GPU, y un flujo de aire decente, esto no suele ser un gran problema. Aunque puede ser un reto en las estaciones con un factor de forma reducido (ITX) como puede ser nuestra R-Series , que tienden a tener un flujo de aire restringido. Sin embargo, una vez que pasamos a dos GPUs, habremos duplicado la cantidad de calor que se está introduciendo de nuevo al sistema, lo que requiere aún más trabajo por parte de los ventiladores del chasis, además que los ventiladores de una GPU puedan aspirar el aire ya caliente que acaba de salir de la otra GPU. Esto acabaría afectando drásticamente a las temperaturas de las GPUs y provocando un aumento de la velocidad de los ventiladores (ruido añadido) y un posible sobrecalentamiento. Cuando las GPUs se calientan demasiado, reducen la frecuencia para evitar daños y, por tanto, reducen el rendimiento (Thermal Throttling).

 

Con cuatro GPUs RTX 2080 Founders Edition (doble ventilador), comprobamos que se sobrecalientan y aceleran en cuestión de minutos después de estar bajo carga, y esto antes incluso de completar una sola pasada de, por ejemplo, OctaneBench y Redshift que son dos de los mejores motores de Render basados en GPU:

 

Y este problema se agrava con las siguientes series que hacemos en Octane y también en Redshift:

 

En sistemas Multi-GPU tanto en Geforce RTX como Quadro RTX, empleando tarjetas con sistemas de refrigeración Blower, podemos comprobar como las GPUs pueden mantener el rendimiento completo con cada serie que pasan en Octane y Redshift.

¿Existen maneras de solucionar estos problemas de rendimiento y refrigeración?

Sí. En el caso de las Geforce RTX, OEMs como Asus, Gigabyte y PNY han incluido en su catálogo GPUs con sistemas de ventilación Blower diseñadas para configuraciones Multi-GPU (aquí podemos enlazar con nuestras Geforce de la web). Pero estaríamos limitados por los 6, 8 u 11 GB de memoria de vídeo que se encuentran en estas GPUs. Para los usuarios que deseen utilizar varias tarjetas con más de 11 GB de VRAM, las GPUs Quadro RTX son la única opción (enlazar con la sección de Quadro de la web), además de las ventajas que estas conllevan, tanto a nivel de drivers dedicados como en términos de garantía, ya que son las únicas aceptadas por Nvidia, fuera de la gama Tesla, para integrar en servidores.