Nvidia Turing, tecnologías para revolucionar el renderizado fotorrealista

La llegada de la nueva generación de GPUs de Nvidia trae consigo la nueva arquitectura Turing, un rediseño completo del procesador gráfico para introducir los nuevos núcleos RT. Estos, se encargan de acelerar las operaciones de trazado de rayos con gran eficiencia, eliminando la costosa emulación por software que se hacía en el pasado.

¿En que se traduce esto? En poder renderizar en tiempo real objetos fotorrealistas y entornos con sombras, reflejos y refracciones mucho más precisos.

Veamos en este articulo las novedades tecnología que ofrece la nueva generación de chips Nvidia Turing para el sector gaming y profesional, es decir, para las familias GeForce y Quadro respectivamente.

 

Turing Streaming Mutiprocessor

Una de las novedades de la arquitectura son los nuevos Turing Streaming Multiprocessor (SM). Este nuevo procesador mejora sustancialmente la eficiencia en el sombreado, logrando una mejora del 50% frente a los núcleos CUDA de la generación previa (Pascal).

Además, el bus de memoria del SM se ha rediseñado para unificar la memoria compartida, el cacheo de texturas y el cacheo de carga de memoria en una sola unidad de forma que se obtiene el doble de ancho de banda y más del doble de la capacidad de memoria cache L1 disponible para las cargas de trabajo convencionales.

Con ello, se incorpora un bus de datos independiente para enteros, por lo que se permite la la ejecución de instrucciones de enteros y flotantes de forma simultánea, mejorando el rendimiento incluso del 50% en los núcleos CUDA, aunque en el caso de VRMark se incluso mayor por aprovechar el MVR.

Turing Tensor Cores

Los Tensor Cores introducidos en la arquitectura Turing son unidades de ejecución (EU) diseñadas específicamente para mejorar el rendimiento de las operaciones con tensores y matrices, elementos básicos de la computación de redes neuronales y en Deep Learning. Estos nuevos Tensor Cores están diseñados para mejorar la inferencia mediante la adición de nuevos modos de precisión INT8 e INT4 que pueden tolerar la cuantización y no requieren la precisión FP16 (coma flotante de 16 bits).

Gracias a los nuevos Tensor Cores, se introduce una nueva técnica llamada Deep Learning Super Sampling (DLSS) consistente en aprovechar una red neuronal profunda para extraer características multidimensionales de la escena renderizada y combinar detalles de forma inteligente desde múltiples frames para construir una imagen final de alta calidad. Esto se traduce en que la tecnología DLSS utiliza un menor numero de muestras de entrada que técnicas como TAA, usando además un algoritmo más sencillo para tratar transparencias y otros elementos completos de la escena generada.

 

Aceleración en tiempo real del trazado de rayos

Otra de las novedades en la arquitectura Turing es la posibilidad de realizar el trazado de rayos en tiempo real, es decir, que una sola GPU sea capaz de renderizar juegos 3D mucho más realistas que hasta ahora o que pueda renderizar modelos 3D profesionales mucho más precisos en cuanto a sombras, reflejos y refracciones. Para ello se apoya en tecnologías como Nvidia RTX o APIs como Microsoft DXR, Nvidia OptiX y Vulkan.

Este cambio en la arquitectura produce un incremento brutal en la capacidad de procesar el trazado de rayos, permitiendo  modelos mucho más fotorrealistas que en generaciones previas.

 

Mejoras de sombreado (shading)

Con Turing se introduce 4 nuevas mejoras en el sombreado centradas en aumentar el numero de objetos representados y la eficiencia con la que se renderizan.

El sombreado de malla (Mesh Shading) mejora el procesamiento geométrico ofreciendo un nuevo modelo de sombreado para las etapas de vértices, teselado y geometría en la creación de gráficos, soportando una aproximación computacional más flexible y eficiente de la geometría. Este elimina el cuello de botella ocasionado en la CPU para llevar el sombreado a una malla paralela en GPU de forma que se amplia la cantidad de objetos que se pueden representar en una escena.

Por otro lado, tenemos el sombreado de ratio variable (Variable Rate Shading, VRS), el cual permite a los desarrolladores controlar el ratio de sombreado de forma dinámica, pudiendo ir desde una vez por cada 16 píxeles hasta 8 veces por cada píxel. De esta forma, se puede reducir la carga de trabajo en zonas de la pantalla que no requieran de la máxima calidad, por lo que se mejora la tasa de frames considerablemente.

Con el sombreado en espacio de texturas (Texture-Space Shading), los objetos son sombreados en una coordenada espacial privada que es almacenada en memoria, pudiendo evaluar esos resultados directamente, así como reutilizar los resultados y por tanto eliminar las cargas de trabajo duplicadas.

Por último, el renderizado multivista (Multi-View Rendering, MVR) potencia el Single Pass Stereo de la arquitectura Pascal, el cual renderizaba 2 vistas comunes de un objeto separadas una distancia X. MVR permite renderizar múltiples vistas en una sola pasada incluso si las vistas están basadas en posiciones de originen completamente diferentes o distintas direcciones de visionado, siendo el compilador el que identifica los atributos independientes para diferenciarlos.

 

Funciones de aprendizaje profundo

Nvidia NGX es una nuevo framework basado en redes neuronales para el aprendizaje profundo. Con él, se pretende mejorar el rendimiento de las funciones basadas en IA que mejoren gráficos, renderizado y otras aplicaciones, utilizando para ello la potencia de los Tensor Cores. Como ejemplos tenemos el NGX DLSS de altísima calidad, el AI InPainting para el reemplazo de imágenes teniendo en cuenta el contenido, el AI Slow-Mo para generar slow motion suave y de alta calidad o el AI Suepr Rez para el redimensionado inteligente.

A ello debemos sumar mejoras en las librerias TensorRT (framework para inferencia en tiempo real), CUDA y CuDNN, las cuales permiten que Turing ofrezca una mejora excepcional en aplicaciones de inferencia.

 

Memorias GDDR6 de alto rendimiento y mejor compresión

Turing es la primera arquitectura que soporta memorias GDDR6, la última iteración en el diseño de memorias para gráficas que ha sido completamente rediseñada para mejorar la velocidad, eficiencia y reducir el ruido. Con ello promete tasas de transferencia de 14 Gbps y una mejora de la eficiencia del 20% comparada con las memorias GDDR5X usadas en las GPUs Pascal de generación previa.

Las GPUs utilizan diferentes técnicas de compresión sin perdida para reducir el ancho de banda que demandan las aplicaciones con diferentes algoritmos de menor o mayor eficiencia. La combinación de un mayor ancho de banda y la reducción de tráfico se traducen en el incremento de un 50% del ancho de banda efectivo de Turing comparado a Pascal.

 

Motor de imagen y vídeo

Los requisitos de resolución y refresco son cada día mayores, por no hablar de tecnologías como HDR. Para ello, se incorpora el soporte a conexiones como DisplayPort 1.4a que permite sacar una imagen 8K con una tasa de refresco de 60 Hz, así como VESA Display Stream Compresion (DSC) 1.2 para mejorar la compresión del flujo de video sin perdidas.

Ancho de banda Máxima Resolución
DisplayPort 1.2 5.4 Gbps 4K @ 60 Hz
DisplayPort 1.3 8.1 Gbps 5K @ 60 Hz
DisplayPort 1.4a 8.1 Gbps 8K @ 60 Hz

 

Las graficas Turing pueden alimentar 2 pantallas con una imagen de 8K @ 60 Hz, ya sea desde un puerto DisplayPort 1.4a o desde el conector USB Tipo-C del que hablamos a continuación. Además, soporta el procesado HDR de forma nativa, añadiendo el mapeo tonal al flujo de trabajo.

Por otro lado, las graficas Turing cuentan con un codificador NVENC que añade soporte para video H.265 (HEVC) en formato 8K @ 30 FPS. Este mejora el bitrate en un 25% para HEVC y mejora un 15% frente a H.264. igualmente, el decodificador NVDEC se actualiza para soportar HEVC YUV444 de 10/12 bits con HDR a 30 FPS, H.264 a 8K y VP9/10/12b HDR.

 

USB Tipo-C y VirtualLink 4

Las gráficas Turing incluyen soporte para el conector USB Tipo-C y VirtualLink 4. Gracias a incorporar este nuevo estándar, podremos conectar la próxima generación de gafas de realidad virtual con solo un cable USB Tipo-C, consiguiendo desde este tanto la imagen como el sonido y la alimentación.

 

Nvidia NVLink de segunda generación

Las GPUs Nvidia TU102 y TU104 incorporan la interfaz NVLink de segunda generación que permite la interconexión entre ellas con un alto ancho de banda y baja latencia, aunque limitándose a dos unidades, es decir, SLI 2-way. Con un ancho de banda bidireccional de 100 GB/sec, NVLink permite dividir la carga de trabajo entre dos GPUs de la forma más eficiente, permitiendo aunar un buffer de memoria de hasta 96 GB (2 x Quadro RTX 800 de 48 GB).

Anotar que la GPU Nvidia TU106 no es compatible con NVLink, por lo que no se podrá crear configuraciones multi-GPU en la gama media o baja.

La entrada Nvidia Turing, tecnologías para revolucionar el renderizado fotorrealista aparece primero en El Chapuzas Informático.

via Hardware – El Chapuzas Informático

No hay comentarios