Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 07:31

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Monitoreo de GPUs a Escala para Clústeres de IA - ML y HPC

Aprende cómo NVIDIA monitorea clústeres de GPU para cargas de trabajo de IA/ML utilizando herramientas de código abierto, abordando los desafíos de implementación, mantenimiento, seguridad y escala para diversas personas usuarias.
CNCF [Cloud Native Computing Foundation] via YouTube

CNCF [Cloud Native Computing Foundation]

6076 Cursos


36 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Conference Talk

Actualización opcional disponible

Resumen

Learn how NVIDIA monitors GPU clusters for AI/ML workloads using open-source tools, addressing deployment, maintenance, security, and scale challenges for various user personas.

Programa

  • Introducción al Monitoreo de GPU
  • Importancia del monitoreo de GPU en clusters de IA/ML y HPC
    Resumen del enfoque de NVIDIA para el monitoreo de GPU
  • Comprensión de Arquitecturas de GPU y Métricas de Rendimiento
  • Conceptos básicos de la arquitectura de GPU relevantes para cargas de trabajo de IA/ML
    Principales métricas de rendimiento para monitorear GPUs
  • Herramientas para Monitorear GPUs de NVIDIA
  • Introducción a herramientas de código abierto
    Resumen de herramientas específicas de NVIDIA
  • Implementación de Soluciones de Monitoreo a Gran Escala
  • Estrategias para implementar herramientas de monitoreo en grandes clusters
    Automatización en la implementación
  • Mantenimiento y Actualizaciones
  • Prácticas de mantenimiento rutinario
    Manejo de actualizaciones y mejoras en un entorno monitoreado
  • Consideraciones de Seguridad en el Monitoreo de GPU
  • Identificación de posibles amenazas de seguridad
    Implementación de medidas de seguridad para soluciones de monitoreo
  • Escalabilidad de Soluciones de Monitoreo de GPU
  • Desafíos de escala en el monitoreo de GPU
    Soluciones y mejores prácticas para un monitoreo escalable
  • Abordando los Perfiles de Usuario en el Monitoreo de GPU
  • Diferentes perfiles de usuario en el monitoreo de GPU (ej., Administradores, Ingenieros, Científicos de Datos)
    Adaptación de soluciones de monitoreo a las diferentes necesidades de los usuarios
  • Estudios de Caso y Ejemplos del Mundo Real
  • Examinación de implementaciones del mundo real
    Lecciones aprendidas de ejemplos de la industria
  • Ejercicios Prácticos y Sesiones de Laboratorio
  • Ejercicios prácticos con herramientas de monitoreo de código abierto
    Configuración de una solución de monitoreo a pequeña escala
  • Conclusión y Tendencias Futuras
  • Resumen de puntos clave
    Tendencias emergentes en el monitoreo de GPU para clusters de IA/ML y HPC
  • Preguntas y Resumen del Curso

Materias

Conference Talks