What You Need to Know Before
You Start

Starts 7 June 2025 10:37

Ends 7 June 2025

00 days
00 hours
00 minutes
00 seconds
course image

Monitoreo de GPUs a Escala para Clústeres de IA - ML y HPC

Aprende cómo NVIDIA monitorea clústeres de GPU para cargas de trabajo de IA/ML utilizando herramientas de código abierto, abordando los desafíos de implementación, mantenimiento, seguridad y escala para diversas personas usuarias.
CNCF [Cloud Native Computing Foundation] via YouTube

CNCF [Cloud Native Computing Foundation]

2544 Cursos


36 minutes

Optional upgrade avallable

Not Specified

Progress at your own speed

Conference Talk

Optional upgrade avallable

Resumen

Aprende cómo NVIDIA monitorea clústeres de GPU para cargas de trabajo de IA/ML utilizando herramientas de código abierto, abordando los desafíos de implementación, mantenimiento, seguridad y escala para diversas personas usuarias.

Programa de estudio

  • Introducción al Monitoreo de GPU
  • Importancia del monitoreo de GPU en clusters de IA/ML y HPC
    Resumen del enfoque de NVIDIA para el monitoreo de GPU
  • Comprensión de Arquitecturas de GPU y Métricas de Rendimiento
  • Conceptos básicos de la arquitectura de GPU relevantes para cargas de trabajo de IA/ML
    Principales métricas de rendimiento para monitorear GPUs
  • Herramientas para Monitorear GPUs de NVIDIA
  • Introducción a herramientas de código abierto
    Resumen de herramientas específicas de NVIDIA
  • Implementación de Soluciones de Monitoreo a Gran Escala
  • Estrategias para implementar herramientas de monitoreo en grandes clusters
    Automatización en la implementación
  • Mantenimiento y Actualizaciones
  • Prácticas de mantenimiento rutinario
    Manejo de actualizaciones y mejoras en un entorno monitoreado
  • Consideraciones de Seguridad en el Monitoreo de GPU
  • Identificación de posibles amenazas de seguridad
    Implementación de medidas de seguridad para soluciones de monitoreo
  • Escalabilidad de Soluciones de Monitoreo de GPU
  • Desafíos de escala en el monitoreo de GPU
    Soluciones y mejores prácticas para un monitoreo escalable
  • Abordando los Perfiles de Usuario en el Monitoreo de GPU
  • Diferentes perfiles de usuario en el monitoreo de GPU (ej., Administradores, Ingenieros, Científicos de Datos)
    Adaptación de soluciones de monitoreo a las diferentes necesidades de los usuarios
  • Estudios de Caso y Ejemplos del Mundo Real
  • Examinación de implementaciones del mundo real
    Lecciones aprendidas de ejemplos de la industria
  • Ejercicios Prácticos y Sesiones de Laboratorio
  • Ejercicios prácticos con herramientas de monitoreo de código abierto
    Configuración de una solución de monitoreo a pequeña escala
  • Conclusión y Tendencias Futuras
  • Resumen de puntos clave
    Tendencias emergentes en el monitoreo de GPU para clusters de IA/ML y HPC
  • Preguntas y Resumen del Curso

Asignaturas

Charlas de Conferencia