What You Need to Know Before
You Start
Starts 7 June 2025 10:37
Ends 7 June 2025
00
days
00
hours
00
minutes
00
seconds
Monitoreo de GPUs a Escala para Clústeres de IA - ML y HPC
Aprende cómo NVIDIA monitorea clústeres de GPU para cargas de trabajo de IA/ML utilizando herramientas de código abierto, abordando los desafíos de implementación, mantenimiento, seguridad y escala para diversas personas usuarias.
CNCF [Cloud Native Computing Foundation]
via YouTube
CNCF [Cloud Native Computing Foundation]
2544 Cursos
36 minutes
Optional upgrade avallable
Not Specified
Progress at your own speed
Conference Talk
Optional upgrade avallable
Resumen
Aprende cómo NVIDIA monitorea clústeres de GPU para cargas de trabajo de IA/ML utilizando herramientas de código abierto, abordando los desafíos de implementación, mantenimiento, seguridad y escala para diversas personas usuarias.
Programa de estudio
- Introducción al Monitoreo de GPU
- Comprensión de Arquitecturas de GPU y Métricas de Rendimiento
- Herramientas para Monitorear GPUs de NVIDIA
- Implementación de Soluciones de Monitoreo a Gran Escala
- Mantenimiento y Actualizaciones
- Consideraciones de Seguridad en el Monitoreo de GPU
- Escalabilidad de Soluciones de Monitoreo de GPU
- Abordando los Perfiles de Usuario en el Monitoreo de GPU
- Estudios de Caso y Ejemplos del Mundo Real
- Ejercicios Prácticos y Sesiones de Laboratorio
- Conclusión y Tendencias Futuras
- Preguntas y Resumen del Curso
Importancia del monitoreo de GPU en clusters de IA/ML y HPC
Resumen del enfoque de NVIDIA para el monitoreo de GPU
Conceptos básicos de la arquitectura de GPU relevantes para cargas de trabajo de IA/ML
Principales métricas de rendimiento para monitorear GPUs
Introducción a herramientas de código abierto
Resumen de herramientas específicas de NVIDIA
Estrategias para implementar herramientas de monitoreo en grandes clusters
Automatización en la implementación
Prácticas de mantenimiento rutinario
Manejo de actualizaciones y mejoras en un entorno monitoreado
Identificación de posibles amenazas de seguridad
Implementación de medidas de seguridad para soluciones de monitoreo
Desafíos de escala en el monitoreo de GPU
Soluciones y mejores prácticas para un monitoreo escalable
Diferentes perfiles de usuario en el monitoreo de GPU (ej., Administradores, Ingenieros, Científicos de Datos)
Adaptación de soluciones de monitoreo a las diferentes necesidades de los usuarios
Examinación de implementaciones del mundo real
Lecciones aprendidas de ejemplos de la industria
Ejercicios prácticos con herramientas de monitoreo de código abierto
Configuración de una solución de monitoreo a pequeña escala
Resumen de puntos clave
Tendencias emergentes en el monitoreo de GPU para clusters de IA/ML y HPC
Asignaturas
Charlas de Conferencia