Lo que necesitas saber antes de
que comiences

Comienza 7 July 2025 07:33

Termina 7 July 2025

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Monitoreo de GPUs a Escala para Clústeres de IA - ML y HPC

Únete a nosotros mientras exploramos cómo NVIDIA monitorea efectivamente clústeres de GPU diseñados para cargas de trabajo de inteligencia artificial y aprendizaje automático. Esta sesión integral te guiará a través de la aplicación de herramientas de código abierto para enfrentar los principales desafíos de implementación, mantenimiento, segu.
CNCF [Cloud Native Computing Foundation] via YouTube

CNCF [Cloud Native Computing Foundation]

2891 Cursos


36 minutes

Actualización opcional disponible

Not Specified

Progreso a tu propio ritmo

Conference Talk

Actualización opcional disponible

Resumen

Únete a nosotros mientras exploramos cómo NVIDIA monitorea efectivamente clústeres de GPU diseñados para cargas de trabajo de inteligencia artificial y aprendizaje automático. Esta sesión integral te guiará a través de la aplicación de herramientas de código abierto para enfrentar los principales desafíos de implementación, mantenimiento, seguridad y escalabilidad en entornos de usuario heterogéneos.

Programa de estudio

  • Introducción al Monitoreo de GPU
  • Importancia del monitoreo de GPU en clusters de IA/ML y HPC
    Resumen del enfoque de NVIDIA para el monitoreo de GPU
  • Comprensión de Arquitecturas de GPU y Métricas de Rendimiento
  • Conceptos básicos de la arquitectura de GPU relevantes para cargas de trabajo de IA/ML
    Principales métricas de rendimiento para monitorear GPUs
  • Herramientas para Monitorear GPUs de NVIDIA
  • Introducción a herramientas de código abierto
    Resumen de herramientas específicas de NVIDIA
  • Implementación de Soluciones de Monitoreo a Gran Escala
  • Estrategias para implementar herramientas de monitoreo en grandes clusters
    Automatización en la implementación
  • Mantenimiento y Actualizaciones
  • Prácticas de mantenimiento rutinario
    Manejo de actualizaciones y mejoras en un entorno monitoreado
  • Consideraciones de Seguridad en el Monitoreo de GPU
  • Identificación de posibles amenazas de seguridad
    Implementación de medidas de seguridad para soluciones de monitoreo
  • Escalabilidad de Soluciones de Monitoreo de GPU
  • Desafíos de escala en el monitoreo de GPU
    Soluciones y mejores prácticas para un monitoreo escalable
  • Abordando los Perfiles de Usuario en el Monitoreo de GPU
  • Diferentes perfiles de usuario en el monitoreo de GPU (ej., Administradores, Ingenieros, Científicos de Datos)
    Adaptación de soluciones de monitoreo a las diferentes necesidades de los usuarios
  • Estudios de Caso y Ejemplos del Mundo Real
  • Examinación de implementaciones del mundo real
    Lecciones aprendidas de ejemplos de la industria
  • Ejercicios Prácticos y Sesiones de Laboratorio
  • Ejercicios prácticos con herramientas de monitoreo de código abierto
    Configuración de una solución de monitoreo a pequeña escala
  • Conclusión y Tendencias Futuras
  • Resumen de puntos clave
    Tendencias emergentes en el monitoreo de GPU para clusters de IA/ML y HPC
  • Preguntas y Resumen del Curso

Asignaturas

Charlas de Conferencia