Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 13:24

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Surveillance des GPU à grande échelle pour les clusters IA - ML et HPC

Découvrez comment NVIDIA surveille les clusters GPU pour les charges de travail d'IA/ML en utilisant des outils open-source, en abordant les défis liés au déploiement, à la maintenance, à la sécurité et à l'échelle pour divers types d'utilisateurs.
CNCF [Cloud Native Computing Foundation] via YouTube

CNCF [Cloud Native Computing Foundation]

6076 Cours


36 minutes

Amélioration optionnelle disponible

Not Specified

Progressez à votre rythme

Conference Talk

Amélioration optionnelle disponible

Aperçu

Learn how NVIDIA monitors GPU clusters for AI/ML workloads using open-source tools, addressing deployment, maintenance, security, and scale challenges for various user personas.

Programme

  • Introduction à la surveillance des GPU
  • Importance de la surveillance des GPU dans les clusters IA/ML et HPC
    Aperçu de l'approche de NVIDIA pour la surveillance des GPU
  • Compréhension des architectures GPU et des indicateurs de performance
  • Principes de base de l'architecture GPU pertinents pour les charges de travail IA/ML
    Indicateurs clés de performance pour la surveillance des GPU
  • Outils pour la surveillance des GPU NVIDIA
  • Introduction aux outils open-source
    Aperçu des outils spécifiques de NVIDIA
  • Déploiement de solutions de surveillance à grande échelle
  • Stratégies de déploiement d’outils de surveillance dans de grands clusters
    Automatisation dans le déploiement
  • Maintenance et mises à jour
  • Pratiques de maintenance de routine
    Gestion des mises à jour et des upgrades dans un environnement surveillé
  • Considérations de sécurité dans la surveillance des GPU
  • Identification des menaces potentielles à la sécurité
    Mise en œuvre de mesures de sécurité pour les solutions de surveillance
  • Évolutivité des solutions de surveillance des GPU
  • Défis liés à l’échelle dans la surveillance des GPU
    Solutions et meilleures pratiques pour une surveillance évolutive
  • Prise en compte des utilisateurs dans la surveillance des GPU
  • Différents profils d'utilisateurs dans la surveillance des GPU (par exemple, administrateurs, ingénieurs, data scientists)
    Adaptation des solutions de surveillance aux besoins des différents utilisateurs
  • Études de cas et exemples du monde réel
  • Examen des implémentations réelles
    Leçons tirées des exemples de l'industrie
  • Exercices pratiques et sessions de laboratoire
  • Exercices pratiques avec des outils de surveillance open-source
    Mise en place d'une solution de surveillance à petite échelle
  • Conclusion et tendances futures
  • Résumé des points clés
    Émergence de nouvelles tendances dans la surveillance des GPU pour les clusters IA/ML et HPC
  • Questions et Réponses et clôture du cours

Matières

Conference Talks