What You Need to Know Before
You Start

Starts 7 June 2025 18:33

Ends 7 June 2025

00 days
00 hours
00 minutes
00 seconds
course image

Surveillance des GPU à grande échelle pour les clusters IA - ML et HPC

Découvrez comment NVIDIA surveille les clusters GPU pour les charges de travail d'IA/ML en utilisant des outils open-source, en abordant les défis liés au déploiement, à la maintenance, à la sécurité et à l'échelle pour divers types d'utilisateurs.
CNCF [Cloud Native Computing Foundation] via YouTube

CNCF [Cloud Native Computing Foundation]

2544 Cours


36 minutes

Optional upgrade avallable

Not Specified

Progress at your own speed

Conference Talk

Optional upgrade avallable

Aperçu

Découvrez comment NVIDIA surveille les clusters GPU pour les charges de travail d'IA/ML en utilisant des outils open-source, en abordant les défis liés au déploiement, à la maintenance, à la sécurité et à l'échelle pour divers types d'utilisateurs.

Programme

  • Introduction à la surveillance des GPU
  • Importance de la surveillance des GPU dans les clusters IA/ML et HPC
    Aperçu de l'approche de NVIDIA pour la surveillance des GPU
  • Compréhension des architectures GPU et des indicateurs de performance
  • Principes de base de l'architecture GPU pertinents pour les charges de travail IA/ML
    Indicateurs clés de performance pour la surveillance des GPU
  • Outils pour la surveillance des GPU NVIDIA
  • Introduction aux outils open-source
    Aperçu des outils spécifiques de NVIDIA
  • Déploiement de solutions de surveillance à grande échelle
  • Stratégies de déploiement d’outils de surveillance dans de grands clusters
    Automatisation dans le déploiement
  • Maintenance et mises à jour
  • Pratiques de maintenance de routine
    Gestion des mises à jour et des upgrades dans un environnement surveillé
  • Considérations de sécurité dans la surveillance des GPU
  • Identification des menaces potentielles à la sécurité
    Mise en œuvre de mesures de sécurité pour les solutions de surveillance
  • Évolutivité des solutions de surveillance des GPU
  • Défis liés à l’échelle dans la surveillance des GPU
    Solutions et meilleures pratiques pour une surveillance évolutive
  • Prise en compte des utilisateurs dans la surveillance des GPU
  • Différents profils d'utilisateurs dans la surveillance des GPU (par exemple, administrateurs, ingénieurs, data scientists)
    Adaptation des solutions de surveillance aux besoins des différents utilisateurs
  • Études de cas et exemples du monde réel
  • Examen des implémentations réelles
    Leçons tirées des exemples de l'industrie
  • Exercices pratiques et sessions de laboratoire
  • Exercices pratiques avec des outils de surveillance open-source
    Mise en place d'une solution de surveillance à petite échelle
  • Conclusion et tendances futures
  • Résumé des points clés
    Émergence de nouvelles tendances dans la surveillance des GPU pour les clusters IA/ML et HPC
  • Questions et Réponses et clôture du cours

Sujets

Conférences