What You Need to Know Before
You Start
Starts 7 June 2025 18:33
Ends 7 June 2025
00
days
00
hours
00
minutes
00
seconds
Surveillance des GPU à grande échelle pour les clusters IA - ML et HPC
Découvrez comment NVIDIA surveille les clusters GPU pour les charges de travail d'IA/ML en utilisant des outils open-source, en abordant les défis liés au déploiement, à la maintenance, à la sécurité et à l'échelle pour divers types d'utilisateurs.
CNCF [Cloud Native Computing Foundation]
via YouTube
CNCF [Cloud Native Computing Foundation]
2544 Cours
36 minutes
Optional upgrade avallable
Not Specified
Progress at your own speed
Conference Talk
Optional upgrade avallable
Aperçu
Découvrez comment NVIDIA surveille les clusters GPU pour les charges de travail d'IA/ML en utilisant des outils open-source, en abordant les défis liés au déploiement, à la maintenance, à la sécurité et à l'échelle pour divers types d'utilisateurs.
Programme
- Introduction à la surveillance des GPU
- Compréhension des architectures GPU et des indicateurs de performance
- Outils pour la surveillance des GPU NVIDIA
- Déploiement de solutions de surveillance à grande échelle
- Maintenance et mises à jour
- Considérations de sécurité dans la surveillance des GPU
- Évolutivité des solutions de surveillance des GPU
- Prise en compte des utilisateurs dans la surveillance des GPU
- Études de cas et exemples du monde réel
- Exercices pratiques et sessions de laboratoire
- Conclusion et tendances futures
- Questions et Réponses et clôture du cours
Importance de la surveillance des GPU dans les clusters IA/ML et HPC
Aperçu de l'approche de NVIDIA pour la surveillance des GPU
Principes de base de l'architecture GPU pertinents pour les charges de travail IA/ML
Indicateurs clés de performance pour la surveillance des GPU
Introduction aux outils open-source
Aperçu des outils spécifiques de NVIDIA
Stratégies de déploiement d’outils de surveillance dans de grands clusters
Automatisation dans le déploiement
Pratiques de maintenance de routine
Gestion des mises à jour et des upgrades dans un environnement surveillé
Identification des menaces potentielles à la sécurité
Mise en œuvre de mesures de sécurité pour les solutions de surveillance
Défis liés à l’échelle dans la surveillance des GPU
Solutions et meilleures pratiques pour une surveillance évolutive
Différents profils d'utilisateurs dans la surveillance des GPU (par exemple, administrateurs, ingénieurs, data scientists)
Adaptation des solutions de surveillance aux besoins des différents utilisateurs
Examen des implémentations réelles
Leçons tirées des exemples de l'industrie
Exercices pratiques avec des outils de surveillance open-source
Mise en place d'une solution de surveillance à petite échelle
Résumé des points clés
Émergence de nouvelles tendances dans la surveillance des GPU pour les clusters IA/ML et HPC
Sujets
Conférences