Ce que vous devez savoir avant
de commencer

Débute 7 July 2025 07:34

Se termine 7 July 2025

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Surveillance des GPU à grande échelle pour les clusters IA - ML et HPC

Rejoignez-nous alors que nous examinons comment NVIDIA surveille efficacement les clusters GPU adaptés aux charges de travail en intelligence artificielle et apprentissage automatique. Cette session complète vous guidera à travers l'application d'outils open-source pour aborder les principaux défis de déploiement, de maintenance, de sécurité e.
CNCF [Cloud Native Computing Foundation] via YouTube

CNCF [Cloud Native Computing Foundation]

2891 Cours


36 minutes

Mise à niveau optionnelle disponible

Not Specified

Progressez à votre rythme

Conference Talk

Mise à niveau optionnelle disponible

Aperçu

Rejoignez-nous alors que nous examinons comment NVIDIA surveille efficacement les clusters GPU adaptés aux charges de travail en intelligence artificielle et apprentissage automatique. Cette session complète vous guidera à travers l'application d'outils open-source pour aborder les principaux défis de déploiement, de maintenance, de sécurité et de mise à l'échelle dans des environnements utilisateurs hétérogènes.

Programme

  • Introduction à la surveillance des GPU
  • Importance de la surveillance des GPU dans les clusters IA/ML et HPC
    Aperçu de l'approche de NVIDIA pour la surveillance des GPU
  • Compréhension des architectures GPU et des indicateurs de performance
  • Principes de base de l'architecture GPU pertinents pour les charges de travail IA/ML
    Indicateurs clés de performance pour la surveillance des GPU
  • Outils pour la surveillance des GPU NVIDIA
  • Introduction aux outils open-source
    Aperçu des outils spécifiques de NVIDIA
  • Déploiement de solutions de surveillance à grande échelle
  • Stratégies de déploiement d’outils de surveillance dans de grands clusters
    Automatisation dans le déploiement
  • Maintenance et mises à jour
  • Pratiques de maintenance de routine
    Gestion des mises à jour et des upgrades dans un environnement surveillé
  • Considérations de sécurité dans la surveillance des GPU
  • Identification des menaces potentielles à la sécurité
    Mise en œuvre de mesures de sécurité pour les solutions de surveillance
  • Évolutivité des solutions de surveillance des GPU
  • Défis liés à l’échelle dans la surveillance des GPU
    Solutions et meilleures pratiques pour une surveillance évolutive
  • Prise en compte des utilisateurs dans la surveillance des GPU
  • Différents profils d'utilisateurs dans la surveillance des GPU (par exemple, administrateurs, ingénieurs, data scientists)
    Adaptation des solutions de surveillance aux besoins des différents utilisateurs
  • Études de cas et exemples du monde réel
  • Examen des implémentations réelles
    Leçons tirées des exemples de l'industrie
  • Exercices pratiques et sessions de laboratoire
  • Exercices pratiques avec des outils de surveillance open-source
    Mise en place d'une solution de surveillance à petite échelle
  • Conclusion et tendances futures
  • Résumé des points clés
    Émergence de nouvelles tendances dans la surveillance des GPU pour les clusters IA/ML et HPC
  • Questions et Réponses et clôture du cours

Sujets

Conférences