Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 06:15

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Testez l'application IA & LLM avec DeepEval, RAGA et plus encore en utilisant Ollama.

Feuille de route pour devenir ingénieur AQ en IA pour tester les LLM et les applications d'IA en utilisant DeepEval, RAGAs et HF Evaluate avec des LLM locaux.
via Udemy

4160 Cours


10 hours

Amélioration optionnelle disponible

Not Specified

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

Roadmap to become AI QA Engineer to test LLMs and AI Application using DeepEval, RAGAs and HF Evaluate with Local LLMs What you'll learn:

Understand the purpose of Testing LLM and LLM based ApplicationUnderstand DeepEval and RAGAs in detail from complete ground upUnderstand different metrics and evaluations to evaluate LLMs and LLM based app using DeepEval and RAGAsUnderstand the advanced concepts of DeepEval and RAGAsTesting RAG based application using DeepEval and RAGAsTesting AI Agents using DeepEval to understand how tool callings can be tested Testing AI & LLM App with DeepEval, RAGAs & more using Ollama and Local Large Language Models (LLMs)Master the essential skills for testing and evaluating AI applications, particularly Large Language Models (LLMs). This hands-on course equips QA, AIQA, Developers, data scientists, and AI practitioners with cutting-edge techniques to assess AI performance, identify biases, and ensure robust application development.Topics Covered:

Section 1:

Foundations of AI Application Testing (Introduction to LLM testing, AI application types, evaluation metrics, LLM evaluation libraries).Section 2:

Local LLM Deployment with Ollama (Local LLM deployment, AI models, running LLMs locally, Ollama implementation, GUI/CLI, setting up Ollama as API).Section 3:

Environment Setup (Jupyter Notebook for tests, setting up Confident AI).Section 4:

DeepEval Basics (Traditional LLM testing, first DeepEval code for AnswerRelevance, Context Precision, evaluating in Confident AI, testing with local LLM, understanding LLMTestCases and Goldens).Section 5:

Advanced LLM Evaluation (LangChain for LLMs, evaluating Answer Relevancy, Context Precision, bias detection, custom criteria with GEval, advanced bias testing).Section 6:

RAG Testing with DeepEval (Introduction to RAG, understanding RAG apps, demo, creating GEval for RAG, testing for conciseness & completeness).Section 7:

Advanced RAG Testing with DeepEval (Creating multiple test data, Goldens in Confident AI, actual output and retrieval context, LLMTestCases from dataset, running evaluation for RAG).Section 8:

Testing AI Agents and Tool Callings (Understanding AI Agents, working with agents, testing agents with and without actual systems, testing with multiple datasets).Section 9:

Evaluating LLMs using RAGAS (Introduction to RAGAS, Context Recall, Noise Sensitivity, MultiTurnSample, general purpose metrics for summaries and harmfulness).Section 10:

Testing RAG applications with RAGAS (Introduction and setup, creating retrievers and vector stores, MultiTurnSample dataset for RAG, evaluating RAG with RAGAS).

Programme

  • Section 1 : Fondements des tests d'application IA
  • Introduction aux tests LLM
    Types d'applications IA
    Métriques d'évaluation pour les applications IA
    Aperçu des bibliothèques d'évaluation LLM
  • Section 2 : Déploiement local de LLM avec Ollama
  • Stratégies de déploiement de LLM local
    Aperçu des modèles IA
    Exécution de LLMs localement
    Mise en œuvre d'Ollama pour le déploiement de LLM
    Utilisation de l'interface graphique/CLI d'Ollama
    Configuration d'Ollama en tant qu'API
  • Section 3 : Configuration de l'environnement
  • Environnement de test dans Jupyter Notebook
    Mise en place de la plate-forme Confident AI
  • Section 4 : Bases de DeepEval
  • Méthodes traditionnelles de test LLM
    Développement du premier code DeepEval
    Évaluation de la pertinence des réponses et de la précision contextuelle
    Utilisation de Confident AI pour l'évaluation
    Test avec des LLM locaux
    Compréhension des LLMTestCases et Goldens
  • Section 5 : Évaluation avancée de LLM
  • Utilisation de LangChain avec LLMs
    Évaluation de la pertinence des réponses et de la précision contextuelle
    Détection et évaluation des biais
    Critères d'évaluation personnalisés avec GEval
    Techniques avancées de test des biais
  • Section 6 : Test RAG avec DeepEval
  • Introduction à RAG (Generation augmentée par la récupération)
    Compréhension des applications RAG
    Démonstration du test RAG
    Création de tests GEval pour RAG
    Évaluation de la concision et de l'exhaustivité
  • Section 7 : Test RAG avancé avec DeepEval
  • Création de plusieurs ensembles de test
    Utilisation de Goldens dans Confident AI
    Analyse des sorties réelles et des contextes de récupération
    Génération de LLMTestCases à partir des ensembles de données
    Exécution des évaluations RAG
  • Section 8 : Essais des agents IA et des appels d'outil
  • Introduction aux agents IA
    Travailler avec les agents IA
    Tester les agents IA avec et sans systèmes réels
    Utilisation de plusieurs ensembles de données pour l'évaluation des agents
  • Section 9 : Évaluation des LLMs à l'aide de RAGAS
  • Introduction à RAGAS (Système d'évaluation RAG)
    Métriques : appellation de contexte, sensibilité au bruit, échantillon multiterrain
    Évaluation des résumés à usage général et de la nocivité
  • Section 10 : Tester les applications RAG avec RAGAS
  • Introduction et configuration pour les tests RAGAS
    Création de récupérateurs et de magasins de vecteurs
    Utilisation de l'ensemble de données MultiTurnSample pour l'évaluation RAG
    Évaluation complète du RAG avec RAGAS

Enseigné par

Karthik KK


Matières

Computer Science