Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 06:15

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Prueba la aplicación de IA y LLM con DeepEval, RAGAs y más usando Ollama.

Hoja de ruta para convertirse en ingeniero de aseguramiento de calidad de IA para probar LLMs (Modelos de Lenguaje a Gran Escala) y aplicaciones de IA utilizando DeepEval, RAGAs y HF Evaluate con LLMs locales.
via Udemy

4160 Cursos


10 hours

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Roadmap to become AI QA Engineer to test LLMs and AI Application using DeepEval, RAGAs and HF Evaluate with Local LLMs What you'll learn:

Understand the purpose of Testing LLM and LLM based ApplicationUnderstand DeepEval and RAGAs in detail from complete ground upUnderstand different metrics and evaluations to evaluate LLMs and LLM based app using DeepEval and RAGAsUnderstand the advanced concepts of DeepEval and RAGAsTesting RAG based application using DeepEval and RAGAsTesting AI Agents using DeepEval to understand how tool callings can be tested Testing AI & LLM App with DeepEval, RAGAs & more using Ollama and Local Large Language Models (LLMs)Master the essential skills for testing and evaluating AI applications, particularly Large Language Models (LLMs). This hands-on course equips QA, AIQA, Developers, data scientists, and AI practitioners with cutting-edge techniques to assess AI performance, identify biases, and ensure robust application development.Topics Covered:

Section 1:

Foundations of AI Application Testing (Introduction to LLM testing, AI application types, evaluation metrics, LLM evaluation libraries).Section 2:

Local LLM Deployment with Ollama (Local LLM deployment, AI models, running LLMs locally, Ollama implementation, GUI/CLI, setting up Ollama as API).Section 3:

Environment Setup (Jupyter Notebook for tests, setting up Confident AI).Section 4:

DeepEval Basics (Traditional LLM testing, first DeepEval code for AnswerRelevance, Context Precision, evaluating in Confident AI, testing with local LLM, understanding LLMTestCases and Goldens).Section 5:

Advanced LLM Evaluation (LangChain for LLMs, evaluating Answer Relevancy, Context Precision, bias detection, custom criteria with GEval, advanced bias testing).Section 6:

RAG Testing with DeepEval (Introduction to RAG, understanding RAG apps, demo, creating GEval for RAG, testing for conciseness & completeness).Section 7:

Advanced RAG Testing with DeepEval (Creating multiple test data, Goldens in Confident AI, actual output and retrieval context, LLMTestCases from dataset, running evaluation for RAG).Section 8:

Testing AI Agents and Tool Callings (Understanding AI Agents, working with agents, testing agents with and without actual systems, testing with multiple datasets).Section 9:

Evaluating LLMs using RAGAS (Introduction to RAGAS, Context Recall, Noise Sensitivity, MultiTurnSample, general purpose metrics for summaries and harmfulness).Section 10:

Testing RAG applications with RAGAS (Introduction and setup, creating retrievers and vector stores, MultiTurnSample dataset for RAG, evaluating RAG with RAGAS).

Programa

  • Sección 1: Fundamentos de Pruebas de Aplicaciones de IA
  • Introducción a Pruebas de LLM
    Tipos de Aplicaciones de IA
    Métricas de Evaluación para Aplicaciones de IA
    Resumen de Bibliotecas de Evaluación de LLM
  • Sección 2: Despliegue Local de LLM con Ollama
  • Estrategias de Despliegue Local de LLM
    Resumen de Modelos de IA
    Ejecución de LLMs Localmente
    Implementación de Ollama para Despliegue de LLM
    Uso de la GUI/CLI de Ollama
    Configuración de Ollama como una API
  • Sección 3: Configuración de Entorno
  • Entorno de Prueba en Jupyter Notebook
    Configuración de la Plataforma Confident AI
  • Sección 4: Fundamentos de DeepEval
  • Métodos Tradicionales de Pruebas de LLM
    Desarrollo del Primer Código DeepEval
    Evaluación de Relevancia de Respuestas y Precisión de Contexto
    Uso de Confident AI para Evaluación
    Pruebas con LLMs Locales
    Comprensión de LLMTestCases y Goldens
  • Sección 5: Evaluación Avanzada de LLM
  • Uso de LangChain con LLMs
    Evaluación de Relevancia de Respuestas y Precisión de Contexto
    Detección y Evaluación de Sesgo
    Criterios de Evaluación Personalizados con GEval
    Técnicas Avanzadas de Pruebas de Sesgo
  • Sección 6: Pruebas RAG con DeepEval
  • Introducción a RAG (Generación Aumentada por Recuperación)
    Comprensión de Aplicaciones RAG
    Demostración de Pruebas RAG
    Creación de Pruebas GEval para RAG
    Evaluación de Concisión y Completitud
  • Sección 7: Pruebas Avanzadas RAG con DeepEval
  • Creación de Múltiples Conjuntos de Datos de Pruebas
    Uso de Goldens en Confident AI
    Análisis de Resultados Reales y Contextos de Recuperación
    Generación de LLMTestCases a partir de Conjuntos de Datos
    Ejecución de Evaluaciones RAG
  • Sección 8: Pruebas de Agentes de IA y Llamadas de Herramientas
  • Introducción a Agentes de IA
    Trabajo con Agentes de IA
    Pruebas de Agentes de IA con y sin Sistemas Reales
    Uso de Múltiples Conjuntos de Datos para Evaluación de Agentes
  • Sección 9: Evaluación de LLMs usando RAGAS
  • Introducción a RAGAS (Sistema de Evaluación RAG)
    Métricas: Recuperación de Contexto, Sensibilidad al Ruido, MultiTurnSample
    Evaluación de Resúmenes de Propósito General y Nocividad
  • Sección 10: Pruebas de Aplicaciones RAG con RAGAS
  • Introducción y Configuración para Pruebas RAGAS
    Creación de Recuperadores y Almacenes Vectoriales
    Uso del Conjunto de Datos MultiTurnSample para Evaluación RAG
    Evaluación RAG Integral con RAGAS

Impartido por

Karthik KK


Materias

Computer Science