Resumen
Afinar un gran modelo de lenguaje (LLM) es crucial para alinearlo con necesidades específicas del negocio, mejorar la precisión y optimizar su rendimiento. A su vez, esto proporciona a las empresas conocimientos precisos y procesables que impulsan la eficiencia y la innovación.
Este curso brinda a los aspirantes a ingenieros de IA generativa valiosas habilidades de afinación que los empleadores están buscando activamente. Durante este curso, explorarás diferentes enfoques para afinar LLMs causales con retroalimentación humana y preferencia directa. Verás los LLMs como políticas para distribuciones de probabilidad para generar respuestas y los conceptos de afinación por instrucciones con Hugging Face.
Aprenderás a calcular recompensas usando retroalimentación humana y modelado de recompensas con Hugging Face. Además, explorarás el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), optimización de políticas proximales (PPO) y PPO Trainer, y soluciones óptimas para problemas de optimización de preferencia directa (DPO).
Mientras aprendes, obtendrás valiosa experiencia práctica en laboratorios en línea donde trabajarás en modelado de recompensas, PPO y DPO. Si deseas agregar habilidades demandadas en la afinación de LLMs a tu currículum, ¡INSCRÍBETE HOY! y desarrolla las habilidades listas para el trabajo que los empleadores están buscando en solo dos semanas.
Universidad:
Proveedor: Coursera
Categorías: Cursos de IA Generativa, Cursos de Hugging Face, Cursos de Afinación