Aperçu
Affiner un grand modèle de langage (LLM) est crucial pour l'aligner sur des besoins spécifiques en entreprise, améliorer la précision et optimiser ses performances. Cela donne aux entreprises des informations précises et exploitables qui stimulent l'efficacité et l'innovation.
Ce cours offre aux futurs ingénieurs en intelligence artificielle générative des compétences d'ajustement finement recherchées par les employeurs. Lors de ce cours, vous explorerez différentes approches de l'ajustement fin et des LLM causaux avec des retours humains et des préférences directes. Vous verrez les LLMs comme des politiques pour des distributions de probabilité pour générer des réponses et les concepts d'instruction-tuning avec Hugging Face.
Vous apprendrez à calculer les récompenses en utilisant les retours humains et le modélisation de récompenses avec Hugging Face. De plus, vous explorerez l'apprentissage par renforcement à partir de retours humains (RLHF), l'optimisation de politique proximale (PPO) et PPO Trainer, et des solutions optimales pour les problèmes d'optimisation de préférence directe (DPO).
En apprenant, vous bénéficierez d'une expérience pratique précieuse dans des laboratoires en ligne où vous travaillerez sur la modélisation de récompenses, le PPO et le DPO. Si vous cherchez à ajouter des compétences en demande en ajustement finement des LLMs à votre CV, INSCRIVEZ-VOUS AUJOURD'HUI et développez des compétences prêtes à l'emploi recherchées par les employeurs en seulement deux semaines!
Université:
Fournisseur: Coursera
Catégories: Cours en Intelligence Artificielle Générative, Cours Hugging Face, Cours d'Ajustement Fin