Ce que vous devez savoir avant
Vous commencez

Débute 15 July 2026 17:31

Se termine 15 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

S'inscrire

Techniques modernes de tokenisation pour l'IA et les LLMs

Maîtrisez les méthodes de tokenisation modernes, y compris BPE, WordPiece et SentencePiece, pour optimiser les performances des modèles d'IA et gérer efficacement les défis liés au vocabulaire hors-dictionnaire.

via CodeSignal

1 hour

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Free Certificate

Amélioration optionnelle disponible

Aperçu

This course covers tokenization techniques used in modern AI models, including rule-based methods, subword tokenization (BPE, WordPiece, SentencePiece), and vocabulary optimizations. Learners will implement these methods and understand their impact on NLP model performance.

Programme

Unité 1 : Introduction à la tokenisation (Tokenisation basée sur des règles)

Tokeniser du texte avec NLTK

Tokenisation de phrases avec NLTK

Extraire des valeurs monétaires avec Regex

Confrontation de tokenisation avec NLTK et spaCy

Unité 2 : Codage par paire de bytes (BPE) – Tokenisation de sous-mots

Explorer les tokeniseurs pré-entrainés avec GPT-2

Utiliser des tokeniseurs pré-entrainés avec RoBERTa

Comparer la tokenisation avec GPT-2 et RoBERTa

Unité 3 : Comparaison de BPE, WordPiece, et SentencePiece en TAL

Défi de tokenisation WordPiece

Les techniques de tokenisation en action

Les techniques de tokenisation pour des textes spéciaux

Unité 4 : Tokenisation et gestion du vocabulaire hors-contexte (OOV) en TAL

Confrontation de tokenisation BERT vs GPT2

Défi de tokenisation multilingue

Tokenisation multilingue et réduction de l’OOV

Matières

Computer Science

Ce que vous devez savoir avant Vous commencez

Techniques modernes de tokenisation pour l'IA et les LLMs

1 hour

Intermédiaire

Free Certificate

Aperçu

Programme

Matières

IA pour l'automatisation et la modélisation de la FP&A (planification financière et analyse)

FP&A avec IA : Projet de Fin d'Études

Interprétabilité des LLM - Génération de Descriptions de Caractéristiques SAE - Printemps 2026

CodeCloak : une méthode basée sur DRL pour atténuer les fuites de code par les assistants de code LLM

IA générative pour le TALN avec PyTorch

Ingénieur en apprentissage automatique : Modèles d'apprentissage automatique et profond

Ce que vous devez savoir avant
Vous commencez