Qué necesitas saber antes de
comenzar
Inicio 4 June 2026 06:39
Fin 4 June 2026
00
Días
00
Horas
00
Minutos
00
Segundos
1 hour
Actualización opcional disponible
Intermedio
Avanza a tu propio ritmo
Free Certificate
Actualización opcional disponible
Resumen
This course covers tokenization techniques used in modern AI models, including rule-based methods, subword tokenization (BPE, WordPiece, SentencePiece), and vocabulary optimizations. Learners will implement these methods and understand their impact on NLP model performance.
Programa
- Unidad 1: Introducción a la Tokenización (Tokenización Basada en Reglas)
- Unidad 2: Codificación Byte-Pair (BPE) – Tokenización de Subpalabras
- Unidad 3: Comparación de BPE, WordPiece y SentencePiece en PLN
- Unidad 4: Tokenización y Manejo de Fuera de Vocabulario (OOV) en PLN
Tokenizar Texto con NLTK
Tokenización de Oraciones con NLTK
Extraer Valores Monetarios con Regex
Duelo de Tokenización con NLTK y spaCy
Exploración de Tokenizadores Preentrenados con GPT-2
Uso de Tokenizadores Preentrenados con RoBERTa
Comparación de Tokenización con GPT-2 y RoBERTa
Desafío de Tokenización WordPiece
Técnicas de Tokenización en Acción
Técnicas de Tokenización en Acción
Técnicas de Tokenización para Textos Especiales
Duelo de Tokenización BERT vs GPT2
Desafío Multilingüe de Tokenización
Tokenización Multilingüe y Reducción de OOV
Materias
Computer Science