Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 06:39

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Técnicas Modernas de Tokenización para IA y LLMs

Domina los métodos modernos de tokenización, incluidos BPE, WordPiece y SentencePiece, para optimizar el rendimiento de los modelos de IA y manejar eficazmente los desafíos de palabras fuera del vocabulario.
via CodeSignal

177 Cursos


1 hour

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Free Certificate

Actualización opcional disponible

Resumen

This course covers tokenization techniques used in modern AI models, including rule-based methods, subword tokenization (BPE, WordPiece, SentencePiece), and vocabulary optimizations. Learners will implement these methods and understand their impact on NLP model performance.

Programa

  • Unidad 1: Introducción a la Tokenización (Tokenización Basada en Reglas)
  • Tokenizar Texto con NLTK
    Tokenización de Oraciones con NLTK
    Extraer Valores Monetarios con Regex
    Duelo de Tokenización con NLTK y spaCy
  • Unidad 2: Codificación Byte-Pair (BPE) – Tokenización de Subpalabras
  • Exploración de Tokenizadores Preentrenados con GPT-2
    Uso de Tokenizadores Preentrenados con RoBERTa
    Comparación de Tokenización con GPT-2 y RoBERTa
  • Unidad 3: Comparación de BPE, WordPiece y SentencePiece en PLN
  • Desafío de Tokenización WordPiece
    Técnicas de Tokenización en Acción
    Técnicas de Tokenización en Acción
    Técnicas de Tokenización para Textos Especiales
  • Unidad 4: Tokenización y Manejo de Fuera de Vocabulario (OOV) en PLN
  • Duelo de Tokenización BERT vs GPT2
    Desafío Multilingüe de Tokenización
    Tokenización Multilingüe y Reducción de OOV

Materias

Computer Science