Resumen
¡Bienvenido a este curso de procesamiento de lenguaje natural! El objetivo de este curso es entender los métodos que permiten transformar el texto en características utilizables por algoritmos de aprendizaje automático clásicos y las arquitecturas y modelos que mejor se corresponden con este tipo de datos. En este caso, un conjunto de documentos de texto no estructurados.
Este curso está dividido en 3 partes: la primera trata de la exploración, limpieza y normalización del texto. Una segunda parte está dedicada a los diferentes tipos de transformaciones que nos permitirán comprender mejor nuestros datos textuales y crear características que podamos usar en algoritmos clásicos de aprendizaje automático. La última parte estará dedicada a la clasificación de texto mediante el aprendizaje automático.
Requisitos previos:
Este curso forma parte del programa Data Scientist. Se sitúa en la intersección de las matemáticas y la informática. Para aprovecharlo al máximo, no dude en refrescar su memoria, antes o durante el curso, sobre:
- Python para el cálculo numérico (numpy) y la creación de gráficos (pyplot), que utilizaremos en las partes prácticas del curso,
- Algunas nociones de álgebra lineal: manipulación de vectores, multiplicación de matrices, normas y valores/vectores propios,
- Algunas nociones de probabilidades y estadísticas, tales como distribución de leyes de probabilidad y varianza,
- Los modelos no supervisados permitirán modelar características automáticamente a partir del texto,
- Los modelos supervisados no lineales son indispensables para el procesamiento del texto, especialmente las redes neuronales secuenciales.