What You Need to Know Before
You Start
Starts 7 June 2025 13:45
Ends 7 June 2025
6 hours 8 minutes
Optional upgrade avallable
Not Specified
Progress at your own speed
Paid Course
Optional upgrade avallable
Resumen
Guía Práctica para Principiantes de GenAI y LLMs para Transformar, Cargar y Modelar Datos con Python y SQL Lo que aprenderás:
Utilizar modelos de lenguaje grandes para crear código Python e implementar flujos de trabajo de datos Utilizar LLMs para resolver desafíos de carga, transformación de datos y evaluación de la calidad de los datos Crear bases de datos y modelos de datos analíticos utilizando AI generativa Crear scripts en Python, SQL y Bash para implementar tareas comunes de ingeniería de datos Descripción actualizada 3/12/2024 Las herramientas de AI generativa como ChatGPT, Claude y Bard están haciendo que la ingeniería de datos sea más accesible y eficiente. Si trabajas con hojas de cálculo o herramientas de inteligencia empresarial pero no estás muy familiarizado con Python o SQL, la AI generativa puede ayudarte a analizar datos y construir tus propios flujos de trabajo de datos y procesos ETL/ELT.
La AI generativa y los LLMs no reemplazarán a los ingenieros de datos o analistas de datos, pero aquellos que sepan cómo utilizar estas herramientas de AI podrán construir flujos de trabajo de datos más capaces y confiables más rápidamente. También tendrán acceso a una herramienta que puede ayudarte a desarrollar tus habilidades en Python, SQL y modelado de datos proporcionando una variedad de ejemplos de código funcional y ayuda con los mensajes de error y los procesos de solución de problemas que no funcionan como se espera.
Aprender técnicas de ingeniería de datos así como herramientas de ingeniería de datos En este curso, aprenderás a descomponer problemas de ingeniería de datos en una serie de tareas que pueden ser automatizadas utilizando Python, SQL y scripts de línea de comandos generados por un modelo de lenguaje grande (LLM). Pedir a una AI que "genere un script de procesamiento de datos para hacer X, Y y Z" probablemente no te dará los resultados que esperas.
Los LLMs son herramientas poderosas, pero no son oráculos. Al igual que con cualquier herramienta, necesitamos entender de qué es capaz la herramienta y cómo usar esas capacidades para satisfacer nuestras necesidades.
Este curso te muestra cómo pensar a través de problemas de transformación y carga de datos, construyendo de forma incremental componentes de una solución. Este curso está organizado en varios temas que cubren las habilidades fundamentales necesarias para comenzar a trabajar en ingeniería de datos utilizando GenAI, incluyendo:
Introducción a los modelos de lenguaje grandes, modelos de base y otros temas de AI relacionados con la ingeniería de datos.
Este curso utiliza Claude AI de Anthropic, un modelo de lenguaje grande que es adecuado tanto para la generación de código de ingeniería de datos como para su uso gratuito. Trabajar con archivos CSV y JSON Calidad de datos y limpieza de datos, incluyendo estadísticas y visualizaciones Procesos de extracción transformación y carga (ETL)/ extracción, carga y transformación (ELT) Bases de datos relacionales y NoSQL Modelado de datos utilizando patrones de modelo de datos dimensional Trabajar con datos JSON en bases de datos relacionales como PostgreSQL El curso comienza con las tareas más básicas de ingeniería de datos:
trabajar con archivos.
Aprenderás a filtrar rápidamente, transformar y encontrar problemas en conjuntos de datos compuestos de archivos de valores separados por comas (CSV) y JSON. También verás cómo podemos crear muestras de grandes conjuntos de datos para experimentar eficientemente con diferentes soluciones a nuestras necesidades de ingeniería de datos.
Aprenderás a generar código que utiliza utilidades de línea de comandos como awk, una herramienta para el procesamiento de texto y extracción de datos, y jq, una herramienta para el análisis, filtrado y transformación de datos JSON. Si no estás familiarizado con herramientas como awk y jq, eso no es problema.
En este curso, aprenderás a describir lo que deseas en una solución para que el LLM pueda elegir una herramienta adecuada para el trabajo. La calidad de los datos es una preocupación primaria en cualquier proyecto de ingeniería de datos.
Afortunadamente, con GenAI y un entendimiento básico de las verificaciones de calidad de los datos, puedes generar rápidamente scripts para verificar problemas comunes de calidad de datos y aplicar transformaciones a los datos para corregir esos problemas. Las estadísticas y las visualizaciones son herramientas importantes para asegurar la calidad de los datos.
En este curso, aprenderás a utilizar estadísticas básicas y visualizaciones para ayudar con la calidad de los datos y la exploración de los datos. Y dado que la AI generativa se utiliza para generar código, puedes pasar más tiempo aprendiendo sobre estadísticas, visualizaciones y cómo aplicarlas a tu dominio de problemas y menos tiempo tratando de encontrar errores de sintaxis o depurar un error lógico en tu código.
Las bases de datos son la base de muchas aplicaciones y plataformas de análisis de datos. Aprenderás sobre bases de datos relacionales así como sobre bases de datos NoSQL y cuándo usarlas.
Las bases de datos son sistemas complicados que requieren que describamos cómo queremos estructurar nuestros datos. Este proceso se conoce como modelado de datos.
Este curso presentará el modelado de datos con un enfoque en el modelado dimensional, un patrón de modelo de datos comúnmente utilizado en análisis de datos. También aprenderás a generar código SQL para implementar modelos dimensionales, cargar datos en tu base de datos y consultar y analizar datos una vez que están cargados.
Ahora es un gran momento para convertirse en ingeniero de datos porque la demanda de habilidades de ingeniería de datos es alta y ahora tenemos herramientas que nos permiten enfocarnos en los problemas que estamos resolviendo mientras aceleramos la rapidez con la que podemos crear flujos de trabajo de datos escalables y confiables.
Programa de estudio
- Descripción del Curso
- Fundamentos de la Ingeniería de Datos
- Introducción a la IA Generativa
- Recolección y Limpieza de Datos
- Sistemas de Almacenamiento de Datos
- Transformación de Datos e Ingeniería de Características
- Construcción y Gestión de Flujos de Datos
- Introducción a la Infraestructura de Aprendizaje Automático
- Estudios de Caso y Aplicaciones de la IA Generativa en Ingeniería de Datos
- Revisión y Trabajo de Proyecto
- Conclusión y Direcciones Futuras
Enseñado por
Dan Sullivan
Asignaturas
Ciencia de datos