What You Need to Know Before
You Start

Starts 7 June 2025 13:45

Ends 7 June 2025

00 days
00 hours
00 minutes
00 seconds
course image

Introducción a la Ingeniería de Datos utilizando IA Generativa

Guía Práctica para Principiantes sobre GenAI y LLMs para Transformar, Cargar y Modelar Datos con Python y SQL
via Udemy

4052 Cursos


6 hours 8 minutes

Optional upgrade avallable

Not Specified

Progress at your own speed

Paid Course

Optional upgrade avallable

Resumen

Guía Práctica para Principiantes de GenAI y LLMs para Transformar, Cargar y Modelar Datos con Python y SQL Lo que aprenderás:

Utilizar modelos de lenguaje grandes para crear código Python e implementar flujos de trabajo de datos Utilizar LLMs para resolver desafíos de carga, transformación de datos y evaluación de la calidad de los datos Crear bases de datos y modelos de datos analíticos utilizando AI generativa Crear scripts en Python, SQL y Bash para implementar tareas comunes de ingeniería de datos Descripción actualizada 3/12/2024 Las herramientas de AI generativa como ChatGPT, Claude y Bard están haciendo que la ingeniería de datos sea más accesible y eficiente. Si trabajas con hojas de cálculo o herramientas de inteligencia empresarial pero no estás muy familiarizado con Python o SQL, la AI generativa puede ayudarte a analizar datos y construir tus propios flujos de trabajo de datos y procesos ETL/ELT.

La AI generativa y los LLMs no reemplazarán a los ingenieros de datos o analistas de datos, pero aquellos que sepan cómo utilizar estas herramientas de AI podrán construir flujos de trabajo de datos más capaces y confiables más rápidamente. También tendrán acceso a una herramienta que puede ayudarte a desarrollar tus habilidades en Python, SQL y modelado de datos proporcionando una variedad de ejemplos de código funcional y ayuda con los mensajes de error y los procesos de solución de problemas que no funcionan como se espera.

Aprender técnicas de ingeniería de datos así como herramientas de ingeniería de datos En este curso, aprenderás a descomponer problemas de ingeniería de datos en una serie de tareas que pueden ser automatizadas utilizando Python, SQL y scripts de línea de comandos generados por un modelo de lenguaje grande (LLM). Pedir a una AI que "genere un script de procesamiento de datos para hacer X, Y y Z" probablemente no te dará los resultados que esperas.

Los LLMs son herramientas poderosas, pero no son oráculos. Al igual que con cualquier herramienta, necesitamos entender de qué es capaz la herramienta y cómo usar esas capacidades para satisfacer nuestras necesidades.

Este curso te muestra cómo pensar a través de problemas de transformación y carga de datos, construyendo de forma incremental componentes de una solución. Este curso está organizado en varios temas que cubren las habilidades fundamentales necesarias para comenzar a trabajar en ingeniería de datos utilizando GenAI, incluyendo:

Introducción a los modelos de lenguaje grandes, modelos de base y otros temas de AI relacionados con la ingeniería de datos.

Este curso utiliza Claude AI de Anthropic, un modelo de lenguaje grande que es adecuado tanto para la generación de código de ingeniería de datos como para su uso gratuito. Trabajar con archivos CSV y JSON Calidad de datos y limpieza de datos, incluyendo estadísticas y visualizaciones Procesos de extracción transformación y carga (ETL)/ extracción, carga y transformación (ELT) Bases de datos relacionales y NoSQL Modelado de datos utilizando patrones de modelo de datos dimensional Trabajar con datos JSON en bases de datos relacionales como PostgreSQL El curso comienza con las tareas más básicas de ingeniería de datos:

trabajar con archivos.

Aprenderás a filtrar rápidamente, transformar y encontrar problemas en conjuntos de datos compuestos de archivos de valores separados por comas (CSV) y JSON. También verás cómo podemos crear muestras de grandes conjuntos de datos para experimentar eficientemente con diferentes soluciones a nuestras necesidades de ingeniería de datos.

Aprenderás a generar código que utiliza utilidades de línea de comandos como awk, una herramienta para el procesamiento de texto y extracción de datos, y jq, una herramienta para el análisis, filtrado y transformación de datos JSON. Si no estás familiarizado con herramientas como awk y jq, eso no es problema.

En este curso, aprenderás a describir lo que deseas en una solución para que el LLM pueda elegir una herramienta adecuada para el trabajo. La calidad de los datos es una preocupación primaria en cualquier proyecto de ingeniería de datos.

Afortunadamente, con GenAI y un entendimiento básico de las verificaciones de calidad de los datos, puedes generar rápidamente scripts para verificar problemas comunes de calidad de datos y aplicar transformaciones a los datos para corregir esos problemas. Las estadísticas y las visualizaciones son herramientas importantes para asegurar la calidad de los datos.

En este curso, aprenderás a utilizar estadísticas básicas y visualizaciones para ayudar con la calidad de los datos y la exploración de los datos. Y dado que la AI generativa se utiliza para generar código, puedes pasar más tiempo aprendiendo sobre estadísticas, visualizaciones y cómo aplicarlas a tu dominio de problemas y menos tiempo tratando de encontrar errores de sintaxis o depurar un error lógico en tu código.

Las bases de datos son la base de muchas aplicaciones y plataformas de análisis de datos. Aprenderás sobre bases de datos relacionales así como sobre bases de datos NoSQL y cuándo usarlas.

Las bases de datos son sistemas complicados que requieren que describamos cómo queremos estructurar nuestros datos. Este proceso se conoce como modelado de datos.

Este curso presentará el modelado de datos con un enfoque en el modelado dimensional, un patrón de modelo de datos comúnmente utilizado en análisis de datos. También aprenderás a generar código SQL para implementar modelos dimensionales, cargar datos en tu base de datos y consultar y analizar datos una vez que están cargados.

Ahora es un gran momento para convertirse en ingeniero de datos porque la demanda de habilidades de ingeniería de datos es alta y ahora tenemos herramientas que nos permiten enfocarnos en los problemas que estamos resolviendo mientras aceleramos la rapidez con la que podemos crear flujos de trabajo de datos escalables y confiables.

Programa de estudio

  • Descripción del Curso
  • Introducción a la Ingeniería de Datos y la IA Generativa
    Objetivos y Resultados del Curso
    Resumen del Temario y Estructura del Curso
  • Fundamentos de la Ingeniería de Datos
  • Introducción a los Flujos de Datos
    Conceptos Clave: ETL (Extracción, Transformación, Carga)
    Visión General de Soluciones de Almacenamiento de Datos: Bases de Datos, Lagos de Datos y Almacenes
  • Introducción a la IA Generativa
  • ¿Qué es la IA Generativa?
    Visión General de Modelos Generativos: GANs, VAEs y Transformadores
  • Recolección y Limpieza de Datos
  • Fuentes de Datos y Adquisición
    Calidad de los Datos: Técnicas de Limpieza y Preprocesamiento
    Automatización de la Limpieza de Datos con IA Generativa
  • Sistemas de Almacenamiento de Datos
  • Bases de Datos Relacionales vs. No Relacionales
    Introducción al Almacenamiento y Gestión en la Nube
    Aprovechamiento de la IA Generativa para la Estructuración de Datos
  • Transformación de Datos e Ingeniería de Características
  • Procesos de Transformación en Ingeniería de Datos
    Técnicas de Selección e Ingeniería de Características
    Papel de la IA Generativa en la Creación de Características
  • Construcción y Gestión de Flujos de Datos
  • Arquitectura de Flujos y Gestión de Flujos de Trabajo
    Herramientas y Plataformas para la Automatización de Flujos
    Uso de la IA para la Optimización de Flujos
  • Introducción a la Infraestructura de Aprendizaje Automático
  • Infraestructura de AA en Ingeniería de Datos
    Gestión y Escalado de Modelos de AA con IA Generativa
  • Estudios de Caso y Aplicaciones de la IA Generativa en Ingeniería de Datos
  • Aplicaciones del Mundo Real y Estudios de Caso
    Consideraciones Éticas y Mejores Prácticas
  • Revisión y Trabajo de Proyecto
  • Proyecto de Culminación: Diseño de un Flujo de Datos con Integración de IA Generativa
    Presentaciones y Retroalimentación
  • Conclusión y Direcciones Futuras
  • Resumen de Temas Clave
    Tendencias Futuras en Ingeniería de Datos e IA
    Retroalimentación del Curso y Recursos de Aprendizaje Adicionales

Enseñado por

Dan Sullivan


Asignaturas

Ciencia de datos