Resumen
Descripción general
Amazon Redshift es un servicio de data warehouse rápido y totalmente gestionado, escalable hasta la escala de petabytes, que simplifica y economiza el análisis eficiente de todos sus datos utilizando sus herramientas existentes de business intelligence (BI). Está optimizado para conjuntos de datos que varían desde unos pocos cientos de gigabytes hasta un petabyte o más. Uno de los avances que permite que los clusters de Amazon Redshift analicen tantos datos es el Amazon Redshift Spectrum. Esta característica permite que Amazon Redshift analice grandes volúmenes de datos almacenados en un data lake Amazon Simple Storage Service (Amazon S3).
Este laboratorio utiliza el conjunto de datos de IMDb. IMDb es la plataforma de referencia para los fanáticos del cine en todo el mundo. Es la base de datos en línea de información relacionada con películas, programas de televisión, videojuegos y contenido de streaming, incluyendo elenco, equipo de producción, resúmenes de tramas, curiosidades, críticas de fanáticos y críticos, y calificaciones.
Objetivos
Después de completar este laboratorio, usted será capaz de:
- Usar SQL Workbench para Amazon Redshift
- Entender el comando COPY para cargar datos y trabajar con compresión
- Usar un archivo manifiesto para importar datos
- Archivar datos usando el comando UNLOAD
- Usar las operaciones ANALYZE y VACUUM
- Usar la consola de Amazon Redshift para explorar estadísticas de consulta
Requisitos previos
Este laboratorio requiere:
- Acceso a una computadora con Wi-Fi y Microsoft Windows, macOS X o Linux (Ubuntu, SuSE o Red Hat).
- Nota: puede usar una tableta o un iPad para acceder a estas instrucciones en la consola del laboratorio.
- Un navegador de Internet, como Chrome, Firefox o Internet Explorer 9 o superior.
- Nota: versiones anteriores de Internet Explorer no son compatibles.
- Un cliente SSH, como PuTTY.
Requisitos previos de conocimientos técnicos
Para completar este laboratorio, usted debe tener familiaridad con:
- Familiaridad con operaciones básicas y sentencias SQL
- Familiaridad con la Consola de Administración de AWS
- Un cliente de conexión remota (como la Conexión a Escritorio Remoto incluida en la mayoría de las versiones de Windows) para conectarse a su servidor
-
Nota: si está utilizando macOS X, descargue la aplicación Escritorio Remoto de Microsoft en la App Store. Consulte Cliente RDP para Mac.
En este laboratorio, utilizará la Consola de Administración de AWS y SQL Workbench para probar diferentes diseños de tabla y esquemas. Usará el comando COPY para operaciones de carga de datos.
Duración
Este laboratorio toma 60 minutos para completarse.
Servicios de AWS no utilizados en este laboratorio
En este entorno de laboratorio, los servicios de AWS que no sean utilizados serán desactivados. Además, los recursos