Overview
Visão geral
O Amazon Redshift é um serviço de data warehouse rápido e totalmente gerenciado, dimensionável até a escala de petabytes, que torna mais simples e econômico analisar todos os seus dados com eficiência usando suas ferramentas existentes de business intelligence (BI). Ele é otimizado para conjuntos de dados que variam de algumas centenas de gigabytes a um petabyte ou mais. Um dos avanços que permite que os clusters do Amazon Redshift analisem tantos dados é o Amazon Redshift Spectrum. Esse recurso permite que o Amazon Redshift analise grandes volumes de dados armazenados em um data lake Amazon Simple Storage Service (Amazon S3).
Este laboratório usa o conjunto de dados do IMDb. IMDb é a plataforma de referência para os fãs de cinema em todo o mundo. É o banco de dados on-line de informações relacionadas a filmes, programas de televisão, videogames e conteúdo de streaming, incluindo elenco, equipe de produção, resumos de trama, curiosidades, críticas de fãs e críticos e classificações.
Objetivos
Depois de concluir este laboratório, você será capaz de:
- Usar o SQL Workbench para o Amazon Redshift
- Entender o comando COPY para carregar dados e trabalhar com compactação
- Usar um arquivo manifesto para importar dados
- Arquivar dados usando o comando UNLOAD
- Usar as operações ANALYZE e VACUUM
- Usar o console do Amazon Redshift para explorar estatísticas de consulta
Pré-requisitos
Este laboratório requer:
- Acesso a um computador com Wi-Fi e Microsoft Windows, macOS X ou Linux (Ubuntu, SuSE ou Red Hat).
- Observação: você pode usar um tablet ou um iPad para acessar essas orientações no console do laboratório.
- Um navegador da Internet, como Chrome, Firefox ou Internet Explorer 9, ou versão superior.
- Observação: versões anteriores do Internet Explorer não são compatíveis.
- Um cliente SSH, como PuTTY.
Pré-requisitos de conhecimentos técnicos
Para concluir este laboratório, você deve ter familiaridade com:
- Familiaridade com operações básicas e instruções SQL
- Familiaridade com o Console de Gerenciamento da AWS
- Um cliente de conexão remota (como a Conexão de Área de Trabalho Remota incluída na maioria das versões do Windows) para se conectar ao seu servidor
-
Observação: se você estiver executando o macOS X, baixe o aplicativo Área de Trabalho Remota da Microsoft na App Store. Consulte Cliente RDP para Mac.
Neste laboratório, você usará o Console de Gerenciamento da AWS e o SQL Workbench para testar diferentes layouts de tabela e designs de esquema. Você usará o comando COPY para operações de carregamento de dados.
Duração
Este laboratório leva 60 minutos para ser concluído.
Serviços da AWS não usados neste laboratório
Neste ambiente de laboratório, os serviços da AWS que não forem usados serão desativados. Além disso, os recursos