Data Engineering on Microsoft Azure (DP-203)

Print Friendly, PDF & Email

Em pré-inscrição. Entre em contacto para obter mais informações.

Nível Intermédio | Laboral: 4 dias | 28 Horas

Apresentação

Neste curso, os alunos irão aprender sobre a engenharia de dados em relação ao trabalho com soluções analíticas em batch e em tempo real, utilizando as tecnologias da plataforma de dados do Azure. O curso começa com uma compreensão das tecnologias de computação e armazenamento que são essenciais para construir uma solução analítica. Os alunos irão explorar de forma interativa dados armazenados em ficheiros num data lake, além de aprender várias técnicas de ingestão para carregar dados utilizando a capacidade Apache Spark no Azure Synapse Analytics ou no Azure Databricks, ou através de ingestão usando o Azure Data Factory ou pipelines do Azure Synapse. Os alunos também aprenderão as várias formas de transformar dados utilizando as mesmas tecnologias usadas para ingestão. Além disso, compreenderão a importância da implementação de medidas de segurança para proteger os dados tanto em repouso como em trânsito. O curso finaliza com a criação de um sistema analítico em tempo real para gerar soluções analíticas em tempo real.

Enquadramento

A crescente necessidade de analisar grandes volumes de dados em tempo real requer engenheiros de dados capazes de construir soluções robustas, seguras e escaláveis. Este curso oferece um programa estruturado para desenvolver competências práticas e teóricas que permitirão criar, gerir e otimizar soluções analíticas baseadas na plataforma de dados do Azure.

Destinatários

Profissionais de Dados e Arquitetos de Dados – Especialistas em engenharia de dados e design de soluções analíticas que querem trabalhar com tecnologias de dados na plataforma Azure.
Profissionais de Business Intelligence (BI) – Profissionais focados em relatórios e visualização de dados que desejam aprender a criar pipelines de dados robustos.
Analistas e Cientistas de Dados (público secundário) – Profissionais que trabalham com análise e modelagem de dados, interessados em integrar modelos analíticos com soluções baseadas no Azure.


Pré-requisitos

Os alunos devem iniciar este curso com conhecimentos em computação na cloud e conceitos de dados fundamentais, bem como experiência profissional com soluções de dados.
-> Recomenda-se que os alunos tenham completado os seguintes cursos:
AZ-900 – Fundamentos do Azure
DP-900 – Fundamentos de Dados no Microsoft Azur3

 

Objetivo Geral

Capacitar os alunos com competências práticas e teóricas para a construção de soluções analíticas eficazes e escaláveis no Azure, abordando tanto a ingestão e transformação de dados como a criação de pipelines e sistemas de análise em tempo real.

Objetivos Específicos

  • Compreender as tecnologias de computação e armazenamento do Azure para engenharia de dados
  • Estruturar, explorar e otimizar dados em Data Lakes
  • Construir pipelines de dados que suportem cargas de trabalho analíticas
  • Implementar medidas de segurança para dados em repouso e em trânsito
  • Desenvolver e operar sistemas analíticos em tempo real


Programa

Módulo 1: Explorar opções de computação e armazenamento para cargas de trabalho de engenharia de dados

Descrição: Apresentação das tecnologias de computação e armazenamento do Azure para engenheiros de dados. Estruturar o data lake e otimizar ficheiros para processamento exploratório, streaming e batch.

  • Lições:
    • Introdução ao Azure Synapse Analytics
    • Descrição do Azure Databricks
    • Introdução ao Azure Data Lake Storage
    • Descrição da arquitetura Delta Lake
    • Trabalhar com fluxos de dados no Azure Stream Analytics
  • Laboratório: Combinação de processamento em streaming e batch num único pipeline

Módulo 2: Executar consultas interativas usando Azure Synapse Analytics (pools SQL sem servidor)

Descrição: Consultar dados armazenados no data lake e fontes externas com T-SQL.

  • Lições:
    • Capacidades dos pools SQL sem servidor do Azure Synapse
    • Consultar dados no lake com pools SQL sem servidor
    • Criar objetos de metadados
    • Segurança e gestão de utilizadores em pools SQL
  • Laboratório: Consultar e proteger dados no data lake

Módulo 3: Exploração e transformação de dados no Azure Databricks

Descrição: Exploração de dados e transformação através do Apache Spark no Azure Databricks.

  • Lições:
    • Descrição do Azure Databricks
    • Ler e escrever dados no Databricks
    • Trabalhar com DataFrames e métodos avançados
  • Laboratório: Explorar e manipular dados utilizando DataFrames

Módulo 4: Explorar, transformar e carregar dados no Data Warehouse usando Apache Spark

Descrição: Carregar dados em armazéns relacionais e executar consultas.

  • Lições:
    • Engenharia de dados big data com Apache Spark
    • Ingestão de dados com notebooks Apache Spark
    • Integração de pools SQL e Spark
  • Laboratório: Carregar dados usando Apache Spark e integrar com pools SQL

Módulo 5: Ingestão e carregamento de dados no Data Warehouse

Descrição: Ingestão de dados em armazéns de dados utilizando T-SQL e pipelines.

  • Lições:
    • Melhores práticas de carregamento de dados no Azure Synapse
    • Ingestão em escala com Azure Data Factory
  • Laboratório: Importar dados com PolyBase e COPY usando T-SQL

Módulo 6: Transformar dados com Azure Data Factory ou Azure Synapse Pipelines

Descrição: Criar pipelines de integração de dados, transformar dados com data flows.

  • Lições:
    • Integração de dados com Data Factory ou Synapse Pipelines
    • Transformação sem código
  • Laboratório: Executar transformações sem código

Módulo 7: Orquestrar movimentação e transformação de dados no Azure Synapse Pipelines

Descrição: Criação de serviços vinculados e orquestração de movimentação de dados.

  • Lições:
    • Orquestrar movimentação e transformação de dados no Data Factory
  • Laboratório: Integração de dados a partir de notebooks

Módulo 8: Segurança de ponta a ponta com Azure Synapse Analytics

Descrição: Implementar medidas de segurança para proteger o ambiente Synapse Analytics.

  • Lições:
    • Segurança de armazéns de dados
    • Configuração e gestão de segredos com Azure Key Vault
  • Laboratório: Configuração de segurança para Synapse e gestão de acesso

Módulo 9: Suportar processamento híbrido com Azure Synapse Link

Descrição: Conectar uma conta Azure Cosmos DB a um espaço de trabalho Synapse.

  • Lições:
    • Processamento transacional e analítico híbrido com Azure Synapse Link
  • Laboratório: Configuração do Synapse Link e consultas com Cosmos DB

Módulo 10: Processamento de fluxos de dados em tempo real com Stream Analytics

Descrição: Ingestão de dados de streaming e processamento em tempo real com Stream Analytics.

  • Lições:
    • Mensagens fiáveis para aplicações Big Data com Azure Event Hubs
  • Laboratório: Processamento de dados em tempo real com Stream Analytics

Módulo 11: Criar uma solução de processamento de streaming com Event Hubs e Azure Databricks

Descrição: Processar dados de streaming com Spark Structured Streaming e Event Hubs.

  • Lições:
    • Processar dados de streaming com Azure Databricks
  • Laboratório: Configuração de Event Hubs para leitura e escrita de streams

Pedido de Informação