Microsoft DP-3011: Implement a Data Analytics Solution with Azure Databricks

Print Friendly, PDF & Email

535

Nível: Intermédio | 7 horas

Oferta do Exame de Certificação

Formação leccionada em Inglês

Elegível para candidatura ao cheque-digital IEFP até junho 2026 (Reembolso de até 750€)

Apresentação

 

Este curso aborda de forma prática e aprofundada como utilizar o Azure Databricks e o Apache Spark para transformar projetos de dados — desde a exploração inicial até à produção.
Os participantes aprendem a ingerir, transformar e analisar grandes volumes de dados com Spark DataFrames, Spark SQL e PySpark, desenvolvendo competências em processamento distribuído de dados.
Durante o curso, os formandos trabalharão diretamente no ambiente Databricks, aprendendo a criar e otimizar tabelas Delta, gerir clusters, e implementar pipelines de dados robustos com Lakeflow Jobs e LakeflowDeclarative Pipelines.
Além disso, o curso abrange boas práticas de engenharia de dados, como o tratamento da evolução de esquemas, garantia de qualidade de dados, orquestração de processos, bem como aspetos de governança e segurança, incluindo a utilização do Unity Catalog e a integração com o Microsoft Purview. 

Enquadramento

O Azure Databricks é uma plataforma de análise de dados unificada e escalável, construída sobre o Apache Spark e totalmente integrada no ecossistema Microsoft Azure.
Permite às organizações acelerar os seus fluxos de trabalho de engenharia e ciência de dados, unindo equipas num ambiente colaborativo e seguro.
Este curso enquadra-se nas necessidades de profissionais que pretendem modernizar os seus processos de analytics, otimizar pipelines de dados e gerir grandes volumes de informação de forma eficiente e governada, explorando o potencial do Databricks no contexto do big data e da inteligência artificial.

Destinatários 

  • Engenheiros e analistas de dados que pretendem aprofundar competências em construção e gestão de soluções de dados no Azure Databricks.
  • Programadores e desenvolvedores que desejem aplicar Spark e Python em ambientes de dados distribuídos.
  • Profissionais que pretendam modernizar processos de análise, automatizar pipelines de dados e implementar práticas de governação e segurança na cloud.

Pré-requisitos 

  • Conhecimentos fundamentais de Python e SQL (incluindo escrita de consultas para filtragem, junção e agregação de dados).
  • Noções básicas de formatos de ficheiros comuns (CSV, JSON, Parquet).
  • Familiaridade com o portal Azure e serviços como o Azure Storage.
  • Entendimento geral de conceitos de dados como processamento em batch e streaming, e dados estruturados vs. não estruturados.
  • (Opcional) Experiência prévia com frameworks de big data como Spark e utilização de notebooks Jupyter.

Objectivo Geral

Capacitar os participantes para conceber, implementar e otimizar soluções analíticas de dados utilizando o Azure Databricks e o Apache Spark, integrando-as de forma segura e escalável no ecossistema Azure.

Objectivos Específicos

No final do curso, os participantes serão capazes de: 

  • Navegar e configurar o ambiente Azure Databricks.
  • Realizar análises de dados com Spark SQL, PySpark e DataFrames.
  • Gerir e otimizar dados utilizando Delta Lake.
  • Criar e automatizar pipelines e jobs com Lakeflow.
  • Aplicar práticas de engenharia de dados, garantindo qualidade e consistência.
  • Implementar segurança e governação de dados com Unity Catalog e Purview. 
  • Preparar e disponibilizar soluções de dados prontas para produção. 

Programa 

  1. Explorar o Azure Databricks 
  2. Realizar análise de dados com Azure Databricks 
  3. Utilizar o Apache Spark no Azure Databricks 
  4. Gerir dados com Delta Lake 
  5. Criar Lakeflow Declarative Pipelines 
  6. Implementar e automatizar Lakeflow Jobs

Pedido de Informação