Python for Data Analysis – Advanced

Print Friendly, PDF & Email

Em pré-inscrição. Entre em contacto para obter mais informações.

Duração: 16 horas |  Laboral: 2  dias | Pós-laboral: 4 dias

Apresentação 

Este curso avançado destina-se a profissionais que já dominam os fundamentos de Python e Pandas e que pretendem evoluir para técnicas avançadas de manipulação de dados, processamento em larga escala com PySpark e desenvolvimento de análises em contextos de Big Data. 

Enquadramento 

À medida que os conjuntos de dados crescem em volume, velocidade e variedade, torna-se essencial o domínio de ferramentas escaláveis como PySpark. Este curso prepara os formandos para enfrentar desafios de análise de dados em grande escala, combinando a profundidade do Pandas com a performance do PySpark. 

Destinatários 

  • Analistas de dados e cientistas de dados que pretendam aprofundar competências em manipulação e processamento de dados; 
  • Profissionais que lidam com grandes volumes de informação (Big Data); 
  • Utilizadores de Python que já dominam o nível fundamental e desejam evoluir para cenários mais avançados. 

Pré-requisitos 

  • Conhecimentos básicos de Python e Pandas (equivalentes ao curso Fundamentals); 
  • Familiaridade com conceitos de análise de dados e estatística descritiva; 
  • A Olisipo disponibiliza um teste de aferição de competências, de forma a ajudar a identificar o nível em que o participante se encontra. 

Objectivo Geral 

Capacitar os participantes para manipular e analisar dados em grande escala, utilizando técnicas avançadas de Pandas e os recursos do PySpark. 

Objectivos Específicos 

No final do curso, os participantes deverão ser capazes de: 

  • Aplicar técnicas avançadas de manipulação de dados com Pandas; 
  • Optimizar operações em DataFrames; 
  • Configurar e utilizar PySpark em ambiente local; 
  • Comparar a performance entre Pandas e PySpark; 
  • Integrar Pandas e PySpark em projetos de análise de dados em larga escala; 
  • Extrair insights relevantes a partir de datasets de Big Data. 

Programa 

Módulo 1 – Avançado em Pandas (6h) 

  • Revisão de fundamentos (DataFrames, índices, joins) 
  • MultiIndex e hierarquia de dados 
  • Pivot, Melt e Reshape de DataFrames 
  • Merge, concat e joins complexos 
  • Window functions (rolling, expanding, shift) 
  • Funções personalizadas (apply, map, transform) 
  • Manipulação de datas, strings e dados numéricos 
  • Técnicas de limpeza de dados em larga escala 
  • Otimização de operações no Pandas 

Módulo 2 – PySpark Essentials (6h) 

  • Introdução ao Big Data e arquitetura do Spark 
  • Diferença entre Pandas DataFrame e Spark DataFrame 
  • Configuração do PySpark em ambiente local 
  • Criação e manipulação de Spark DataFrames (CSV, Parquet, JSON) 
  • Seleção, filtragem e agregações 
  • Joins em Spark 
  • Funções SQL e UDFs (User Defined Functions) 
  • Spark SQL: consultas em DataFrames 
  • Diferenças de performance entre Pandas e PySpark 

Módulo 3 – Estudo de Caso Final (4h) 

  • Integração Pandas + PySpark em projeto real 
  • Limpeza, transformação e análise de dados em larga escala 
  • Comparação de performance Pandas × PySpark 
  • Extração de insights de negócio a partir de Big Data 

Pedido de Informação