Python for Data Analysis – Advanced

Duração: 16 horas | Laboral: 2 dias | Pós-laboral: 4 dias

Esta formação é desenvolvida em parceria com a FastLane

Apresentação

Este curso avançado destina-se a profissionais que já dominam os fundamentos de Python e Pandas e que pretendem evoluir para técnicas avançadas de manipulação de dados, processamento em larga escala com PySpark e desenvolvimento de análises em contextos de Big Data.

Enquadramento

À medida que os conjuntos de dados crescem em volume, velocidade e variedade, torna-se essencial o domínio de ferramentas escaláveis como PySpark. Este curso prepara os formandos para enfrentar desafios de análise de dados em grande escala, combinando a profundidade do Pandas com a performance do PySpark.

Destinatários

Analistas de dados e cientistas de dados que pretendam aprofundar competências em manipulação e processamento de dados;

Profissionais que lidam com grandes volumes de informação (Big Data);

Utilizadores de Python que já dominam o nível fundamental e desejam evoluir para cenários mais avançados.

Pré-requisitos

Conhecimentos básicos de Python e Pandas (equivalentes ao curso Fundamentals);

Familiaridade com conceitos de análise de dados e estatística descritiva;

A Olisipo disponibiliza um teste de aferição de competências, de forma a ajudar a identificar o nível em que o participante se encontra.

Objectivo Geral

Capacitar os participantes para manipular e analisar dados em grande escala, utilizando técnicas avançadas de Pandas e os recursos do PySpark.

Objectivos Específicos

No final do curso, os participantes deverão ser capazes de:

Aplicar técnicas avançadas de manipulação de dados com Pandas;

Optimizar operações em DataFrames;

Configurar e utilizar PySpark em ambiente local;

Comparar a performance entre Pandas e PySpark;

Integrar Pandas e PySpark em projetos de análise de dados em larga escala;

Extrair insights relevantes a partir de datasets de Big Data.

Programa

Módulo 1 – Avançado em Pandas (6h)

Revisão de fundamentos (DataFrames, índices, joins)

MultiIndex e hierarquia de dados

Pivot, Melt e Reshape de DataFrames

Merge, concat e joins complexos

Window functions (rolling, expanding, shift)

Funções personalizadas (apply, map, transform)

Manipulação de datas, strings e dados numéricos

Técnicas de limpeza de dados em larga escala

Otimização de operações no Pandas

Módulo 2 – PySpark Essentials (6h)

Introdução ao Big Data e arquitetura do Spark

Diferença entre Pandas DataFrame e Spark DataFrame

Configuração do PySpark em ambiente local

Criação e manipulação de Spark DataFrames (CSV, Parquet, JSON)

Seleção, filtragem e agregações

Joins em Spark

Funções SQL e UDFs (User Defined Functions)

Spark SQL: consultas em DataFrames

Diferenças de performance entre Pandas e PySpark

Módulo 3 – Estudo de Caso Final (4h)

Integração Pandas + PySpark em projeto real

Limpeza, transformação e análise de dados em larga escala

Comparação de performance Pandas × PySpark

Extração de insights de negócio a partir de Big Data

catálogo de formação