Joins no Spark: Broadcast, Shuffle e Sort Merge
06/06/2026 , Fernão Auditório

Compare as estratégias de JOIN no Pyspark e aprenda a escolher a ideal para cada situação, otimizando performance e recursos


Quais conhecimentos prévios são necessários para que seja possível acompanhar bem a sua atividade?:

Python intermediário, PySpark básico - 'tranformações, entender conceito de schema', SQL e cloud(AWS/GCP/Azure) - 'Onde o Spark tipicamente roda', Devops/MLops - 'Monitoramento e observabilidade'

O que as pessoas que participarem podem esperar aprender na sua atividade?:

Diferenciar broadcast, Shuffle, e Sort merge joins, configurar parâmetros de otimização, quando usar cada estratégia para otimizar performance, boas práticas e armadilhas comuns

Escolha uma ou mais áreas em que essa proposta se encaixa: Ciência e Análise de Dados

Pai. Corinthiano. Engenheiro de Dados. Amo basquete. Jogo cartinhas e RPG. Adoro livros! (O cheiro de livro novo é incrível... s2). Baixista. Tentando terminar a faculdade de Matemática.