Python Brasil 2025

Apache Iceberg: Lakehouses de Alta Performance
25/10/2025 , Intermediária

Transforme seu Data Lake em um Lakehouse eficiente com Apache Iceberg com suporte a transações ACID, PySpark para processamento, Airflow para automação e Athena para consultas rápidas e de baixo custo


Transformar seu Data Lake em um Lakehouse moderno e eficiente é essencial para lidar com grandes volumes de dados. Apache Iceberg resolve desafios críticos enfrentados por Data Lakes tradicionais, como gestão de versões de dados, suporte a transações ACID e integração de dados em múltiplos formatos. Com o PySpark, você pode processar grandes volumes de dados de maneira distribuída, aproveitando a estrutura otimizada do Iceberg para transformações e consultas rápidas. O Airflow permite automatizar workflows, agendando e orquestrando tarefas para atualizar tabelas Iceberg e gerenciar versões de dados de forma eficiente. Além disso, o Athena permite realizar consultas SQL rápidas diretamente nas tabelas do Iceberg armazenadas no S3, sem necessidade de movimentação de dados, garantindo baixo custo e alta performance. Nesta apresentação, você aprenderá como integrar essas ferramentas, criando uma arquitetura escalável e de alto desempenho, aproveitando o potencial do Apache Iceberg para otimizar o processamento e análise de dados em ambientes dinâmicos.


Quais conhecimentos prévios são necessários para que seja possível acompanhar bem a sua atividade?

Para acompanhar esta apresentação, é recomendado ter um conhecimento intermediário em Engenharia de Dados e alguma experiência com Python para processamento de dados, principalmente com bibliotecas como PySpark. Ter familiaridade com conceitos de Big Data, como processamento distribuído e ETL (Extração, Transformação e Carregamento), será útil. É importante também entender o básico sobre Data Lakes e Data Warehouses, embora não seja necessário um conhecimento avançado. A apresentação abordará ferramentas como Apache Iceberg, Airflow e Athena, portanto, um entendimento básico sobre orquestração de workflows e consultas SQL será vantajoso, mas não essencial para o entendimento geral.

Escolha uma ou mais áreas em que essa proposta se encaixa

Ciência e Análise de Dados

O que as pessoas que participarem podem esperar aprender na sua atividade?

As pessoas que participarem dessa apresentação podem esperar uma visão prática e detalhada sobre como transformar um Data Lake tradicional em um Lakehouse moderno e eficiente, utilizando ferramentas atuais como Apache Iceberg, PySpark, Airflow e Athena. O conteúdo será focado em como essas tecnologias podem ser integradas para criar uma arquitetura de dados escalável e de alto desempenho, ideal para empresas que lidam com grandes volumes de dados.
Os participantes aprenderão sobre a importância de transações ACID e como o Apache Iceberg resolve problemas críticos, como a gestão de versões de dados e a melhoria de consultas. A palestra também abordará como o PySpark pode ser usado para processar dados de forma distribuída e otimizada, enquanto o Airflow orquestra as atualizações e transformações de dados. O uso do Athena será destacado, mostrando como realizar consultas rápidas e de baixo custo em dados armazenados no S3.
Ao final, os participantes terão uma compreensão clara de como integrar essas ferramentas em um fluxo de trabalho eficiente e escalável, além de aprender boas práticas para lidar com dados em larga escala. A expectativa é que eles saiam com uma base sólida para aplicar essas soluções em projetos reais, otimizando o processamento e análise de dados em suas organizações.

Formada em Desenvolvimento de Sistemas pela UFPR, pós-graduanda em Arquitetura de Dados (PUC-Minas), com 15 anos de experiência em engenharia de software e Dados.