Caipyra 2025

Scrapy além do tutorial
20/06/2025 , Sala Paçoquinha

Conforme um projeto de raspagem de dados se torna mais complexo, é necessário conhecer e aplicar funcionalidades mais avançadas disponíveis no Scrapy. Vamos ver algumas delas e como podem ser usadas.


Scrapy é o framework mais conhecido no ecossistema Python para raspagem de dados, fornecendo as ferramentas básicas para projetos pequenos ou grandes. Porém, conforme o seu projeto cresce, ou as técnicas de desenvolvimento de páginas na Internet mudam, começa a ser necessário o uso de funcionalidades do framework mais avançadas, além de bibliotecas auxiliares.

Nesta palestra serão apresentadas algumas dessas funcionalidades como middlewares, pipelines, exportadores de dados, monitoramento e uso de navegadores headless (como playwright) integrando isso no Scrapy.

Apesar de focado no Scrapy, os conceitos apresentados podem ser replicados em outras ferramentas e arquiteturas de projetos de raspagem de dados.


Quais conhecimentos prévios são necessários para que seja possível acompanhar bem a sua atividade?:
  • Python básico (saber usar e definir funções, classes e métodos, estruturas de dados como listas, dicionários e tuplas, manipulação de strings, controles de fluxo e loops - if/for/while)
  • Um conhecimento básico de Scrapy pode ser útil, mas não é 100% obrigatório, já que será feito uma passagem rápida sobre os conceitos básicos do framework
O que as pessoas que participarem podem esperar aprender na sua atividade?:

Ao final da palestra, as pessoas participantes terão conhecimento de funcionalidades do Scrapy que não são tão conhecidas da maioria das pessoas, podendo aplicá-las imediatamente em seus projetos, mesmo que não utilizem o Scrapy, já que os conceitos são gerais e podem ser aplicados/adaptados e outras bibliotecas e arquiteturas de projetos de raspagem de dados.

Escolha uma ou mais áreas em que essa proposta se encaixa:

Automações (RPA - Robotic Process Automation), Ciência e Análise de Dados, Machine Learning e Inteligência Artificial

Desenvolvedor Python a 12+ anos. Ativo na comunidade organizando e participando de vários eventos. Fundador do Laboratório Hacker de Campinas, cervejeiro caseiro e marceneiro nas horas vagas.