diegods/project-based-learning

Files

T

OpenClaw Diego a932d98cd6 Add study notes: 22 areas documented by Diego IA

2026-05-30 23:59:33 +00:00

1.8 KiB

Raw Permalink Blame History

Python: Web Scraping — Estudo

Fonte: project-based-learning

📚 Recursos

Tutorial	Stack	Nível
Mining Twitter Data	Python, Twitter API	Iniciante
Scrapy + MongoDB	Scrapy, MongoDB	Intermediário
Selenium WebDriver	Selenium	Intermediário
BeautifulSoup	BeautifulSoup	Iniciante

🎯 Aplicações para Mundo Telecom

Scraping de editais (já fazemos com Python, mas podemos evoluir)
- Usar Scrapy + MongoDB em vez de requests simples
- Adicionar Selenium para sites com JS pesado
Monitoramento de concorrentes (preços, serviços)
Automação de portais públicos

📝 Notas de Estudo

Scrapy + MongoDB

Scrapy é um framework completo (não só uma lib)
Spiders, Items, Pipelines — arquitetura robusta
MongoDB como storage: schema-free, ideal para dados semi-estruturados
Middleware para rate limiting, retry, proxies

Selenium

Necessário para SPAs e sites com autenticação JS
Headless mode para servidores
WebDriver + BeautifulSoup = combinação poderosa
Cuidado: mais lento que requests/Scrapy puro

Boas Práticas (aprendido)

Sempre usar robots.txt check
Rate limiting (time.sleep, middleware)
Rotação de User-Agent
Cache de requisições (evitar banimento)
Logging estruturado

✅ Progresso

Twitter Data Mining
Scrapy + MongoDB
Selenium WebDriver
BeautifulSoup