Files
2026-05-30 23:59:33 +00:00

1.8 KiB

Python: Web Scraping — Estudo

Fonte: project-based-learning


📚 Recursos

Tutorial Stack Nível
Mining Twitter Data Python, Twitter API Iniciante
Scrapy + MongoDB Scrapy, MongoDB Intermediário
Selenium WebDriver Selenium Intermediário
BeautifulSoup BeautifulSoup Iniciante

🎯 Aplicações para Mundo Telecom

  1. Scraping de editais (já fazemos com Python, mas podemos evoluir)
    • Usar Scrapy + MongoDB em vez de requests simples
    • Adicionar Selenium para sites com JS pesado
  2. Monitoramento de concorrentes (preços, serviços)
  3. Automação de portais públicos

📝 Notas de Estudo

Scrapy + MongoDB

  • Scrapy é um framework completo (não só uma lib)
  • Spiders, Items, Pipelines — arquitetura robusta
  • MongoDB como storage: schema-free, ideal para dados semi-estruturados
  • Middleware para rate limiting, retry, proxies

Selenium

  • Necessário para SPAs e sites com autenticação JS
  • Headless mode para servidores
  • WebDriver + BeautifulSoup = combinação poderosa
  • Cuidado: mais lento que requests/Scrapy puro

Boas Práticas (aprendido)

  • Sempre usar robots.txt check
  • Rate limiting (time.sleep, middleware)
  • Rotação de User-Agent
  • Cache de requisições (evitar banimento)
  • Logging estruturado

Progresso

  • Twitter Data Mining
  • Scrapy + MongoDB
  • Selenium WebDriver
  • BeautifulSoup