1.8 KiB
1.8 KiB
Python: Web Scraping — Estudo
Fonte: project-based-learning
📚 Recursos
| Tutorial | Stack | Nível |
|---|---|---|
| Mining Twitter Data | Python, Twitter API | Iniciante |
| Scrapy + MongoDB | Scrapy, MongoDB | Intermediário |
| Selenium WebDriver | Selenium | Intermediário |
| BeautifulSoup | BeautifulSoup | Iniciante |
🎯 Aplicações para Mundo Telecom
- Scraping de editais (já fazemos com Python, mas podemos evoluir)
- Usar Scrapy + MongoDB em vez de requests simples
- Adicionar Selenium para sites com JS pesado
- Monitoramento de concorrentes (preços, serviços)
- Automação de portais públicos
📝 Notas de Estudo
Scrapy + MongoDB
- Scrapy é um framework completo (não só uma lib)
- Spiders, Items, Pipelines — arquitetura robusta
- MongoDB como storage: schema-free, ideal para dados semi-estruturados
- Middleware para rate limiting, retry, proxies
Selenium
- Necessário para SPAs e sites com autenticação JS
- Headless mode para servidores
- WebDriver + BeautifulSoup = combinação poderosa
- Cuidado: mais lento que requests/Scrapy puro
Boas Práticas (aprendido)
- Sempre usar
robots.txtcheck - Rate limiting (time.sleep, middleware)
- Rotação de User-Agent
- Cache de requisições (evitar banimento)
- Logging estruturado
✅ Progresso
- Twitter Data Mining
- Scrapy + MongoDB
- Selenium WebDriver
- BeautifulSoup