Files
project-based-learning/study/python-web-scraping.md
T
2026-05-30 23:59:33 +00:00

56 lines
1.8 KiB
Markdown

# Python: Web Scraping — Estudo
_Fonte: project-based-learning_
---
## 📚 Recursos
| Tutorial | Stack | Nível |
|----------|-------|-------|
| [Mining Twitter Data](https://marcobonzanini.com/2015/03/02/mining-twitter-data-with-python-part-1/) | Python, Twitter API | Iniciante |
| [Scrapy + MongoDB](https://realpython.com/blog/python/web-scraping-with-scrapy-and-mongodb/) | Scrapy, MongoDB | Intermediário |
| [Selenium WebDriver](http://www.byperth.com/2018/04/25/guide-web-scraping-101-what-you-need-to-know-and-how-to-scrape-with-python-selenium-webdriver/) | Selenium | Intermediário |
| [BeautifulSoup](https://medium.com/@nishantsahoo.in/which-movie-should-i-watch-5c83a3c0f5b1) | BeautifulSoup | Iniciante |
## 🎯 Aplicações para Mundo Telecom
1. **Scraping de editais** (já fazemos com Python, mas podemos evoluir)
- Usar Scrapy + MongoDB em vez de requests simples
- Adicionar Selenium para sites com JS pesado
2. **Monitoramento de concorrentes** (preços, serviços)
3. **Automação de portais públicos**
## 📝 Notas de Estudo
### Scrapy + MongoDB
- Scrapy é um framework completo (não só uma lib)
- Spiders, Items, Pipelines — arquitetura robusta
- MongoDB como storage: schema-free, ideal para dados semi-estruturados
- Middleware para rate limiting, retry, proxies
### Selenium
- Necessário para SPAs e sites com autenticação JS
- Headless mode para servidores
- WebDriver + BeautifulSoup = combinação poderosa
- Cuidado: mais lento que requests/Scrapy puro
### Boas Práticas (aprendido)
- Sempre usar `robots.txt` check
- Rate limiting (time.sleep, middleware)
- Rotação de User-Agent
- Cache de requisições (evitar banimento)
- Logging estruturado
---
## ✅ Progresso
- [ ] Twitter Data Mining
- [ ] Scrapy + MongoDB
- [ ] Selenium WebDriver
- [ ] BeautifulSoup