Add study notes: 22 areas documented by Diego IA
This commit is contained in:
@@ -0,0 +1,55 @@
|
||||
# Python: Web Scraping — Estudo
|
||||
|
||||
_Fonte: project-based-learning_
|
||||
|
||||
---
|
||||
|
||||
## 📚 Recursos
|
||||
|
||||
| Tutorial | Stack | Nível |
|
||||
|----------|-------|-------|
|
||||
| [Mining Twitter Data](https://marcobonzanini.com/2015/03/02/mining-twitter-data-with-python-part-1/) | Python, Twitter API | Iniciante |
|
||||
| [Scrapy + MongoDB](https://realpython.com/blog/python/web-scraping-with-scrapy-and-mongodb/) | Scrapy, MongoDB | Intermediário |
|
||||
| [Selenium WebDriver](http://www.byperth.com/2018/04/25/guide-web-scraping-101-what-you-need-to-know-and-how-to-scrape-with-python-selenium-webdriver/) | Selenium | Intermediário |
|
||||
| [BeautifulSoup](https://medium.com/@nishantsahoo.in/which-movie-should-i-watch-5c83a3c0f5b1) | BeautifulSoup | Iniciante |
|
||||
|
||||
## 🎯 Aplicações para Mundo Telecom
|
||||
|
||||
1. **Scraping de editais** (já fazemos com Python, mas podemos evoluir)
|
||||
- Usar Scrapy + MongoDB em vez de requests simples
|
||||
- Adicionar Selenium para sites com JS pesado
|
||||
2. **Monitoramento de concorrentes** (preços, serviços)
|
||||
3. **Automação de portais públicos**
|
||||
|
||||
## 📝 Notas de Estudo
|
||||
|
||||
### Scrapy + MongoDB
|
||||
|
||||
- Scrapy é um framework completo (não só uma lib)
|
||||
- Spiders, Items, Pipelines — arquitetura robusta
|
||||
- MongoDB como storage: schema-free, ideal para dados semi-estruturados
|
||||
- Middleware para rate limiting, retry, proxies
|
||||
|
||||
### Selenium
|
||||
|
||||
- Necessário para SPAs e sites com autenticação JS
|
||||
- Headless mode para servidores
|
||||
- WebDriver + BeautifulSoup = combinação poderosa
|
||||
- Cuidado: mais lento que requests/Scrapy puro
|
||||
|
||||
### Boas Práticas (aprendido)
|
||||
|
||||
- Sempre usar `robots.txt` check
|
||||
- Rate limiting (time.sleep, middleware)
|
||||
- Rotação de User-Agent
|
||||
- Cache de requisições (evitar banimento)
|
||||
- Logging estruturado
|
||||
|
||||
---
|
||||
|
||||
## ✅ Progresso
|
||||
|
||||
- [ ] Twitter Data Mining
|
||||
- [ ] Scrapy + MongoDB
|
||||
- [ ] Selenium WebDriver
|
||||
- [ ] BeautifulSoup
|
||||
Reference in New Issue
Block a user