Extracción de datos
Contenido
Extracción de datos¶
Con pandas reaizamos una adquisición de datos de un archivo que directamente estaba disposible en la web. Los datos pueden estar en diferentes fuentes
archivos locales manipulables (xls, csv, tsv, dta, docs, txt, etc.)
archivos remotos manipulables (url de repositorios)
Acceso mediante una API (Application Programming Interface, kaggle, etc.)
En páginas web (Web Scraping)
archivos no manipulables (por ejemplo: pdf)
Bases de datos
En particular, se tomará un ejemplo sencillo de Web Scraping, para lo cual se hablará un poco sobre expresiones regulares, para ello es necesario tener instalado los modulos re, request, y beautifulsoup4. El módulo re es estándar
pip install requests
conda install -c anaconda requests
pip install beautifulsoup4
conda install -c anaconda beautifulsoup4
Como ejemplo adicional se puede revisar