Extracción de datos

Extracción de datos

Con pandas reaizamos una adquisición de datos de un archivo que directamente estaba disposible en la web. Los datos pueden estar en diferentes fuentes

  • archivos locales manipulables (xls, csv, tsv, dta, docs, txt, etc.)

  • archivos remotos manipulables (url de repositorios)

  • Acceso mediante una API (Application Programming Interface, kaggle, etc.)

  • En páginas web (Web Scraping)

  • archivos no manipulables (por ejemplo: pdf)

  • Bases de datos

En particular, se tomará un ejemplo sencillo de Web Scraping, para lo cual se hablará un poco sobre expresiones regulares, para ello es necesario tener instalado los modulos re, request, y beautifulsoup4. El módulo re es estándar

pip install requests
conda install -c anaconda requests 
pip install beautifulsoup4
conda install -c anaconda beautifulsoup4

Como ejemplo adicional se puede revisar