¿Cuáles son los ejes importantes de los programas de los candidatos a gobernadores en la RM?
A pocos días de la segunda vuelta de las elecciones de gobernadores, se hizo un análisis de datos de los programas de los dos candidatos que se enfrentan este fin de semana en la Región Metropolitana: Claudio Orrego (DC) y Karina Oliva (Comunes).
Se recolectaron todas las palabras de los dos programas, y se filtraron las palabras más repetidas, luego representadas bajo la forma de una sopa de letras.
Hoy quisimos hablar un poco de Web Scraping. ¿De qué se trata?
El Web Scraping agrupa los métodos de extracción de datos en la web:
Los sitios web tienen mucha información relevante. A veces, esta puede ser exportada directamente como Excel .xlsx, un archivo separado por comas .csv u otras extensiones comunes. Como ejemplo, mencionamos a Our World In Data, que está hecho para ser de uso simple. En un par de clics, uno puede generar distintas visualizaciones y acceder a los datos en varios formatos.
Otras veces, se ponen a disposición APIs, que permiten recuperar la información directamente. Por ejemplo, Uber tiene una (ver ahí). Con una línea de código, uno puede enviar solicitudes “requests”, y obtener información de tráfico, de precios, entre otros.
Pero, en la mayoría de los casos, el sitio no está hecho para que uno pueda recolectar información. Ahí llega el mundo del Web Scraping.
Además, el Web Scraping está muy relacionado con el manejo de tareas repetitivas. La misma pregunta vuelve siempre: ¿Vale la pena armar código para automatizar la recuperación de datos? ¿O es mejor hacerlo manual?
La herramientas de Web Scraping se justifican cuando la recolección de datos manual requeriría demasiado recursos (tiempo, energía…). Como muchas veces, esto depende de trade-offs.
Sigamos un poco con las herramientas disponibles. Dependiendo del sitio web scrapeado, uno puede usar distintas librerías. En general, se usan librerías de Python para hacer Web Scraping (también existen librerías para Node.js).
Las librerías que más se usan son requests, selenium, beautifulsoup o scrapy. Permiten navegar en las páginas web, y recuperar la información deseada, al acceder a los elementos del html.
Si necesitas ayuda para armar este tipo de herramientas, nos puedes escribir a contacto@yachaygroup.com. Si quieres aprender a programar en Python, inscríbete a los cursos Le Wagon (contáctanos si quieres beneficiar del descuento 15% Yachay por correo, o a nuestra página Instagram).
Hemos implementado un visualizador de datos de COVID-19 para Chile. Viene acá abajo. Es dinámico, y permite ver varias métricas a nivel nacional, por región, y por comuna! Los datos se obtienen a partir del repositorio Datos COVID-19 del Ministerio de Ciencia.
Quisimos analizar la composición del PIB Chileno en el tercer trimestre de 2021. A partir de datos de la Base de Datos Estadísticos del Banco Central de Chile, obtuvimos este “Treemap” en Flourish:
Esperamos que les haya gustado este formato dinámico, realizado gracias a Flourish.