16 octubre, 2008

De una tabla de la Wikipedia a un mapa en Google Maps

Me he quedado un poco noqueado con el procedimiento realizado en Data Scraping Wikipedia with Google Spreadsheets para convertir una tabla en una página de la Wikipedia en un completo mapa con las ciudades marcadas y su población. Paso a detallar:

En esta página de la Wikipedia (List_of_largest_United_Kingdom_settlements_by_population) aparece una tabla con las mayores agrupaciones de población del Reino Unido.



Gracias a la función =importHTML(url,"table",n) de Google Spreadsheet (la hoja de cálculo online de Google) es posible obtener esa información tabular. El primer parámetro indica la URL de la página de la que queremos extraer la información, el segundo indica que queremos una tabla y el tercero el orden de la tabla deseada dentro de la página:




=ImportHtml(”http://en.wikipedia.org/wiki/List_of_largest_United_Kingdom_settlements_by_population”,”table”,1)



Y automágicamente:



Google ya cuenta con herramientas para trabajar con esos datos y mostrar alguna gráfica:



Pero la potencia viene de exportar la información:




¿Más opciones de publicación?



El CSV es interesante:



A Yahoo! Pipes le encantan los CSV.





Quitamos esos asteriscos que molestan y pedimos datos desde la fila 2 porque ¿quién quiere esa cabecera?



Ahora podemos... crear un feed con los datos... o extraer los datos de localización...



Esto tiene buena pinta...



Aprovechamos aún más opciones de exportación de Pipes, como ese KML que Google Maps pide a gritos:





Recapitulando, hemos extraído información de una página de la wikipedia y la hemos introducido en una hoja de cálculo de Google Spreadsheet usando su función =importHTML, hemos publicado unas cuantas filas como CSV, que hemos aprovechado para alimentar un pipe (tubería) de Yahoo! Pipes para acabar generando un archivo KML y que finalmente nos ha servido para mostrar los datos en un mapa.

Mi conclusión: cuesta más pensar en obtener la información y presentarla de una forma que en realizar el proceso en sí.

Publicar un comentario en la entrada

Últimos links en indiza.com