lunes, 18 de febrero de 2019

Interactuando con internet (II): Extraer datos de tablas web

Ya hemos visto en un artículo anterior (Enlace) como identificar objetos/elementos de una página web y sobre todo como interactuar con ellos, pero algo de lo que no hablamos fue de cómo extraer datos de por ejemplo las tablas que no es difícil encontrar en ellas.

Por supuesto que cuando hablamos de tablas de una página web lo primero que probablemente se nos viene a la cabeza es usar la herramienta de Excel “Obtener datos externos”, que nos permite elegir las tablas que identifica en dicha web e importarlas a nuestra hoja de Excel. En muchos casos la página quizá tenga usuario y contraseña, pero la herramienta no permite visualizar la web y sus campos, así como ingresar esos datos y seguir navegando hasta que cargue la página con las tablas; una vez que ocurre eso elegimos la tabla que deseemos y listo, tendremos los datos en nuestra hoja de Excel.

:

Es muy probable que queramos que esto sea automático y para ello podemos por supuesto usar VBA. Esto puede lograrse usando el objeto “QueryTable” y obteniendo así los datos de la web deseada a través de macros y de tener usuario y clave, podremos usar su propiedad “PostText” para “enviarlos” y poder seguir navegando. La desventaja de este método (con VBA o no), es que nos importa los datos completos de la tabla, no hay forma de indicar que sean solo algunas filas y/o columnas. Entonces ¿cuál es la solución?.

La forma que voy a sugerir en esta ocasión es trabajar directamente sobre los objetos/elementos que en las webs está definidos por la etiqueta “Table”. Para eso usaremos el método “getElementsByTagName” y debemos recordar/saber también que los índices de las tablas de una web comienzan en cero (0). Aprovecharemos que la Universidad de Valencia (España) tiene una web con varias tablas de ejemplo: Enlace

En esta ocasión no solo usaremos el objeto “Internet Explorer” sino que también haremos lo propio con objetos HTMLTable y HTMLDocument. Para ello lo primero será activar las referencias a “Microsoft HTML Object Library”, en seguida vamos a declarar tres variables

Dim ie As Object
Dim doc As HTMLDocument
Dim htmTable As HTMLTable  

La primera es para nuestro objeto “Internet Explorer”, la segunda es para hacer referencia a la propiedad “Document” (Obtiene, a su vez, el objeto de la web activa) de dicho objeto y la tercera hará referencia a la etiqueta “Table”, es decir a la tabla o tablas de las que extraeremos los datos. Dicho eso, y suponiendo que queremos los datos de la primera tabla de la web de ejemplo, agregaremos estas líneas:

Set ie = CreateObject("InternetExplorer.Application")
ie.Navigate "https://www.uv.es/jac/guia/tablaeje.htm"
Do: DoEvents: Loop Until ie.ReadyState = 4 
Set doc = ie.Document 
Set htmTable = doc.getElementsByTagName("Table")(0) 

Hasta ese momento ya estamos conectados a la tabla, pero para extraer los datos necesitamos saber algunas cosas como por ejemplo que dichas tablas tienen una colección “Rows” (filas) y estás a su vez tienen la propiedad “Lenght” que retorna el número de elementos de la colección correspondiente. Entonces, para obtener el número de filas de la tabla usaremos lo siguiente:

htmTable.Rows.Length

Del mismo modo, para saber cuántas celdas /columnas tiene una fila, usaremos la colección “Cells” que tienen dichas filas y podemos nuevamente usar la propiedad “Lenght”. Ah, no olvidar que, según su índice, la primera fila es la cero (0), entonces para saber/obtener el número de celdas/columnas, usaremos lo siguiente:

htmTable.Rows(0).Cells.Length

Para obtener el valor de las celdas usaremos la propiedad “InnerText”. Por ejemplo, en la misma tabla para obtener el valor de la primera celda de la fila superior (en este caso la letra “A”):

htmTable.Rows(0).Cells(0).innerText

Agreguemos todo en la macro de este modo:

Sub tablaenWeb()

Dim ie As Object 
Dim htmTable As HTMLTable 
Dim doc As HTMLDocument 

Set ie = CreateObject("InternetExplorer.Application") 
ie.Navigate "https://www.uv.es/jac/guia/tablaeje.htm" 
Do: DoEvents: Loop Until ie.ReadyState = 4 

Set doc = ie.Document 
Set htmTable = doc.getElementsByTagName("Table")(0) 

MsgBox "La primera tabla tiene " & htmTable.Rows.Length & " filas" 
MsgBox "Además, su primera fila tiene " & htmTable.Rows(0).Cells.Length & " columnas" 
MsgBox "Y la primera celda de la fila superior tiene el siguiente valor en ella " & htmTable.Rows(0).Cells(0).innerText 

ie.Visible = True 

Set ie = Nothing: Set doc = Nothing: Set htmTable = Nothing 

End Sub 

Ahora vamos a usar la decima tabla de la web (índice 9) para extraer sus datos y llevarlos a nuestra hoja. Ya con las colecciones mencionadas bastará colocar todo en bucles:

Sub tablaenWeb() 
Dim ie As Object 
Dim htmTable As HTMLTable 
Dim doc As HTMLDocument 
Dim nFilas As Integer, nColumnas As Integer, x As Integer, y As Integer 

Set ie = CreateObject("InternetExplorer.Application") 

ie.Navigate "https://www.uv.es/jac/guia/tablaeje.htm" 
Do: DoEvents: Loop Until ie.ReadyState = 4 

Set doc = ie.Document 
Set htmTable = doc.getElementsByTagName("Table")(9) 
Let nFilas = htmTable.Rows.Length 
Let nColumnas = htmTable.Rows(0).Cells.Length 

For x = 1 To nFilas
     For y = 1 To nColumnas
         Cells(x, y).Value = htmTable.Rows(x - 1).Cells(y - 1).innerText
     Next y 
Next x 

ie.Visible = True 

Set ie = Nothing: Set doc = Nothing: Set htmTable = Nothing 

End Sub 
Esto último, sobre todo, creo yo, será útil cuando no se sabe la cantidad de filas y columnas de una tabla, sobre todo en las webs de consulta de datos. Y eso es todo por hoy.

Abraham Valencia

No hay comentarios.:

Publicar un comentario