Así puedes importar directamente desde Microsoft Excel los datos de tablas insertadas en un archivo PDF

Así puedes importar directamente desde Microsoft Excel los datos de tablas insertadas en un archivo PDF
Sin comentarios
HOY SE HABLA DE

Microsoft anunció hace ahora casi un año una actualización de su suite ofimática Microsoft Office, que en el caso de Excel se tradujo en la incorporación de una nueva función que hasta entonces había sido una de las más demandadas por sus usuarios: la opción de extraer datos directamente desde documentos PDF, e importarlos a documentos Excel.

La demanda de esta función en particular se debía al hecho de que el formato PDF es el más usado por empresas e instituciones públicas para difundir informes, estudios y notas de prensa, que contienen en muchos casos datos relevantes dispuestos en tablas…

…sin embargo, recurrir al simple copia y pega en estos casos suele resultar inútil, puesto que el formato y el orden de los datos de dichas tablas no se mantiene al pegarlo en otro documento.

Hacía falta una herramienta capaz de interpretar y gestionar dichos datos como tablas y —aunque ya existían herramientas profesionales como Tabula— poder realizar esta tarea directamente desde nuestra hoja de cálculo era un gran paso para la comodidad del usuario.

De modo que vamos a repasar cómo podemos lograr esto en unos pocos pasos.

Pasos a seguir

Abrimos un documento en blanco de Microsoft Excel, y clicamos en la pestaña 'Datos' de la ventana. Tras eso aparecerá una nueva barra de herramientas, cuyo primer icono abre un menú desplegable. Sólo tenemos que clicarlo y seguir esta ruta: 'Obtener datos' > 'Desde un archivo' > 'Desde PDF'.

Excel Pdf 1

Se nos abrirá la típica ventana del Explorador desde donde seleccionaremos el PDF que queremos usar como fuente de los datos. Una vez hecho eso, se mostrará un mensaje indicando que se 'está estableciendo conexión' con el PDF en cuestión y analizando los datos. La duración de este último proceso puede variar dependiendo del tamaño del PDF como de la complejidad de los datos que alberga.

En todo caso, una vez completado ese paso, nos aparecerá una ventana muy similar a la siguiente:

Excel Pdf 2

Esta ventana muestra en su barra lateral las posibles fuentes de datos del documento y, a la derecha, una previsualización de los mismos. Habrá, como mínimo, tantas fuentes de datos como tablas diferentes detecte y —como en el caso del ejemplo— puede ocurrir que se muestren distintas interpretaciones de los mismos datos como fuentes distintas.

Escogemos la que muestre los datos que buscamos de la forma más exacta posible (casi siempre requerirá reajustes posteriores, como veremos) y clicamos en 'Transformar datos'.

A continuación, los datos elegidos se cargarán en una nueva ventana del Editor de Power Query, que nos permitirá un manejo avanzado de los mismos con respecto a las habituales opciones de Excel:

Excel Pdf 3

Podemos, si lo estimamos oportuno, modificar la tabla desde este editor (en la imagen siguiente, por ejemplo, hemos borrado las dos columnas de datos nulos). En cualquier caso, lo importante es conocer el siguiente paso: hacer clic en 'Cerrar y guardar' para remitir todos estos datos a la ventana principal de Excel:

Excel Pdf 4

Una vez hecho eso, veremos los datos —ya formateados— en nuestra interfaz de toda la vida para seguir trabajando con los mismos. Como podemos comprobar, ciertos aspectos (como las cabeceras extraídas) aún requieren un pequeño reajuste.

Excel Pdf 5

Si lo comparamos con el original, podremos ver que la extracción y formateado de datos no son perfectos, pero en cualquier caso no cabe duda de que esta nueva función nos ahorrará muchísimo tiempo con respecto a las opciones de las que disponíamos hace sólo un año:

Original
Tabla original del documento PDF usado como ejemplo.
Temas
Inicio