PDF de carpeta, varias tablas y varias páginas

Un usuario Pregunto ✅

LFPernambuco

Hola, tengo el siguiente escenario y preguntas:

1. Carpeta con varios archivos PDF para importar

2. Cada archivo PDF tiene varias tablas -> Traté de seleccionar más de una tabla – Sin éxito

3. Cada archivo PDF puede tener de 1 a varias páginas -> Necesidad de consolidar todas las páginas con datos en 1 tabla

Soy nuevo en Power Query, así que, si alguien puede guiarme paso a paso, realmente lo agradecería

Gracias

Lucia

Watkinnc

Puede ser difícil trabajar con archivos PDF. Intento usar la misma estrategia básica cada vez que los uso. Siempre mantengo la columna PageNumber, ordenada de forma ascendente, y luego agrego una columna de índice.

Luego, para obtener todas sus columnas, y para que los valores de las columnas permanezcan en las posiciones correctas, debe ordenar las tablas en la columna de la tabla por el recuento de columnas de mayor a menor:

= Table.AddColumn (NameOfPriorStep, «ColumnCount», cada Table.ColumnCount ([TableColumn]))

Luego, ordena la columna ColumnCount en orden descendente. En su caso, también puede filtrar cualquier tabla con 0 columnas en este punto.

A continuación, duplico esta consulta y filtro solo por los valores de la tabla (a diferencia de los valores de la página). Luego filtro solo a páginas en la consulta original.

Solo ahora amplío la columna de la tabla. El siguiente paso es ordenar nuevamente, esta vez en su columna de índice. Ahora, tiene todas sus columnas, todas en las posiciones correctas (a veces, algunos caracteres especiales le causarán problemas, como viñetas), y sus páginas están en el orden correcto.

Le prometo que si sigue estos pasos iniciales cada vez que trabaja con archivos PDF en Power Query, el trabajo restante será mucho, mucho más fácil.

–Nate

Watkinnc

Puede ser difícil trabajar con archivos PDF. Intento usar la misma estrategia básica cada vez que los uso. Siempre mantengo la columna PageNumber, ordenada de forma ascendente, y luego agrego una columna de índice.

Luego, para obtener todas sus columnas, y para que los valores de las columnas permanezcan en las posiciones correctas, debe ordenar las tablas en la columna de la tabla por el recuento de columnas de mayor a menor:

= Table.AddColumn (NameOfPriorStep, «ColumnCount», cada Table.ColumnCount ([TableColumn]))

Luego, ordena la columna ColumnCount en orden descendente. En su caso, también puede filtrar cualquier tabla con 0 columnas en este punto.

A continuación, duplico esta consulta y filtro solo por los valores de la tabla (a diferencia de los valores de la página). Luego filtro solo a páginas en la consulta original.

Solo ahora amplío la columna de la tabla. El siguiente paso es ordenar nuevamente, esta vez en su columna de índice. Ahora, tiene todas sus columnas, todas en las posiciones correctas (a veces, algunos caracteres especiales le causarán problemas, como viñetas), y sus páginas están en el orden correcto.

Le prometo que si sigue estos pasos iniciales cada vez que trabaja con archivos PDF en Power Query, el trabajo restante será mucho, mucho más fácil.

–Nate

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *