En muchas ocasiones recibimos un documento PDF con tablas y necesitamos extraer las tablas en un documento editable. Por ese motivo, en este tutorial te mostraremos como hacer esta tarea con el programa Bytescout PDF Multitool. Gracias a la utilidad podremos detectar las tablas de una página en particular o bien extraer todas las tablas del documento, para luego exportarlas en formato TXT, CSV, XML, JSON, o XLS.
Una vez descargado el programa desde su página oficial, solo tendrás que abrir el archivo PDF con la aplicación, que también es un visualizador, y podrás ver archivos con una o más páginas.
Desde el menú de la izquierda tendrás que pinchar en Detect tables y automáticamente se abrirá una ventana que te indicará las tablas detectadas. Estas tablas podrán ser manipuladas (número de filas y columnas y establecer el borde y el ratio, entre otras funciones).
En este punto tendrás que pinchar en el botón Detect next tables. Una vez detectadas solo te resta extraerlas y exportarlas pinchando en Proceed to extraction (selecciona el formato de salida).
Desde la siguiente ventana podrás personalizar las opciones de mantener el formato de texto, los espacios, espacio entre columnas, extraer la página que se visualiza o todas, o bien determinar las páginas que quieres extraer las tablas.
Para finalizar el proceso solo te resta pinchar en el botón para exportar las tablas en el formato seleccionado y guardarlo en tu ordenador o bien copiar la detección en el portapapeles.
Con ByteScout PDF MULTITOOL también podrás:
- Convertir archivos PDF a CSV, XML, XLS, XLSX y HTML
- Leer el texto de documentos PDF escaneados
- Convertir un PDF con imágenes escaneadas en archivos de texto buscables
- Dividir, combinar y/o extraer páginas de un PDF
- Extraer archivos de un PDF
- Extraer información de formularios XFA, XFDF PDF
- Entre otras cosas.
Realmente la plataforma nos ofrece una opción sencilla y automática para poder extraer las tablas de una o varias páginas de un documento PDF. Otro punto a favor es la gran cantidad de formatos de salidas. En nuestras pruebas el entorno ha funcionado a la perfección y no nos ha dado ningún problema, aunque más de una vez tendrás que meter mano para acabar el proceso con éxito. Bytescout PDF Multitool es un programa gratuito que se encuentra disponible para sistemas operativos Windows.