Cómo buscar archivos PDF desde el terminal con pdfgrep

Las utilidades de línea de comandos como grep y ack-grep son excelentes para buscar en archivos de texto plano patrones que coincidan con una expresión regular específica . Pero, ¿ha intentado alguna vez utilizar estas utilidades para buscar patrones en un archivo PDF? ¡Bueno, no lo hagas! No obtendrá ningún resultado ya que estas herramientas no pueden leer archivos PDF; sólo leen archivos de texto plano.

pdfgrep , como su nombre indica, es una pequeña utilidad de línea de comandos que permite buscar texto en un archivo PDF sin necesidad de abrir el archivo. Es increíblemente rápido – más rápido que la búsqueda proporcionada por prácticamente todos los visores de documentos PDF. Una gran diferencia entre grep y pdfgrep es que pdfgrep opera en páginas, mientras que grep opera en líneas. También imprime una sola línea varias veces si se encuentra más de una coincidencia en esa línea. Veamos cómo usar la herramienta exactamente.

Instalación

Para Ubuntu y otras distribuciones de Linux basadas en Ubuntu, es bastante simple:

sudo apt install pdfgrep

Para otras distribuciones, sólo tiene que proporcionar pdfgrep como entrada para el gestor de paquetes , y eso debería instalarlo. También puedes ver la página del proyecto GitLab , en caso de que quieras jugar con el código.

La ejecución de prueba

Ahora que tiene la herramienta instalada, vamos a hacer una prueba. El comando pdfgrep toma este formato:

pdfgrep[OPTION...] PATTERN[FILE...]

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>»>>>>>>>>>>>>>>>i

OPTION es una lista de atributos adicionales para dar al comando como -i o –ignore-case, que ignoran la distinción entre el patrón regular especificado y el que coincide una vez del archivo.

PATTERN es sólo una expresión regular extendida.

FILE es sólo el nombre del archivo, si está en el mismo directorio de trabajo, o la ruta al archivo.

He ejecutado el comando en la documentación oficial de Python 3.6. La siguiente imagen es el resultado.

Cómo buscar archivos PDF desde el terminal con pdfgrep


Las luces rojas indican todos los lugares en los que se encontró la palabra «cola». Pasar -i como opción al comando incluye coincidencias de la palabra «Queue». Recuerde, el caso no importa cuando -i se pasa como una opción.

Extras

pdfgrep tiene un buen número de opciones interesantes para usar. Sin embargo, sólo cubriré unos pocos aquí.

-c o –count: suprime la salida normal de los partidos. En lugar de mostrar la salida larga de las coincidencias, sólo muestra un valor que representa el número de veces que la palabra se encontró en el archivo
.

-p o –page-count: esta opción imprime los números de página de las coincidencias y el número de ocurrencias del patrón en la página

-m o –max-count[number]: especifica el número máximo de coincidencias. Esto significa que cuando se alcanza el número de coincidencias, el comando deja de leer el archivo.
La lista completa de opciones soportadas puede encontrarse en las páginas de manual o en el pdfgrep online documenation . No olvide que pdfgrep puede buscar múltiples archivos al mismo tiempo, en caso de que esté trabajando con algunos archivos masivos. El color predeterminado del resalte de la coincidencia se puede cambiar modificando la variable de entorno GREP_COLORS.

Conclusión

La próxima vez que piense en abrir un archivo PDF para buscar cualquier cosa, piense en usar pdfgrep. La herramienta es muy útil y le ahorrará tiempo.

Fuente: este post proviene de Vida Tecno, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
Creado:
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

Etiquetas: Linux

Recomendamos

Relacionado

Linux

Grep es un pequeño programa de Unix para encontrar patrones coincidentes. Iniciado como un programa Unix, se puede encontrar tanto en Linux como en Mac y BSD. Puede leer casi cualquier texto, lo que significa que puede leer las entradas de otros comandos, o puede abrir y revisar los archivos directamente. Grep es increíblemente útil, especialmente para mirar a través de directorios desde la línea ...

pdf archivos pdf crear pdf ...

PDF es un tipo de documento desarrollado por Adobe Systems y es un derivado de PostScript. La popularidad de PDF se debe a una variedad de razones: - Los archivos PDF ofrecen un tamaño de archivo más pequeño. - Son independientes de la plataforma, lo que permite su uso en varios sistemas informáticos. - Si se crea correctamente, un archivo PDF contendrá todos los gráficos y fuentes utilizados en u ...

general aplicaciones pdf ...

Convierte a Word tus archivos PDF escaneados. En esta nota queremos hablarte de una herramienta que estamos seguros te será de mucho utilidad, se trata de la aplicación web a2dPro que forma parte de los servicios en línea de Investintech una empresa dedica a brindar soluciones en conversión de archivos PDF. Esta aplicación web es una especie de demo de una solución de pago que ofrece Investintech ...

Linux

Hay muchas soluciones gráficas para tratar con archivos comprimidos (o archivos comprimidos) en Linux, pero ninguna de ellas supera a la línea de comandos por su velocidad y versatilidad. Lo único malo de esto es que hay tantos tipos diferentes de archivos, cada uno con su propia sintaxis y propiedades específicas, y puede llegar a ser muy difícil tratar con todos ellos sin un poco de preparación. ...

Linux

La gente siempre tiene la impresión de que GNU/Linux es difícil de usar. La mayoría de la gente sigue pensando que GNU/Linux es igual que DOS, donde tienes que navegar escribiendo comandos. Lo bueno es que la mayoría de las distribuciones hoy en día vienen con una interfaz y aplicaciones muy bonitas, y no es necesario entender ninguna línea de comandos para usar Linux. Por otro lado, tener algún c ...

Linux

Como todo usuario de Linux seguramente sabe, grep es una herramienta fiable de línea de comandos para la búsqueda de archivos en profundidad. Sin embargo, muchos principiantes lo evitan porque no les gusta la terminal. Las aplicaciones presentadas en este artículo no son exactamente alternativas a grep porque en algunos escenarios de uso grep es verdaderamente irremplazable. En su lugar, llamémosl ...

Linux

Llega un momento en que cada usuario serio de Linux necesita hacer algo más que leer un archivo PDF. Ese algo podría ser la combinación de varios PDF en un archivo, la división de un archivo en páginas individuales o la extracción de un archivo adjunto de un PDF. Los usuarios de Windows lo tienen fácil. Si están dispuestos a desprenderse de unos pocos cientos de dólares, pueden utilizar Adobe Acro ...

Mac

¿Cuántos archivos que descargaste de Internet terminaron siendo archivos zip? Lo sé, muchos de ellos. Los archivos ZIP permiten a los usuarios poner un número de archivos en un solo archivo que, cuando se extrae, devuelve todos los archivos comprimidos al usuario. Mac viene con una función incorporada para crear y extraer archivos ZIP, eliminando así la necesidad de descargar una herramienta de co ...

Linux

Hay un montón de extensiones que puede instalar que le permiten crear archivos PDF para cualquier página web que encuentre. Bueno, si está usando Linux (particularmente Ubuntu), esta función de creación de PDF ya está incorporada en su sistema y puede usarla sin necesidad de instalar ninguna otra extensión o aplicación. En Ubuntu, independientemente de los navegadores o aplicaciones que utilice, s ...

Linux

Renombrar archivos no es una operación particularmente avanzada; siempre y cuando se haga en un pequeño número de archivos, por lo general no requiere herramientas especiales. Sin embargo, cuando hay toda una carpeta de fotos de las vacaciones del año pasado esperando ser renombradas, sería prudente considerar algunos trucos o aplicaciones para ahorrar tiempo. Hay dos enfoques generales para renom ...