Vida Tecno Idea guardada 0 veces
Sé la primera persona en valorar esta idea Valorar

Cómo buscar archivos PDF desde el terminal con pdfgrep

Las utilidades de línea de comandos como grep y ack-grep son excelentes para buscar en archivos de texto plano patrones que coincidan con una expresión regular específica . Pero, ¿ha intentado alguna vez utilizar estas utilidades para buscar patrones en un archivo PDF? ¡Bueno, no lo hagas! No obtendrá ningún resultado ya que estas herramientas no pueden leer archivos PDF; sólo leen archivos de texto plano.

pdfgrep , como su nombre indica, es una pequeña utilidad de línea de comandos que permite buscar texto en un archivo PDF sin necesidad de abrir el archivo. Es increíblemente rápido – más rápido que la búsqueda proporcionada por prácticamente todos los visores de documentos PDF. Una gran diferencia entre grep y pdfgrep es que pdfgrep opera en páginas, mientras que grep opera en líneas. También imprime una sola línea varias veces si se encuentra más de una coincidencia en esa línea. Veamos cómo usar la herramienta exactamente.

Instalación

Para Ubuntu y otras distribuciones de Linux basadas en Ubuntu, es bastante simple:

sudo apt install pdfgrep

Para otras distribuciones, sólo tiene que proporcionar pdfgrep como entrada para el gestor de paquetes , y eso debería instalarlo. También puedes ver la página del proyecto GitLab , en caso de que quieras jugar con el código.

La ejecución de prueba

Ahora que tiene la herramienta instalada, vamos a hacer una prueba. El comando pdfgrep toma este formato:

pdfgrep[OPTION...] PATTERN[FILE...]

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>»>>>>>>>>>>>>>>>i

OPTION es una lista de atributos adicionales para dar al comando como -i o –ignore-case, que ignoran la distinción entre el patrón regular especificado y el que coincide una vez del archivo.

PATTERN es sólo una expresión regular extendida.

FILE es sólo el nombre del archivo, si está en el mismo directorio de trabajo, o la ruta al archivo.

He ejecutado el comando en la documentación oficial de Python 3.6. La siguiente imagen es el resultado.

Cómo buscar archivos PDF desde el terminal con pdfgrep


Las luces rojas indican todos los lugares en los que se encontró la palabra «cola». Pasar -i como opción al comando incluye coincidencias de la palabra «Queue». Recuerde, el caso no importa cuando -i se pasa como una opción.

Extras

pdfgrep tiene un buen número de opciones interesantes para usar. Sin embargo, sólo cubriré unos pocos aquí.

-c o –count: suprime la salida normal de los partidos. En lugar de mostrar la salida larga de las coincidencias, sólo muestra un valor que representa el número de veces que la palabra se encontró en el archivo
.

-p o –page-count: esta opción imprime los números de página de las coincidencias y el número de ocurrencias del patrón en la página

-m o –max-count[number]: especifica el número máximo de coincidencias. Esto significa que cuando se alcanza el número de coincidencias, el comando deja de leer el archivo.
La lista completa de opciones soportadas puede encontrarse en las páginas de manual o en el pdfgrep online documenation . No olvide que pdfgrep puede buscar múltiples archivos al mismo tiempo, en caso de que esté trabajando con algunos archivos masivos. El color predeterminado del resalte de la coincidencia se puede cambiar modificando la variable de entorno GREP_COLORS.

Conclusión

La próxima vez que piense en abrir un archivo PDF para buscar cualquier cosa, piense en usar pdfgrep. La herramienta es muy útil y le ahorrará tiempo.

Fuente: este post proviene de Vida Tecno, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

Etiquetas: Linux

Recomendamos

Relacionado

redes sociales

Unir Pdf

Los documentos PDF son muy comunes y generalmente formales tanto para el trabajo como para los asuntos personales, pero en muchos casos, las personas necesitan combinar el contenido de dos o más archivos PDF.  Cómo combinar archivos PDF gratis en Mac y Windows La pregunta aquí es, ¿cómo combinar dos archivos PDF en uno? O, además, ¿cómo combinar partes de varios documentos PDF? En este tutorial, a ...

pdf archivos pdf crear pdf ...

Cómo crear archivos PDF

PDF es un tipo de documento desarrollado por Adobe Systems y es un derivado de PostScript. La popularidad de PDF se debe a una variedad de razones: - Los archivos PDF ofrecen un tamaño de archivo más pequeño. - Son independientes de la plataforma, lo que permite su uso en varios sistemas informáticos. - Si se crea correctamente, un archivo PDF contendrá todos los gráficos y fuentes utilizados en u ...

Linux

Cómo manipular PDFs con PDF Chain[Linux]

Llega un momento en que cada usuario serio de Linux necesita hacer algo más que leer un archivo PDF. Ese algo podría ser la combinación de varios PDF en un archivo, la división de un archivo en páginas individuales o la extracción de un archivo adjunto de un PDF. Los usuarios de Windows lo tienen fácil. Si están dispuestos a desprenderse de unos pocos cientos de dólares, pueden utilizar Adobe Acro ...

general aplicaciones pdf ...

Convierte archivos PDF escaneados a Word gratis.

Convierte a Word tus archivos PDF escaneados. En esta nota queremos hablarte de una herramienta que estamos seguros te será de mucho utilidad, se trata de la aplicación web a2dPro que forma parte de los servicios en línea de Investintech una empresa dedica a brindar soluciones en conversión de archivos PDF. Esta aplicación web es una especie de demo de una solución de pago que ofrece Investintech ...

Linux

¿Qué es GREP en Linux y cómo se usa?

Grep es un pequeño programa de Unix para encontrar patrones coincidentes. Iniciado como un programa Unix, se puede encontrar tanto en Linux como en Mac y BSD. Puede leer casi cualquier texto, lo que significa que puede leer las entradas de otros comandos, o puede abrir y revisar los archivos directamente. Grep es increíblemente útil, especialmente para mirar a través de directorios desde la línea ...

Linux

Cómo tratar con archivos desde la línea de comandos[Linux]

Hay muchas soluciones gráficas para tratar con archivos comprimidos (o archivos comprimidos) en Linux, pero ninguna de ellas supera a la línea de comandos por su velocidad y versatilidad. Lo único malo de esto es que hay tantos tipos diferentes de archivos, cada uno con su propia sintaxis y propiedades específicas, y puede llegar a ser muy difícil tratar con todos ellos sin un poco de preparación. ...

Mac

Cómo comprimir y extraer archivos en Mac

¿Cuántos archivos que descargaste de Internet terminaron siendo archivos zip? Lo sé, muchos de ellos. Los archivos ZIP permiten a los usuarios poner un número de archivos en un solo archivo que, cuando se extrae, devuelve todos los archivos comprimidos al usuario. Mac viene con una función incorporada para crear y extraer archivos ZIP, eliminando así la necesidad de descargar una herramienta de co ...

Linux

5 Herramientas Grep para Linux

Como todo usuario de Linux seguramente sabe, grep es una herramienta fiable de línea de comandos para la búsqueda de archivos en profundidad. Sin embargo, muchos principiantes lo evitan porque no les gusta la terminal. Las aplicaciones presentadas en este artículo no son exactamente alternativas a grep porque en algunos escenarios de uso grep es verdaderamente irremplazable. En su lugar, llamémosl ...

Linux

Cómo ocultar fácilmente archivos y carpetas en Linux

¿Alguna vez ha querido ocultar un archivo o una carpeta en su sistema de archivos Linux pero no tiene idea de cómo hacerlo? No se preocupe, esto no es tan complicado como parece y se puede hacer con bastante rapidez y eficiencia. En esta guía repasaremos las formas más sencillas de ocultar archivos y carpetas en Linux. Además de ocultar cosas, veremos cómo revelar estos elementos ocultos tanto en ...

Tutoriales cron jobs

Tutorial de Cron Jobs para principiantes

Cron es una de las utilidades más útiles que puedes encontrar en cualquier sistema operativo tipo Unix. Se usa para programar comandos en un momento específico. Estos comandos o tareas programadas se conocen como “trabajos de cron”. Cron se utiliza generalmente para ejecutar copias de seguridad programadas, supervisar el espacio en disco, eliminar archivos (por ejemplo, archivos de reg ...