Vida Tecno Idea guardada 0 veces

Sé la primera persona en valorar esta idea Valorar

Cómo buscar archivos PDF desde el terminal con pdfgrep

Las utilidades de línea de comandos como grep y ack-grep son excelentes para buscar en archivos de texto plano patrones que coincidan con una expresión regular específica . Pero, ¿ha intentado alguna vez utilizar estas utilidades para buscar patrones en un archivo PDF? ¡Bueno, no lo hagas! No obtendrá ningún resultado ya que estas herramientas no pueden leer archivos PDF; sólo leen archivos de texto plano.

pdfgrep , como su nombre indica, es una pequeña utilidad de línea de comandos que permite buscar texto en un archivo PDF sin necesidad de abrir el archivo. Es increíblemente rápido – más rápido que la búsqueda proporcionada por prácticamente todos los visores de documentos PDF. Una gran diferencia entre grep y pdfgrep es que pdfgrep opera en páginas, mientras que grep opera en líneas. También imprime una sola línea varias veces si se encuentra más de una coincidencia en esa línea. Veamos cómo usar la herramienta exactamente.

Instalación

Para Ubuntu y otras distribuciones de Linux basadas en Ubuntu, es bastante simple:

sudo apt install pdfgrep

Para otras distribuciones, sólo tiene que proporcionar pdfgrep como entrada para el gestor de paquetes , y eso debería instalarlo. También puedes ver la página del proyecto GitLab , en caso de que quieras jugar con el código.

La ejecución de prueba

Ahora que tiene la herramienta instalada, vamos a hacer una prueba. El comando pdfgrep toma este formato:

pdfgrep[OPTION...] PATTERN[FILE...]

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>»>>>>>>>>>>>>>>>i

OPTION es una lista de atributos adicionales para dar al comando como -i o –ignore-case, que ignoran la distinción entre el patrón regular especificado y el que coincide una vez del archivo.

PATTERN es sólo una expresión regular extendida.

FILE es sólo el nombre del archivo, si está en el mismo directorio de trabajo, o la ruta al archivo.

He ejecutado el comando en la documentación oficial de Python 3.6. La siguiente imagen es el resultado.

Las luces rojas indican todos los lugares en los que se encontró la palabra «cola». Pasar -i como opción al comando incluye coincidencias de la palabra «Queue». Recuerde, el caso no importa cuando -i se pasa como una opción.

Extras

pdfgrep tiene un buen número de opciones interesantes para usar. Sin embargo, sólo cubriré unos pocos aquí.

-c o –count: suprime la salida normal de los partidos. En lugar de mostrar la salida larga de las coincidencias, sólo muestra un valor que representa el número de veces que la palabra se encontró en el archivo
.

-p o –page-count: esta opción imprime los números de página de las coincidencias y el número de ocurrencias del patrón en la página

-m o –max-count[number]: especifica el número máximo de coincidencias. Esto significa que cuando se alcanza el número de coincidencias, el comando deja de leer el archivo.
La lista completa de opciones soportadas puede encontrarse en las páginas de manual o en el pdfgrep online documenation . No olvide que pdfgrep puede buscar múltiples archivos al mismo tiempo, en caso de que esté trabajando con algunos archivos masivos. El color predeterminado del resalte de la coincidencia se puede cambiar modificando la variable de entorno GREP_COLORS.

Conclusión

La próxima vez que piense en abrir un archivo PDF para buscar cualquier cosa, piense en usar pdfgrep. La herramienta es muy útil y le ahorrará tiempo.

Fuente: este post proviene de Vida Tecno, donde puedes consultar el contenido original.

¿Vulnera este post tus derechos? Pincha aquí.

Creado: 04/05/2019 10:05

¿Qué te ha parecido esta idea?

Esta idea proviene de:

Vida Tecnohttps://vidatecno.net

Y estas son sus últimas ideas publicadas:

Vida Tecno

Cómo actualizar la BIOS de tu PC y por qué podrías querer hacerlo

El sistema básico de entrada/salida de un ordenador, o BIOS, es el firmware que se encarga de encender y arrancar el ordenador. Tanto si te das cuenta como si no, has visto a tu pantalla hacer lo mism ...

Vida Tecno

Do Alternative Keyboard Layouts Really Work? además de la disposición estándar del teclado QWERTY, también hay varias disposiciones de teclado alternativas. ¿Son buenos, y realmente funcionan? Vamos a averiguarlo!

Uno de los mitos tecnológicos más persistentes es que el QWERTY fue inventado originalmente como una forma de evitar que las máquinas de escribir se atasquen, lo que haría obligando a los usuarios a e ...

Vida Tecno

Si se fija en el número de modelo de su router, siempre verá un término como AC 1200, AC 1900, etc. ¿Qué significa la potencia de CA de este enrutador? Vamos a averiguarlo.

Wi-Fi está mejorando constantemente. El cambio de 802.11n a 802.11ac está en marcha, y es posible que pronto veamos 802.11ad (mucho más rápido) y 802.11ax (gestión avanzada del ancho de banda) convirt ...

Vida Tecno

Cómo ampliar tu cobertura WiFiEs muy común que una zona grande tenga un punto muerto donde no puedas recibir una señal WiFi. Aprende cómo puedes ampliar la cobertura WiFi y mejorar la señal.

Prácticamente todo el mundo ha experimentado un temido punto muerto en su red inalámbrica. Todos hemos pasado por eso. Todos conocemos la frustración de ser interrumpido durante un stream por lo que e ...

Etiquetas: Linux

Recomendamos

Relacionado

Blog de iroca006

pdf archivos pdf crear pdf ...

Cómo crear archivos PDF

PDF es un tipo de documento desarrollado por Adobe Systems y es un derivado de PostScript. La popularidad de PDF se debe a una variedad de razones: - Los archivos PDF ofrecen un tamaño de archivo más pequeño. - Son independientes de la plataforma, lo que permite su uso en varios sistemas informáticos. - Si se crea correctamente, un archivo PDF contendrá todos los gráficos y fuentes utilizados en u ...

Vida Tecno

Linux

¿Qué es GREP en Linux y cómo se usa?

Grep es un pequeño programa de Unix para encontrar patrones coincidentes. Iniciado como un programa Unix, se puede encontrar tanto en Linux como en Mac y BSD. Puede leer casi cualquier texto, lo que significa que puede leer las entradas de otros comandos, o puede abrir y revisar los archivos directamente. Grep es increíblemente útil, especialmente para mirar a través de directorios desde la línea ...

Homo-Digital

general aplicaciones pdf ...

Convierte archivos PDF escaneados a Word gratis.

Convierte a Word tus archivos PDF escaneados. En esta nota queremos hablarte de una herramienta que estamos seguros te será de mucho utilidad, se trata de la aplicación web a2dPro que forma parte de los servicios en línea de Investintech una empresa dedica a brindar soluciones en conversión de archivos PDF. Esta aplicación web es una especie de demo de una solución de pago que ofrece Investintech ...

Vida Tecno

Linux

Cómo tratar con archivos desde la línea de comandos[Linux]

Hay muchas soluciones gráficas para tratar con archivos comprimidos (o archivos comprimidos) en Linux, pero ninguna de ellas supera a la línea de comandos por su velocidad y versatilidad. Lo único malo de esto es que hay tantos tipos diferentes de archivos, cada uno con su propia sintaxis y propiedades específicas, y puede llegar a ser muy difícil tratar con todos ellos sin un poco de preparación. ...

Vida Tecno

Linux

Hoja de trucos de la línea de comandos de Linux + Descargar

La gente siempre tiene la impresión de que GNU/Linux es difícil de usar. La mayoría de la gente sigue pensando que GNU/Linux es igual que DOS, donde tienes que navegar escribiendo comandos. Lo bueno es que la mayoría de las distribuciones hoy en día vienen con una interfaz y aplicaciones muy bonitas, y no es necesario entender ninguna línea de comandos para usar Linux. Por otro lado, tener algún c ...

Vida Tecno

Linux

5 Herramientas Grep para Linux

Como todo usuario de Linux seguramente sabe, grep es una herramienta fiable de línea de comandos para la búsqueda de archivos en profundidad. Sin embargo, muchos principiantes lo evitan porque no les gusta la terminal. Las aplicaciones presentadas en este artículo no son exactamente alternativas a grep porque en algunos escenarios de uso grep es verdaderamente irremplazable. En su lugar, llamémosl ...

Vida Tecno

Linux

Cómo manipular PDFs con PDF Chain[Linux]

Llega un momento en que cada usuario serio de Linux necesita hacer algo más que leer un archivo PDF. Ese algo podría ser la combinación de varios PDF en un archivo, la división de un archivo en páginas individuales o la extracción de un archivo adjunto de un PDF. Los usuarios de Windows lo tienen fácil. Si están dispuestos a desprenderse de unos pocos cientos de dólares, pueden utilizar Adobe Acro ...

Vida Tecno

Mac

Cómo comprimir y extraer archivos en Mac

¿Cuántos archivos que descargaste de Internet terminaron siendo archivos zip? Lo sé, muchos de ellos. Los archivos ZIP permiten a los usuarios poner un número de archivos en un solo archivo que, cuando se extrae, devuelve todos los archivos comprimidos al usuario. Mac viene con una función incorporada para crear y extraer archivos ZIP, eliminando así la necesidad de descargar una herramienta de co ...

Vida Tecno

Linux

Imprima fácilmente en archivos PDF, Postscript y SVG desde cualquier aplicación[Ubuntu].

Hay un montón de extensiones que puede instalar que le permiten crear archivos PDF para cualquier página web que encuentre. Bueno, si está usando Linux (particularmente Ubuntu), esta función de creación de PDF ya está incorporada en su sistema y puede usarla sin necesidad de instalar ninguna otra extensión o aplicación. En Ubuntu, independientemente de los navegadores o aplicaciones que utilice, s ...

Vida Tecno

Linux

Cómo renombrar archivos en Linux

Renombrar archivos no es una operación particularmente avanzada; siempre y cuando se haga en un pequeño número de archivos, por lo general no requiere herramientas especiales. Sin embargo, cuando hay toda una carpeta de fotos de las vacaciones del año pasado esperando ser renombradas, sería prudente considerar algunos trucos o aplicaciones para ahorrar tiempo. Hay dos enfoques generales para renom ...