Cómo excluir patrones, archivos y directorios con grep

Publicado: 2022-06-29
Computadora portátil Linux que muestra un indicador de bash
fatmawati achmad zaenuri/Shutterstock.com

Desde 1974, el comando grep de Linux ha estado ayudando a las personas a encontrar cadenas en los archivos. Pero a veces grep es demasiado completo. Aquí hay varias formas de decirle a grep que ignore diferentes cosas.

El comando grep

El comando grep busca archivos de texto en busca de cadenas que coincidan con los patrones de búsqueda que proporciona en la línea de comando. El poder de grep radica en su uso de expresiones regulares. Estos le permiten describir lo que está buscando, en lugar de tener que definirlo explícitamente.

El nacimiento de grep es anterior a Linux. fue desarrollado a principios de la década de 1970 en Unix. Toma su nombre de la secuencia de teclas g/re/p en el editor de línea ed (por cierto, se pronuncia “ee-dee”). Esto significaba búsqueda rápida global y regular , líneas de coincidencia de impresión.

grep es famoso, quizás, notoriamente, minucioso y decidido. A veces buscará archivos o directorios en los que preferiría no perder el tiempo, porque los resultados pueden dejarlo incapaz de ver la madera de los árboles.

Cómo usar el comando grep en Linux
RELACIONADO Cómo usar el comando grep en Linux

Por supuesto, hay formas de dominar a grep. Puede decirle que ignore patrones, archivos y directorios para que grep complete sus búsquedas más rápido y no se vea inundado con falsos positivos sin sentido.

Excluyendo patrones

Para buscar con grep , puede canalizar la entrada desde algún otro proceso, como cat , o puede proporcionar un nombre de archivo como el último parámetro de la línea de comando.

Estamos usando un archivo corto que contiene el texto del poema Jabberwocky , de Lewis Carroll. En estos dos ejemplos, estamos buscando líneas que coincidan con el término de búsqueda "Jabberwock".

 gato jabberwocky.txt | grep "Jabberwock"
 grep "Jabberwock" jabberwocky.texto 

Dos formas diferentes de buscar en el mismo archivo de texto con grep

Las líneas que contienen coincidencias con la pista de búsqueda se enumeran para nosotros, con el elemento coincidente en cada línea resaltado en rojo. Esa es una búsqueda sencilla. Pero, ¿y si queremos excluir líneas que contengan la palabra “Jabberwock” e imprimir el resto?

Podemos lograr eso con la opción -v (invertir coincidencia). Esto enumera las líneas que no coinciden con el término de búsqueda.

 grep -v "Jabberwock" jabberwocky.texto 

Usando la opción de búsqueda invertida -v con grep

Las líneas que no contienen "Jabberwock" se enumeran en la ventana del terminal.

Todas las líneas que no contienen la palabra jabberwock

Podemos excluir tantos términos como queramos. Filtremos cualquier línea que contenga "Jabberwock" y cualquier línea que contenga "y". Para lograr esto usaremos la opción -e (expresión). Necesitamos usarlo para cada patrón de búsqueda que estemos usando.

 grep -v -e "Jabberwock" -e "y" jabberwocky.txt 

Usando múltiples cláusulas de búsqueda con grep

Hay una caída correspondiente en el número de líneas en la salida.

Las líneas del texto que no coinciden con ningún término de búsqueda

Si usamos la opción -E (extended regexes), podemos combinar los patrones de búsqueda con “ | “, que en este contexto no indica una tubería, es el operador lógico OR .

 grep -Ev "Jabberwock|y" jabberwocky.txt 

Usando el operador lógico OR con grep

Obtenemos exactamente el mismo resultado que obtuvimos con el comando anterior más extenso.

Las líneas del texto que no coinciden con ningún término de búsqueda

El formato del comando es el mismo si desea utilizar un patrón de expresiones regulares en lugar de una pista de búsqueda explícita. Este comando excluirá todas las líneas que comiencen con cualquier letra en el conjunto de "ACHT".

 grep -Ev "^ACHT" jabberwocky.txt 

Excluyendo archivos que comienzan con letras particulares

Para ver líneas que contienen un patrón pero que tampoco contienen otro patrón, podemos canalizar grep en grep . Buscaremos todas las líneas que contengan la palabra "Jabberwock" y luego filtraremos las líneas que también contengan la palabra "asesinado".

 grep "Jabberwock" jabberwocky.txt | grep -v "muerto" 

Tubería grep en grep para filtrar dos veces

Excluyendo archivos

Podemos pedirle a grep que busque una cadena o un patrón en una colección de archivos. Puede enumerar cada archivo en la línea de comando, pero con muchos archivos, ese enfoque no se escala.

 grep "vorpal" verso-1.txt verso-2.txt verso-3.txt verso-4.txt verso-5.txt verso-6.txt 

Búsqueda a través de una lista de archivos con nombre

Tenga en cuenta que el nombre del archivo que contiene la línea coincidente se muestra al comienzo de cada línea de salida.

Para reducir la escritura podemos usar comodines. Pero eso puede ser contradictorio. Esto parece funcionar.

 grep "vorpal" *.txt 

Uso de comodines para buscar una colección de archivos

Sin embargo, en este directorio hay otros archivos TXT, que nada tienen que ver con el poema. Si buscamos la palabra “espada” con la misma estructura de comandos, obtenemos muchos falsos positivos.

 grep "espada" *.txt 

Buscando "espada" a través de una colección de archivos TXT

Los resultados que queremos están enmascarados por la avalancha de resultados falsos de los otros archivos que tienen la extensión TXT.

Un gran conjunto de resultados de falsos positivos

La palabra "vorpal" no coincidía con nada, pero "espada" está incluida en la palabra "contraseña", por lo que se encontró muchas veces en algunos pseudo-archivos de registro.

Necesitamos excluir estos archivos. Para hacerlo, usaremos la opción --exclude . Para excluir un solo archivo llamado "vol-log-1.txt", usaríamos este comando:

 grep --exclude=vol-log-1.txt "espada" *.txt

En este caso, queremos excluir varios archivos de registro con nombres que comiencen con "vol". La sintaxis que necesitamos es:

 grep --exclude=vol*.txt "espada" *.txt 

Exclusión de archivos con comodines

Cuando usamos la opción -R (desreferencia-recursiva), grep buscará árboles de directorios completos para nosotros. De manera predeterminada, buscará en todos los archivos en esas ubicaciones. Puede haber múltiples tipos de archivos que deseamos excluir.

Debajo del directorio actual en esta máquina de prueba, hay directorios anidados que contienen archivos de registro, archivos CSV y archivos MD. Estos son todos los tipos de archivos de texto que queremos excluir. Podríamos usar una opción --exclude para cada tipo de archivo, pero podemos lograr lo que queremos de manera más eficiente agrupando los tipos de archivo.

Este comando excluye todos los archivos que tienen extensiones CSV o MD, y todos los archivos TXT cuyos nombres comienzan con "vol" o "log".

 grep -R --exclude=*.{csv,md} --exclude={vol*,log*}.txt "espada" /home/dave/data/ 

Usar múltiples cláusulas --exclude y agrupaciones de nombres de archivo

Excluyendo Directorios

Si los archivos que queremos ignorar están contenidos en directorios y no hay archivos en esos directorios que queremos buscar, podemos excluir esos directorios completos.

El concepto es muy similar al de excluir archivos, excepto que usamos la --exclude-dir y nombramos los directorios para ignorar.

 grep -R --exclude-dir=copia de seguridad "vorpal" /inicio/dave/datos 

Exclusión de un directorio de la búsqueda

Hemos excluido el directorio "backup", pero aún estamos buscando en otro directorio llamado "backup2".

No sorprenderá que podamos usar la --exclude-dir varias veces en un solo comando. Tenga en cuenta que la ruta a los directorios excluidos debe proporcionarse en relación con el directorio en el que comenzará la búsqueda. No utilice la ruta absoluta desde la raíz del sistema de archivos.

 grep -R --exclude-dir=copia de seguridad --exclude-dir=copia de seguridad2 "vorpal" /home/dave/datos 

Excluyendo dos directorios de la búsqueda

También podemos usar agrupaciones. Podemos lograr lo mismo de manera más sucinta con:

 grep -R --exclude-dir={copia de seguridad, copia de seguridad2} "vorpal" /inicio/dave/datos 

Exclusión de directorios con agrupación

Puede combinar exclusiones de archivos y directorios en el mismo comando. Si desea excluir todos los archivos de un directorio y excluir ciertos tipos de archivos de los directorios que se buscan, use esta sintaxis:

 grep -R --exclude=*.{csv,md} --exclude-dir=backup/archive "frumious" /home/dave/data 

Exclusión de tipos de archivos y directorios en el mismo comando

A veces es lo que dejas fuera

A veces, con grep puede parecer que estás tratando de encontrar una aguja en un pajar. hace una gran diferencia quitar el pajar.

RELACIONADO: Cómo usar expresiones regulares (regexes) en Linux