Cómo excluir patrones, archivos y directorios con grep
Publicado: 2022-06-29
Desde 1974, el comando grep
de Linux ha estado ayudando a las personas a encontrar cadenas en los archivos. Pero a veces grep
es demasiado completo. Aquí hay varias formas de decirle a grep
que ignore diferentes cosas.
El comando grep
El comando grep
busca archivos de texto en busca de cadenas que coincidan con los patrones de búsqueda que proporciona en la línea de comando. El poder de grep
radica en su uso de expresiones regulares. Estos le permiten describir lo que está buscando, en lugar de tener que definirlo explícitamente.
El nacimiento de grep
es anterior a Linux. fue desarrollado a principios de la década de 1970 en Unix. Toma su nombre de la secuencia de teclas g/re/p en el editor de línea ed
(por cierto, se pronuncia “ee-dee”). Esto significaba búsqueda rápida global y regular , líneas de coincidencia de impresión.
grep
es famoso, quizás, notoriamente, minucioso y decidido. A veces buscará archivos o directorios en los que preferiría no perder el tiempo, porque los resultados pueden dejarlo incapaz de ver la madera de los árboles.
Por supuesto, hay formas de dominar a grep. Puede decirle que ignore patrones, archivos y directorios para que grep complete sus búsquedas más rápido y no se vea inundado con falsos positivos sin sentido.
Excluyendo patrones
Para buscar con grep
, puede canalizar la entrada desde algún otro proceso, como cat
, o puede proporcionar un nombre de archivo como el último parámetro de la línea de comando.
Estamos usando un archivo corto que contiene el texto del poema Jabberwocky , de Lewis Carroll. En estos dos ejemplos, estamos buscando líneas que coincidan con el término de búsqueda "Jabberwock".
gato jabberwocky.txt | grep "Jabberwock"
grep "Jabberwock" jabberwocky.texto
Las líneas que contienen coincidencias con la pista de búsqueda se enumeran para nosotros, con el elemento coincidente en cada línea resaltado en rojo. Esa es una búsqueda sencilla. Pero, ¿y si queremos excluir líneas que contengan la palabra “Jabberwock” e imprimir el resto?
Podemos lograr eso con la opción -v
(invertir coincidencia). Esto enumera las líneas que no coinciden con el término de búsqueda.
grep -v "Jabberwock" jabberwocky.texto
Las líneas que no contienen "Jabberwock" se enumeran en la ventana del terminal.
Podemos excluir tantos términos como queramos. Filtremos cualquier línea que contenga "Jabberwock" y cualquier línea que contenga "y". Para lograr esto usaremos la opción -e
(expresión). Necesitamos usarlo para cada patrón de búsqueda que estemos usando.
grep -v -e "Jabberwock" -e "y" jabberwocky.txt
Hay una caída correspondiente en el número de líneas en la salida.
Si usamos la opción -E
(extended regexes), podemos combinar los patrones de búsqueda con “ |
“, que en este contexto no indica una tubería, es el operador lógico OR
.
grep -Ev "Jabberwock|y" jabberwocky.txt
Obtenemos exactamente el mismo resultado que obtuvimos con el comando anterior más extenso.
El formato del comando es el mismo si desea utilizar un patrón de expresiones regulares en lugar de una pista de búsqueda explícita. Este comando excluirá todas las líneas que comiencen con cualquier letra en el conjunto de "ACHT".
grep -Ev "^ACHT" jabberwocky.txt
Para ver líneas que contienen un patrón pero que tampoco contienen otro patrón, podemos canalizar grep
en grep
. Buscaremos todas las líneas que contengan la palabra "Jabberwock" y luego filtraremos las líneas que también contengan la palabra "asesinado".
grep "Jabberwock" jabberwocky.txt | grep -v "muerto"

Excluyendo archivos
Podemos pedirle a grep
que busque una cadena o un patrón en una colección de archivos. Puede enumerar cada archivo en la línea de comando, pero con muchos archivos, ese enfoque no se escala.
grep "vorpal" verso-1.txt verso-2.txt verso-3.txt verso-4.txt verso-5.txt verso-6.txt
Tenga en cuenta que el nombre del archivo que contiene la línea coincidente se muestra al comienzo de cada línea de salida.
Para reducir la escritura podemos usar comodines. Pero eso puede ser contradictorio. Esto parece funcionar.
grep "vorpal" *.txt
Sin embargo, en este directorio hay otros archivos TXT, que nada tienen que ver con el poema. Si buscamos la palabra “espada” con la misma estructura de comandos, obtenemos muchos falsos positivos.
grep "espada" *.txt
Los resultados que queremos están enmascarados por la avalancha de resultados falsos de los otros archivos que tienen la extensión TXT.
La palabra "vorpal" no coincidía con nada, pero "espada" está incluida en la palabra "contraseña", por lo que se encontró muchas veces en algunos pseudo-archivos de registro.
Necesitamos excluir estos archivos. Para hacerlo, usaremos la opción --exclude
. Para excluir un solo archivo llamado "vol-log-1.txt", usaríamos este comando:
grep --exclude=vol-log-1.txt "espada" *.txt
En este caso, queremos excluir varios archivos de registro con nombres que comiencen con "vol". La sintaxis que necesitamos es:
grep --exclude=vol*.txt "espada" *.txt
Cuando usamos la opción -R
(desreferencia-recursiva), grep
buscará árboles de directorios completos para nosotros. De manera predeterminada, buscará en todos los archivos en esas ubicaciones. Puede haber múltiples tipos de archivos que deseamos excluir.
Debajo del directorio actual en esta máquina de prueba, hay directorios anidados que contienen archivos de registro, archivos CSV y archivos MD. Estos son todos los tipos de archivos de texto que queremos excluir. Podríamos usar una opción --exclude
para cada tipo de archivo, pero podemos lograr lo que queremos de manera más eficiente agrupando los tipos de archivo.
Este comando excluye todos los archivos que tienen extensiones CSV o MD, y todos los archivos TXT cuyos nombres comienzan con "vol" o "log".
grep -R --exclude=*.{csv,md} --exclude={vol*,log*}.txt "espada" /home/dave/data/
Excluyendo Directorios
Si los archivos que queremos ignorar están contenidos en directorios y no hay archivos en esos directorios que queremos buscar, podemos excluir esos directorios completos.
El concepto es muy similar al de excluir archivos, excepto que usamos la --exclude-dir
y nombramos los directorios para ignorar.
grep -R --exclude-dir=copia de seguridad "vorpal" /inicio/dave/datos
Hemos excluido el directorio "backup", pero aún estamos buscando en otro directorio llamado "backup2".
No sorprenderá que podamos usar la --exclude-dir
varias veces en un solo comando. Tenga en cuenta que la ruta a los directorios excluidos debe proporcionarse en relación con el directorio en el que comenzará la búsqueda. No utilice la ruta absoluta desde la raíz del sistema de archivos.
grep -R --exclude-dir=copia de seguridad --exclude-dir=copia de seguridad2 "vorpal" /home/dave/datos
También podemos usar agrupaciones. Podemos lograr lo mismo de manera más sucinta con:
grep -R --exclude-dir={copia de seguridad, copia de seguridad2} "vorpal" /inicio/dave/datos
Puede combinar exclusiones de archivos y directorios en el mismo comando. Si desea excluir todos los archivos de un directorio y excluir ciertos tipos de archivos de los directorios que se buscan, use esta sintaxis:
grep -R --exclude=*.{csv,md} --exclude-dir=backup/archive "frumious" /home/dave/data
A veces es lo que dejas fuera
A veces, con grep
puede parecer que estás tratando de encontrar una aguja en un pajar. hace una gran diferencia quitar el pajar.
RELACIONADO: Cómo usar expresiones regulares (regexes) en Linux