Cómo mejorar cualquier imagen con inteligencia artificial con difusión estable

Publicado: 2023-07-17
Pintura digital de un automóvil con casco espacial, con un lado ampliado a una resolución más alta.
Difusión estable / Jordan Gloor / How-To Geek
  1. En Stable Diffusion WebUI, haga clic en la pestaña "Extras".
  2. Cargue la imagen o las imágenes que desea mejorar.
  3. Ajuste el control deslizante Cambiar tamaño para elegir la resolución que desee.
  4. Elija un escalador para usar.
  5. Haz clic en "Generar".

¿Decepcionado por la baja resolución de sus creaciones de difusión estable? ¿O tal vez tienes fotos "reales" más antiguas que te gustaría mejorar? Stable Diffusion WebUI tiene herramientas para eso, y lo guiaremos a través del proceso mientras compartimos algunos consejos que hemos aprendido en el camino.

Nota: En esta guía, asumimos que tiene instalada y en ejecución Stable Diffusion WebUI de automatic11111. Es la edición definitiva de Stable Diffusion y hace que la ampliación (junto con muchos otros aspectos del trabajo con imágenes de IA) sea mucho más simple e intuitiva en comparación con una instalación estándar de Stable Diffusion.
Tabla de contenido

Cómo mejorar imágenes en difusión estable
Sugerencias para obtener mejores resultados de ampliación

Cómo mejorar imágenes en difusión estable

Ya sea que tenga un escaneo de una foto antigua, una foto digital antigua o una imagen generada por IA de baja resolución, inicie Stable Diffusion WebUI y siga los pasos a continuación.

1. Sube una imagen

Todas las herramientas de escalado de Stable Diffusion se encuentran en la pestaña "Extras", así que haz clic para abrir el menú de escalado.

O bien, si acaba de generar una imagen que desea mejorar, haga clic en "Enviar a Extras" y accederá allí con la imagen en su lugar para mejorar. De lo contrario, puede arrastrar y soltar su imagen en el campo de carga Extras.

Una foto colocada en el campo de carga Extras en Stable Diffusion WebUI.

Si tiene varias imágenes que desea mejorar a la vez, cambie a la pestaña "Proceso por lotes" y suelte varias a la vez. En mi experiencia, sin embargo, esto no siempre funciona, y

Paso 2: Elija un tamaño

Use el control deslizante "Cambiar tamaño" para ajustar el tamaño que debe tener la imagen de salida. De forma predeterminada, utilizará la pestaña "Escalar por", que le permite multiplicar la resolución actual de la imagen por un número determinado. Entonces, por ejemplo, si lo configura en 2 y su imagen de entrada es 512 × 512, la imagen se ampliará a 1024 × 1024.

Ajuste el control deslizante "Escalar por" o el campo numérico para elegir el múltiplo que desea mejorar.

Alternativamente, puede cambiar a la pestaña "Escalar a" e ingresar una resolución específica que desee. Presta mucha atención a la relación de aspecto actual de la imagen y desmarca la opción "Recortar para ajustar" si no quieres que se corten los bordes.

Si planea hacer un fondo de pantalla, tenga en cuenta que la mayoría de los teléfonos modernos usan una relación de aspecto de 9:16, las tabletas usan 4:3 y las computadoras 16:9 (aunque los monitores ultraanchos llegan hasta 21:9).

Paso 3: elija un Upscaler

Ahora, aquí es donde es fácil sentirse abrumado: tiene a su disposición varios algoritmos de escalado diferentes, todos con nombres crípticos, y debe elegir uno.

El que debe elegir depende en última instancia del tipo de imagen que esté ampliando, como una foto, una pintura, arte de anime u otro tipo de obra de arte de estilo "dibujos animados". Los diferentes algoritmos también funcionan a diferentes velocidades, por lo que también puede depender del tipo de prisa que tenga.

Lista desplegable en Stable Diffusion WebUI que muestra los escaladores disponibles.

¿Cuál es el mejor escalador de difusión estable?

Experimentar con los diferentes algoritmos es la única forma de saber con certeza cuál de los escaladores incorporados de Stable Diffucion es el mejor para su caso. Dicho esto, si desea una recomendación básica, estas suelen ser buenas opciones:

  • Fotos: ESRGAN_4x
  • Pinturas: R-ESRGAN 4x+
  • Anime: R-ESRGAN 4x+ Anime6B

Paso 4: ¡Exclusivo!

Una vez que haya establecido su configuración, es hora de mejorar. Presiona el botón grande "Generar" para comenzar el proceso.

La primera vez que aumente la escala con un algoritmo determinado, Stable Diffusion necesitará descargar los modelos apropiados, así que espere que la ejecución inicial lleve más tiempo (que dependerá en parte de la velocidad de su conexión).

Una vez que se complete la mejora, encontrará las imágenes de salida en el subdirectorio extras-images de su carpeta outputs .

RELACIONADO: Cómo usar la difusión estable para hacer GIF y videos de IA

Sugerencias para obtener mejores resultados de ampliación

Si las imágenes no se ven exactamente como esperaba, hay algunas cosas que puede hacer para obtener mejores resultados con las herramientas de escalado de Stable Diffusion.

Pruebe un combo de mejora

Para el escalado avanzado, puede seleccionar un segundo algoritmo que aplicará su efecto a la misma imagen y los resultados de los dos escaladores se combinarán para el producto final. (Para ser claros, un segundo escalador no duplicará la resolución de salida). Esto es útil si encuentra que dos escaladores diferentes producen mejores resultados por diferentes razones.

Por ejemplo, en mis pruebas, descubrí que ESRGAN_4x era mejor para mantener los detalles, pero SwinIR tenía menos grano, al tiempo que introducía algunos artefactos de mosaico molestos. Podría obtener lo mejor de ambos mundos configurando ESRGAN_4x como el escalador principal y SwinIR como secundario, con 0.5 de visibilidad.

Mejorador secundario seleccionado en Stable Diffusino WebUI.

Solucione las malas relaciones de aspecto con pintura superior

Si tiene una imagen que desea usar en una relación de aspecto específica, pero la imagen ampliada es demasiado alta o demasiado ancha para usarla sin recortarla, puede solucionar ese problema con la herramienta de "pintura superior" de Stable Diffusion. Le permite generar "más" de la imagen, agregando imágenes a los lados o en la parte superior e inferior que no estaban allí antes.

Para comenzar a pintar, suelte su imagen en la entrada img2img y busque el menú desplegable "Script" y seleccione Outpainting mk2 o Poor Man's Outpainting. Ajuste cualquier configuración que vea según sea necesario y luego haga clic en "Generar".

Como descubrirá rápidamente, pintar bien es difícil y probablemente sea un tema para otra guía, especialmente con contenido de imagen complejo como personas y animales. Dicho esto, solo jugando y sin hacer demasiados cambios, pude generar esta versión panorámica de mi imagen que, a primera vista, parece medio creíble.

Fotografía mejorada de un sendero para caminar en otoño con los lados izquierdo y derecho generados con Stable Diffusion.
Difusión estable / Jordan Gloor / How-To Geek

Restaure caras distorsionadas con GPFGAN o CodeFormer

Si hay una cara de persona en la imagen que está ampliando, puede distorsionarse fácilmente hasta volverse irreconocible. Sin duda, también has visto algunas de las horribles interpretaciones de rostros humanos de Stable Diffusion. Cualquiera de los casos es cuando desea empujar los controles deslizantes de visibilidad de GPFGAN o CodeFormer. Cada uno aplica una capa de corrección facial durante el proceso de escalado para corregir esos ojos espeluznantes y arrugas extrañas.

Si está utilizando CodeFormer, también puede ajustar el "peso" de su efecto, que es como controlar su nivel de fuerza (mientras que el control deslizante de visibilidad es como ajustar la transparencia de su capa de corrección). Cuanto más aumente el peso, más CodeFormer intentará corregir. Esto puede mejorar o degradar la imagen final dependiendo de la situación. Es posible que tenga que pasar por algunas pruebas y errores para obtener el mejor resultado posible.

GPFGAN frente a CodeFormer para restauración facial

Si bien ambas son herramientas capaces, GPFGAN generalmente es mejor para restaurar la estructura de una cara (los ojos en particular), pero CodeFormer es mejor para corregir las texturas de la piel. GPFGAN tiene una tendencia a darle a la piel humana un extraño aspecto ultrasuave, así que si notas que eso sucede, prueba CodeFormer en su lugar. Alternativamente, combine los dos e intente obtener lo mejor de ambos mundos. Una vez más, la experimentación es clave.

Utilice los controles deslizantes GFPGAN y CodeFormer para agregar corrección facial a sus imágenes mejoradas.

En términos de velocidad, GPFGAN es ligeramente más rápido que CodeFormer. Entonces, si está buscando hacer que su mejora suceda lo más rápido posible, probablemente querrá apoyarse en GPFGAN.

RELACIONADO: Cómo hacer fondos de pantalla impresionantes para cualquier dispositivo con MidJourney