Como aumentar a escala de qualquer imagem com difusão estável

Publicados: 2023-07-17

Pintura digital de um carro usando um capacete espacial, com um lado aumentado para uma resolução maior. — Difusão estável / Jordan Gloor / How-To Geek

Em Stable Diffusion WebUI, clique na guia "Extras".
Carregue a imagem ou imagens que você deseja melhorar.
Ajuste o controle deslizante Redimensionar para escolher a resolução desejada.
Escolha um upscaler para usar.
Clique em "Gerar".

Decepcionado com a baixa resolução de suas criações Stable Diffusion? Ou talvez você tenha fotos “reais” mais antigas que gostaria de aprimorar? Stable Diffusion WebUI tem ferramentas exatamente para isso, e vamos orientá-lo através do processo enquanto compartilhamos algumas dicas que aprendemos ao longo do caminho.

Observação: neste guia, presumimos que você tenha o Stable Diffusion WebUI do automatic11111 instalado e em execução. É a edição definitiva do Stable Diffusion e torna o upscaling (juntamente com muitos outros aspectos do trabalho com imagens AI) muito mais simples e intuitivo em comparação com uma instalação Stable Diffusion padrão.

Índice

Como melhorar imagens em difusão estável
Dicas para melhores resultados de upscaling

Como melhorar imagens em difusão estável

Quer você tenha digitalizado uma foto antiga, uma foto digital antiga ou uma imagem gerada por IA de baixa resolução, inicie o Stable Diffusion WebUI e siga as etapas abaixo.

1. Carregue uma imagem

Todas as ferramentas de upscaling do Stable Diffusion estão localizadas na guia “Extras”, então clique nela para abrir o menu de upscaling.

Ou, se você acabou de gerar uma imagem que deseja upscaling, clique em “Enviar para Extras” e você será levado para lá com a imagem no local para upscaling. Caso contrário, você pode arrastar e soltar sua imagem no campo de upload Extras.

Uma foto colocada no campo de upload Extras no Stable Diffusion WebUI.

Se você tiver várias imagens que deseja melhorar de uma só vez, mude para a guia “Batch Process” e solte várias de uma vez. Na minha experiência, porém, isso nem sempre funciona, e

Etapa 2: escolha um tamanho

Use o controle deslizante “Redimensionar” para ajustar o tamanho da imagem de saída. Por padrão, você usará a guia “Scale By”, que permite multiplicar a resolução atual da imagem por um determinado número. Por exemplo, se você definir como 2 e sua imagem de entrada for 512 × 512, a imagem será ampliada para 1024 × 1024.

Ajuste o controle deslizante "Escala por" ou o campo de número para escolher o múltiplo pelo qual deseja aumentar.

Como alternativa, você pode alternar para a guia "Escala para" e inserir uma resolução específica desejada. Preste muita atenção na proporção atual da imagem e desmarque a opção “Cortar para caber” se não quiser que as bordas sejam cortadas.

Se você planeja criar um papel de parede, lembre-se de que a maioria dos telefones modernos usa uma proporção de 9:16, os tablets usam 4:3 e os computadores 16:9 (embora os monitores ultralargos cheguem a 21:9).

Passo 3: Escolha um Upscaler

Agora, é aqui que é fácil se sentir sobrecarregado: você tem à sua disposição vários algoritmos de upscaling diferentes, todos com nomes enigmáticos, e você deve escolher um.

O que você deve escolher depende do tipo de imagem que você está aprimorando, como uma foto, uma pintura, arte de anime ou outro tipo de arte no estilo “desenho animado”. Algoritmos diferentes também funcionam em velocidades diferentes, portanto, também pode depender do tipo de pressa em que você está.

Lista suspensa em Stable Diffusion WebUI mostrando upscalers disponíveis.

Qual é o melhor upscaler de difusão estável?

Experimentar os diferentes algoritmos é a única maneira de saber exatamente qual dos upscalers integrados do Stable Diffucion é o melhor para o seu caso. Dito isso, se você quiser uma recomendação básica, geralmente são boas opções:

Fotos: ESRGAN_4x
Pinturas: R-ESRGAN 4x+
Anime: R-ESRGAN 4x+ Anime6B

Passo 4: Upscale!

Depois de definir as configurações, é hora de fazer o upscale. Aperte o grande botão “Gerar” para iniciar o processo.

A primeira vez que você fizer upscale com um determinado algoritmo Stable Diffusion precisará baixar os modelos apropriados, portanto, espere que a execução inicial demore mais tempo (o que dependerá em parte da velocidade da sua conexão).

Após a conclusão do upscaling, você encontrará as imagens de saída no subdiretório extras-images da pasta outputs .

RELACIONADO: Como usar a difusão estável para criar GIFs e vídeos AI

Dicas para melhores resultados de upscaling

Se as imagens não estiverem exatamente como você esperava, há algumas coisas que você pode fazer para obter melhores resultados com as ferramentas de upscaling do Stable Diffusion.

Experimente um Upscaler Combo

Para upscaling avançado, você pode selecionar um segundo algoritmo que aplicará seu efeito à mesma imagem, e os resultados dos dois upscalers serão combinados para o produto final. (Para ser claro, um segundo upscaler não dobrará a resolução de saída.) Isso é útil se você descobrir que dois upscalers diferentes produzem resultados melhores por motivos diferentes.

Por exemplo, em meus testes, descobri que o ESRGAN_4x era o melhor para manter os detalhes, mas o SwinIR tinha menos granulação, ao mesmo tempo em que introduzia alguns artefatos de bloco irritantes. Eu poderia obter o melhor dos dois mundos definindo ESRGAN_4x como upscaler principal e SwinIR como secundário, com visibilidade de 0,5.

Upscaler secundário selecionado no Stable Diffusino WebUI.

Corrigir proporções ruins com pintura externa

Se você tem uma imagem que deseja usar em uma proporção específica, mas a imagem aprimorada é muito alta ou muito larga para ser usada sem corte, você pode corrigir esse problema usando a ferramenta "outpainting" do Stable Diffusion. Ele permite que você gere “mais” da imagem, adicionando imagens às laterais ou à parte superior e inferior que não existiam antes.

Para começar a pintar, solte sua imagem na entrada img2img e procure o menu suspenso “Script” e selecione Outpainting mk2 ou Poor Man's Outpainting. Ajuste as configurações que achar necessárias e clique em “Gerar”.

Como você descobrirá rapidamente, pintar bem é difícil e provavelmente um assunto para outro guia, especialmente com conteúdo de imagem complexo, como pessoas e animais. Dito isso, apenas brincando e sem fazer muitas alterações consegui gerar essa versão panorâmica da minha imagem que, à primeira vista, parece meio crível.

Foto ampliada de um caminho de caminhada no outono com os lados esquerdo e direito gerados usando difusão estável. — Difusão estável / Jordan Gloor / How-To Geek

Restaurar rostos distorcidos com GPFGAN ou CodeFormer

Se houver o rosto de uma pessoa na imagem que você está ampliando, ela pode facilmente ficar distorcida e irreconhecível. Sem dúvida, você também já viu algumas das representações horríveis de rostos humanos do Stable Diffusion. Qualquer um dos casos é quando você deseja deslocar os controles deslizantes de visibilidade GPFGAN ou CodeFormer. Cada um aplica uma camada de correção facial durante o processo de aumento de escala para corrigir os olhos assustadores e as rugas bizarras.

Se estiver usando CodeFormer, você também pode ajustar o “peso” de seu efeito, que é como controlar seu nível de força (enquanto o controle deslizante de visibilidade é como ajustar a transparência de sua camada de correção). Quanto mais você aumentar o peso, mais o CodeFormer tentará corrigir. Isso pode melhorar ou degradar a imagem final, dependendo da situação. Você pode ter que passar por algumas tentativas e erros para obter o melhor resultado possível.

GPFGAN vs. CodeFormer para Restauração Facial

Embora ambos sejam ferramentas capazes, o GPFGAN geralmente é melhor para restaurar a estrutura de um rosto (olhos em particular), mas o CodeFormer é melhor para corrigir as texturas da pele. O GPFGAN tem a tendência de dar à pele humana uma estranha aparência ultrasuave, portanto, se você perceber isso acontecendo, experimente o CodeFormer. Como alternativa, combine os dois e tente obter o melhor dos dois mundos. Mais uma vez, a experimentação é fundamental.

Use os controles deslizantes GFPGAN e CodeFormer para adicionar correção facial às suas imagens aprimoradas.

Em termos de velocidade, o GPFGAN é um pouco mais rápido que o CodeFormer. Portanto, se você deseja fazer seu upscaling acontecer o mais rápido possível, provavelmente desejará se apoiar no GPFGAN.

RELACIONADOS: Como criar papéis de parede incríveis para qualquer dispositivo com MidJourney