Quão bom é o meio da jornada na AI Art? Comparamos todos os modelos
Publicados: 2023-05-20MidJourney é indiscutivelmente a ferramenta de geração de arte AI mais fácil, tanto em termos de uso quanto em termos de obtenção de resultados surpreendentes, mas é fácil esquecer que não foi tão impressionante no lançamento. Vamos ver até onde chegou!
Nossa Metodologia
O MidJourney funciona aceitando “prompts” de texto que descrevem que tipo de imagem você deseja gerar por meio do aplicativo Discord. Se você quiser aprender a usar o software, há muitos guias impressionantes do MidJourney na Web que o colocarão em funcionamento rapidamente. Para este artigo, estamos focados em comparar o quanto a tecnologia do MidJourney melhorou nos 15 meses ímpares entre V1 e V5.1, que é o mais recente até o momento em que este livro foi escrito.
RELACIONADOS: O que você pode fazer com arte gerada por IA?
MidJourney permite que você alterne manualmente entre qualquer uma de suas versões de modelo usando /settings
que lhe dará essas opções.
Aqui podemos selecionar entre as diferentes versões do MidJourney. Aliás, as opções “Niji” são modelos treinados especificamente para gerar imagens no estilo anime e mangá japonês, então se você gosta disso, experimente.
Todas as imagens geradas para este artigo usarão a configuração de alta qualidade, com o nível de estilo padrão, que determina o quão estrito ou solto o modelo se comporta ao seguir o prompt.
Usaremos os mesmos cinco prompts com cada modelo para que você possa fazer uma comparação direta. Não usaremos nenhum parâmetro especial do MidJourney e seguiremos os prompts de texto simples em inglês simples.
Usamos o ChatGPT-4 para criar cinco prompts para testar o MidJourney, representando uma variedade de desafios. Estes são os prompts que estamos usando:
- Pintura a óleo de uma paisagem surreal
- Foto de uma rua movimentada do centro da cidade na década de 1920
- Arte conceitual de uma paisagem urbana futurista à noite
- Pintura de um tigre branco na neve
- Retrato de uma mulher surpresa
MidJourney fornece quatro imagens em resposta a cada solicitação. Escolheremos aquele que (na nossa opinião) é o melhor dos quatro para apresentar aqui para comparação. Então vamos ver o quanto melhorou no pouco tempo que existe.
Midjourney V1 (fevereiro de 2022)
Estamos firmemente no reino do combustível de pesadelo com V1 de MidJourney. Em uma rápida olhada, essas imagens dão a impressão do que são, mas assim que você realmente as olha, tudo se desmorona. Rostos humanos são particularmente perturbadores.
RELACIONADOS: Deixamos o ChatGPT criar arte de IA, aqui está o que ela fez
MidJourney V2 (12 de abril de 2022)
V2 não parece um grande salto sobre V1, mas há uma melhoria definitiva na composição, especialmente perceptível na cena de rua dos anos 1920. O tigre branco definitivamente tem um contorno melhor do que antes, e o rosto da mulher é um pouco menos assustador.
Repare como, em algumas imagens, há uma espécie de pseudo-assinatura na peça. Isso ocorre porque a IA aprendeu que imagens de certos estilos têm assinaturas e, portanto, tentou reproduzir algo que se parece com uma.
MidJourney V3 (25 de julho de 2022)
Com o V3, estamos definitivamente vendo uma melhoria significativa na coerência e na composição. Os detalhes estão claramente apagados sem muito escrutínio, mas a quantidade de ruído aleatório é definitivamente reduzida e as imagens fazem mais sentido ao olho humano.
MidJourney V4 (5 de novembro de 2022)
Agora estamos a falar! V4 mostra uma melhoria dramática na composição, detalhes e como as imagens são dinâmicas e imaginativas. Pouco mais de meio ano desde a V1, e essas imagens estão definitivamente no reino da usabilidade, muitas vezes do jeito que estão sem edição adicional. É preciso muito mais escrutínio para identificar falhas de IA reveladoras.
MidJourney V5 (15 de março de 2023)
As melhorias com o V5 são um pouco mais sutis do que antes, mas são substanciais. Além do aprimoramento técnico de detalhes e composição, essas peças parecem mais “imaginativas”, com ainda mais dinâmica, opções de cores mais amplas e apresentação geral muito mais agradável. Embora o V4 certamente tenha movido as imagens resultantes para a zona cinzenta entre a melhor proficiência técnica humana e o que a geração de IA pode fazer, o V5 torna praticamente impossível dizer que essas imagens são feitas por IA quando o MidJourney está disparando em todos os cilindros.
RELACIONADOS: Desculpe, AI Art, seu algoritmo não pode substituir a criatividade humana
O V5 também é notável por abordar um dos maiores problemas na geração de imagens de IA: as mãos!
A imagem acima do V5 mostra que o problema foi resolvido em geral, embora aqui você ainda possa ver que uma das mãos pode ter um mindinho ausente ou simplesmente obscurecido. Casos extremos como esses ainda escapam, mas parece que os dias das pessoas com mãos de 7 dedos podem estar quase no fim.
MidJourney V5.1 (3 de maio de 2023)
Embora a última atualização do modelo que estamos vendo aqui possa ser apenas uma atualização “.1”, certamente não há como confundir a melhoria. Com base nos fundamentos do V5, o V5.1 aprimora as pequenas falhas do V5 enquanto, a nosso ver, mostra uma melhoria inconfundível na expressão e no talento artístico geral.
É difícil imaginar para onde MidJourney pode ir a partir daqui, mas a quantidade de progresso até agora é simplesmente alucinante e mal podemos esperar para ver o que é possível a seguir.
RELACIONADO: Como criar arte de IA sintética com Midjourney