Jak uruchomić stabilną dyfuzję na komputerze, aby generować obrazy AI?

Opublikowany: 2022-09-10

Wygenerowany przez sztuczną inteligencję magiczny susły, artystyczny sęp egipski i dramatyczny wschód księżyca nad pustynią. Obraz nagłówka.

Sztuka sztucznej inteligencji (AI) jest obecnie modna, ale większość generatorów obrazów AI działa w chmurze. Stabilna dyfuzja jest inna — możesz ją uruchomić na swoim własnym komputerze i wygenerować tyle obrazów, ile chcesz. Oto jak zainstalować i używać Stable Diffusion w systemie Windows.

Spis treści

Co to jest stabilna dyfuzja?
Czego potrzebujesz, aby uruchomić stabilną dyfuzję na swoim komputerze?
Jak zainstalować i uruchomić stabilną dyfuzję w systemie Windows
Instalowanie Gita
Instalowanie Minicondy3
Pobierz repozytorium Stable Diffusion GitHub i najnowszy punkt kontrolny
Jak korzystać ze stabilnej dyfuzji
Jak zrobić obraz ze stabilną dyfuzją
Co oznaczają argumenty w poleceniu?

Co to jest stabilna dyfuzja?

Stabilna dyfuzja to model uczenia maszynowego typu open source, który może generować obrazy z tekstu, modyfikować obrazy na podstawie tekstu lub uzupełniać szczegóły na obrazach o niskiej rozdzielczości lub o niskiej szczegółowości. Został przeszkolony na miliardach obrazów i może dawać wyniki porównywalne z tymi, które można uzyskać z DALL-E 2 i MidJourney. Został opracowany przez Stability AI i został po raz pierwszy wydany publicznie 22 sierpnia 2022 roku.

Jak stworzyć syntetyczną grafikę AI za pomocą Midjourney?
POWIĄZANE Jak stworzyć syntetyczną sztuczną sztuczną sztukę za pomocą Midjourney

Stable Diffusion nie ma (jeszcze) uporządkowanego interfejsu użytkownika, jak niektóre generatory obrazów AI, ale ma niezwykle liberalną licencję i – co najważniejsze – jest całkowicie darmowy do użytku na własnym komputerze PC (lub Mac).

Nie daj się zastraszyć faktem, że Stable Diffusion obecnie działa w interfejsie wiersza poleceń (CLI). Uruchomienie go i uruchomienie jest całkiem proste. Jeśli możesz dwukrotnie kliknąć plik wykonywalny i wpisać w polu, możesz uruchomić go w ciągu kilku minut.

Czego potrzebujesz, aby uruchomić stabilną dyfuzję na swoim komputerze?

Stable Diffusion nie będzie działać na Twoim telefonie ani większości laptopów, ale będzie działać na przeciętnym komputerze do gier w 2022 roku. Oto wymagania:

  • GPU z co najmniej 6 gigabajtami (GB) pamięci VRAM
    • Obejmuje to większość nowoczesnych procesorów graficznych NVIDIA
  • 10 GB (ish) miejsca na dysku twardym lub dysku SSD
  • Instalator Miniconda3
  • Pliki stabilnej dyfuzji z GitHub
  • Najnowsze punkty kontrolne (wersja 1.4, w chwili pisania tego tekstu, ale wersja 1.5 powinna zostać wkrótce wydana)
  • Instalator Git
  • Windows 8, 10 lub 11
    • Stabilną dyfuzję można również uruchomić w systemach Linux i macOS

Jak zainstalować i uruchomić stabilną dyfuzję w systemie Windows

Potrzebujesz dwóch programów: Git i Miniconda3.

Uwaga: Git i Miniconda3 to bezpieczne programy produkowane przez renomowane organizacje. Nie musisz się martwić o złośliwe oprogramowanie, pod warunkiem, że pobierzesz je z oficjalnych źródeł, do których linki znajdują się w tym artykule.

Instalowanie Gita

Git to narzędzie, które pozwala programistom zarządzać różnymi wersjami oprogramowania, które tworzą. Mogą jednocześnie utrzymywać wiele wersji oprogramowania, nad którymi pracują, w centralnym repozytorium i umożliwiać innym deweloperom udział w projekcie.

POWIĄZANE: Co to jest GitHub i do czego służy?

Jeśli nie jesteś programistą, Git zapewnia wygodny sposób uzyskiwania dostępu do tych projektów i ich pobierania, i właśnie tak będziemy go używać w tym przypadku. Pobierz instalator Windows x64 z witryny Git, a następnie uruchom go.

Istnieje kilka opcji, które zostaną poproszone o wybranie podczas działania instalatora — pozostaw je z ustawieniami domyślnymi. Jedna strona opcji, „Dostosowywanie środowiska PATH”, jest szczególnie ważna. Musi być ustawiony na „Git z wiersza poleceń, a także z oprogramowania innych firm”.

Upewnij się, że wybrana jest opcja „Git z wiersza poleceń, a także z oprogramowania innych firm”.

Instalowanie Minicondy3

Stable Diffusion korzysta z kilku różnych bibliotek Pythona. Jeśli nie wiesz zbyt wiele o Pythonie, nie przejmuj się tym — wystarczy powiedzieć, że biblioteki to tylko pakiety oprogramowania, których Twój komputer może używać do wykonywania określonych funkcji, takich jak przekształcanie obrazu lub wykonywanie złożonej matematyki.

POWIĄZANE: Co to jest Python?

Miniconda3 to w zasadzie wygodne narzędzie. Pozwala pobierać, instalować i zarządzać wszystkimi bibliotekami wymaganymi do działania Stable Diffusion bez konieczności ingerencji ręcznej. Będzie to również sposób, w jaki faktycznie używamy stabilnej dyfuzji.

Przejdź do strony pobierania Miniconda3 i kliknij "Miniconda3 Windows 64-bit", aby pobrać najnowszy instalator.

Kliknij dwukrotnie plik wykonywalny po jego pobraniu, aby rozpocząć instalację. Instalacja Miniconda3 wymaga mniej klikania stron niż Git, ale musisz uważać na tę opcję:

Zaznacz pole „Wszyscy użytkownicy”.

Upewnij się, że wybrałeś „Wszyscy użytkownicy” przed kliknięciem przycisku Dalej i zakończeniem instalacji.

Zostaniesz poproszony o ponowne uruchomienie komputera po zainstalowaniu Git i Miniconda3. Nie uznaliśmy tego za konieczne, ale nie zaszkodzi, jeśli to zrobisz.

Pobierz repozytorium Stable Diffusion GitHub i najnowszy punkt kontrolny

Po zainstalowaniu wstępnie wymaganego oprogramowania jesteśmy gotowi do pobrania i zainstalowania Stable Diffusion.

Najpierw pobierz najnowszy punkt kontrolny — wersja 1.4 ma prawie 5 GB, więc może to trochę potrwać. Aby pobrać punkt kontrolny, musisz utworzyć konto, ale wymagają one tylko nazwiska i adresu e-mail. Wszystko inne jest opcjonalne.

Uwaga: w momencie pisania tego tekstu (2 września 2022 r.) najnowszym punktem kontrolnym jest wersja 1.4. Jeśli istnieje nowsza wersja, pobierz ją.

Kliknij „sd-v1-4.ckpt”, aby rozpocząć pobieranie.

Uwaga: drugi plik, „sd-v1-4-full-ema.ckpt”, może zapewnić lepsze wyniki, ale jest około dwukrotnie większy. Możesz użyć albo.

Następnie musisz pobrać Stable Diffusion z GitHub. Kliknij zielony przycisk „Kod”, a następnie kliknij „Pobierz ZIP”. Alternatywnie możesz użyć tego bezpośredniego łącza pobierania.

Teraz musimy przygotować kilka folderów, w których rozpakujemy wszystkie pliki Stable Diffusion. Kliknij przycisk Start i wpisz „miniconda3” w pasku wyszukiwania menu Start, a następnie kliknij „Otwórz” lub naciśnij Enter.

Utworzymy folder o nazwie „stable-diffusion” za pomocą wiersza poleceń. Skopiuj i wklej poniższy blok kodu do okna Miniconda3, a następnie naciśnij Enter.

 CDC:/
mkdir stabilna-dyfuzja
cd stabilna dyfuzja
Uwaga: Prawie za każdym razem, gdy wklejasz blok kodu do terminala, takiego jak Miniconda3, musisz nacisnąć Enter na końcu, aby uruchomić ostatnie polecenie.

Jeśli wszystko poszło dobrze, zobaczysz coś takiego:

Terminal Minoconda3 pokazujący pomyślne wykonywanie poleceń.

Nie zamykaj okna Miniconda3, będziemy potrzebować go ponownie za minutę.

Otwórz plik ZIP „stable-diffusion-main.zip”, który pobrałeś z GitHub w swoim ulubionym programie do archiwizacji plików. Alternatywnie system Windows może również samodzielnie otwierać pliki ZIP, jeśli ich nie masz. Pozostaw plik ZIP otwarty w jednym oknie, a następnie otwórz inne okno Eksploratora plików i przejdź do folderu "C: \ stabilne-dyfuzja", który właśnie stworzyliśmy.

POWIĄZANE: Uzyskaj pomoc z Eksploratorem plików w systemie Windows 10

Przeciągnij i upuść folder w pliku ZIP „stable-diffusion-main” do folderu „stable-diffusion”.

Przeciągnij i upuść zawartość pliku ZIP do folderu stable-diffusion.

Wróć do Miniconda3, a następnie skopiuj i wklej następujące polecenia w oknie:

 cd C:\stabilna-dyfuzja\stabilna-dyfuzyjna-główna
conda env create -f environment.yaml
conda aktywuj ldm
modele mkdir\ldm\stable-diffusion-v1 

Poczekaj na zakończenie pobierania.

Nie przerywaj tego procesu. Niektóre pliki są większe niż gigabajt, więc pobranie może trochę potrwać. Jeśli przypadkowo przerwasz proces, będziesz musiał usunąć folder środowiska i ponownie uruchomić conda env create -f environment.yaml . Jeśli tak się stanie, przejdź do „C:\Użytkownicy\(Twoje konto użytkownika)\.conda\envs” i usuń folder „ldm”, a następnie uruchom poprzednie polecenie.

Uwaga: Więc co właśnie zrobiliśmy? Python pozwala sortować projekty kodowania na „środowiska”. Każde środowisko jest oddzielone od innych środowisk, dzięki czemu możesz ładować różne biblioteki Pythona do różnych środowisk, nie martwiąc się o wersje powodujące konflikty. Jest to nieocenione, jeśli pracujesz nad wieloma projektami na jednym komputerze.

Linie, które uruchomiliśmy, utworzyły nowe środowisko o nazwie „ldm”, pobrały i zainstalowały wszystkie niezbędne biblioteki Pythona do działania Stable Diffusion, aktywowały środowisko ldm, a następnie zmieniły katalog na nowy folder.

Jesteśmy na ostatnim etapie instalacji. Przejdź do „C:\stable-diffusion\stable-diffusion-main\models\ldm\stable-diffusion-v1” w Eksploratorze plików, a następnie skopiuj i wklej plik punktu kontrolnego (sd-v1-4.ckpt) do folderu.

Skopiuj plik modelu do folderu stable-diffuse-v1.

Poczekaj na zakończenie przesyłania pliku, kliknij prawym przyciskiem myszy „sd-v1-4.ckpt”, a następnie kliknij „Zmień nazwę”. Wpisz „model.ckpt” w podświetlonym polu, a następnie naciśnij Enter, aby zmienić nazwę pliku.

Uwaga: jeśli używasz systemu Windows 11, nie zobaczysz „zmień nazwę” w menu kontekstowym prawym przyciskiem myszy. Zamiast tego jest ikona, która wygląda jak miniaturowe pole tekstowe.

POWIĄZANE: Małe przyciski menu kontekstowego systemu Windows 11 będą mylić ludzi

Zmień nazwę pliku modelu „model.ckpt”

I to wszystko – gotowe. Jesteśmy teraz gotowi do użycia stabilnej dyfuzji.

Jak korzystać ze stabilnej dyfuzji

Stworzone przez nas środowisko ldm jest niezbędne i musisz je aktywować za każdym razem, gdy chcesz korzystać ze stabilnej dyfuzji. Wpisz conda activate ldm w oknie Miniconda3 i naciśnij „Enter”. Symbol (ldm) po lewej stronie wskazuje, że środowisko ldm jest aktywne.

Uwaga: to polecenie musisz wpisać tylko podczas otwierania Miniconda3. Środowisko ldm pozostanie aktywne tak długo, jak nie zamkniesz okna.

Aktywuj środowisko ldm.

Następnie musimy zmienić katalog (stąd polecenie cd ) na „C:\stable-diffusion\stable-diffusion-main”, zanim będziemy mogli wygenerować jakiekolwiek obrazy. Wklej cd C:\stable-diffusion\stable-diffusion-main do wiersza poleceń.

Jak zrobić obraz ze stabilną dyfuzją

Wywołamy skrypt, txt2img.py, który pozwoli nam przekonwertować podpowiedzi tekstowe na obrazy 512×512. Oto przykład. Wypróbuj to, aby upewnić się, że wszystko działa poprawnie:

 python scripts/txt2img.py --prompt "zbliżony portret kota autorstwa Pablo Picasso, żywy, abstrakcyjny obraz, kolorowy, żywy" --plms --n_iter 5 --n_samples 1

Twoja konsola wyświetli wskaźnik postępu podczas tworzenia zdjęć.

Obrazy generujące stabilną dyfuzję.

To polecenie wygeneruje pięć obrazów kotów, wszystkie znajdujące się w „C:\stable-diffusion\stable-diffusion-main\outputs\txt2img-samples\samples”.

Kot w stylu Pabla Picassa.

Nie jest idealny, ale wyraźnie przypomina styl Pabla Picassa, dokładnie tak, jak określiliśmy w podpowiedzi. Twoje obrazy powinny wyglądać podobnie, ale niekoniecznie identycznie.

Za każdym razem, gdy chcesz zmienić generowany obraz, wystarczy zmienić tekst zawarty w podwójnych cudzysłowach po --prompt .

Wskazówka: nie przepisuj za każdym razem całej linii. Użyj klawiszy strzałek, aby przesunąć kursor tekstowy i po prostu zastąp monit.
 python scripts/txt2img.py --prompt " TWÓJ, OPISY, PRZEJDŹ, TUTAJ " --plms --n_iter 5 --n_samples 1

Powiedzmy, że chcieliśmy stworzyć realistycznie wyglądającego susła w magicznym lesie w kapeluszu czarodzieja. Mogliśmy wypróbować polecenie:

 python scripts/txt2img.py --prompt "zdjęcie świstaka w kapeluszu czarodzieja w lesie, żywe, fotorealistyczne, magiczne, fantasy, 8K UHD, fotografia" --plms --n_iter 5 --n_samples 1 

Suseł w fioletowym kapeluszu czarodzieja.

To naprawdę takie proste — po prostu opisz, czego chcesz, jak najdokładniej. Jeśli chcesz czegoś fotorealistycznego, upewnij się, że zawiera terminy odnoszące się do realistycznego obrazu. Jeśli chcesz coś inspirowanego stylem konkretnego artysty, określ artystę.

Stabilna dyfuzja nie ogranicza się również do portretów i zwierząt, może również tworzyć zachwycające krajobrazy.

Spokojne jezioro z otaczającymi go górami i dramatycznym niebem.

Co oznaczają argumenty w poleceniu?

Stabilna dyfuzja ma ogromną liczbę ustawień i argumentów, które możesz podać, aby dostosować swoje wyniki. Kilka zawartych tutaj jest zasadniczo niezbędnych, aby stabilna dyfuzja działała na przeciętnym komputerze do gier.

  • –plms — Określa sposób próbkowania obrazów. Jest o tym artykuł, jeśli chcesz sprawdzić matematykę.
  • –n_iter — określa liczbę iteracji, które chcesz wygenerować dla każdego pytania. 5 to przyzwoita liczba, aby zobaczyć, jakie otrzymujesz wyniki.
  • –n_samples — określa liczbę próbek, które zostaną wygenerowane. Wartość domyślna to 3, ale większość komputerów nie ma wystarczającej ilości pamięci VRAM, aby to obsłużyć. Trzymaj się 1, chyba że masz konkretny powód, aby to zmienić.

Oczywiście stabilna dyfuzja ma mnóstwo różnych argumentów, które możesz zastosować, aby poprawić swoje wyniki. Uruchom python scripts/txt2img.py --help , aby uzyskać pełną listę argumentów, których możesz użyć.

Aby uzyskać świetne wyniki, trzeba spróbować i błędów, ale to przynajmniej połowa zabawy. Upewnij się, że zapisałeś lub zapisałeś argumenty i opisy, które zwracają wyniki, które lubisz. Jeśli nie chcesz samemu eksperymentować, na Reddicie (i innych miejscach) rosną społeczności, które poświęcają się wymianie zdjęć i podpowiedzi, które je wygenerowały.