Jak uruchomić stabilną dyfuzję lokalnie za pomocą GUI w systemie Windows?

Opublikowany: 2022-09-18

Obraz nagłówka. Dziwny sęp, uroczy szary kot i cybernetyczna meduza.

Możesz zainstalować Stable Diffusion lokalnie na swoim komputerze, ale typowy proces wymaga dużo pracy z wierszem poleceń do zainstalowania i używania. Na szczęście dla nas społeczność Stable Diffusion rozwiązała ten problem. Oto jak zainstalować wersję Stable Diffusion, która działa lokalnie z graficznym interfejsem użytkownika!

Spis treści

Co to jest stabilna dyfuzja?
Czego potrzebujesz, aby uruchomić tę wersję stabilnej dyfuzji?
Jak zainstalować stabilną dyfuzję za pomocą GUI
Najpierw zainstaluj Pythona
Zainstaluj Git i pobierz repozytorium GitHub
Pobierz wszystkie punkty kontrolne
Jak generować obrazy za pomocą stabilnej dyfuzji za pomocą GUI
Jak maskować obrazy, które tworzysz, aby zamalować?
Jak naprawić błąd „CUDA Out Of Memory”?

Co to jest stabilna dyfuzja?

Stable Diffusion to model AI, który może generować obrazy z monitów tekstowych lub modyfikować istniejące obrazy za pomocą monitu tekstowego, podobnie jak MidJourney lub DALL-E 2. Został wydany po raz pierwszy w sierpniu 2022 r. przez Stability.ai. Rozumie tysiące różnych słów i może być wykorzystany do stworzenia niemal każdego obrazu, jaki Twoja wyobraźnia może wyczarować w niemal każdym stylu.

Istnieją jednak dwie krytyczne różnice, które odróżniają stabilną dyfuzję od większości innych popularnych generatorów grafiki AI:

  • Można go uruchomić lokalnie na komputerze
  • Jest to projekt open-source
Stabilna dyfuzja przenosi lokalną generację sztuki AI na Twój komputer
POWIĄZANA stabilna dyfuzja przenosi lokalną generację sztuki AI na Twój komputer

Ostatni punkt jest tutaj naprawdę ważny. Tradycyjnie Stable Diffusion jest instalowane i uruchamiane za pomocą interfejsu wiersza poleceń. To działa, ale może być niezgrabne, nieintuicyjne i stanowi istotną barierę wejścia dla osób, które w przeciwnym razie byłyby zainteresowane. Ale ponieważ jest to projekt typu open source, społeczność szybko stworzyła dla niego interfejs użytkownika i zaczęła dodawać własne rozszerzenia, w tym optymalizacje w celu zminimalizowania użycia pamięci wideo (VRAM) oraz wbudowania skalowania i maskowania.

Czego potrzebujesz, aby uruchomić tę wersję stabilnej dyfuzji?

Ta wersja Stable Diffusion jest rozwidleniem — odgałęzieniem — głównego repozytorium (repo) stworzonego i utrzymywanego przez Stability.ai. Ma graficzny interfejs użytkownika (GUI) – dzięki czemu jest łatwiejszy w użyciu niż zwykła stabilna dyfuzja, która ma tylko interfejs wiersza poleceń – oraz instalator, który automatycznie obsłuży większość konfiguracji.

POWIĄZANE: Jak uruchomić stabilną dyfuzję na komputerze, aby wygenerować obrazy AI?

Ostrzeżenie: jak zawsze, uważaj na oprogramowanie innych firm, które znajdziesz na GitHub. Używamy tego od jakiegoś czasu bez żadnych problemów, podobnie jak tysiące innych, więc jesteśmy skłonni powiedzieć, że jest bezpieczny. Na szczęście kod i zmiany tutaj są niewielkie w porównaniu z niektórymi rozwidleniami projektów open-source.

Ten widelec zawiera również różne optymalizacje, które powinny pozwolić mu działać na komputerach z mniejszą ilością pamięci RAM, wbudowane funkcje skalowania i twarzy przy użyciu GFPGAN, ESRGAN, RealESRGAN i CodeFormer oraz maskowania. Maskowanie to poważna sprawa — pozwala selektywnie zastosować generowanie obrazu AI do niektórych części obrazu bez zniekształcania innych części, co zwykle nazywa się zamalowywaniem.

  • Co najmniej 10 gigabajtów wolnego miejsca na dysku twardym
  • Procesor graficzny NVIDIA z 6 GB pamięci RAM (chociaż możesz sprawić, że 4 GB będą działać)
  • Komputer z systemem Windows 11, Windows 10, Windows 8.1 lub Windows 8
  • Repozytorium GitHub WebUI firmy AUTOMATIC1111
  • Python 3.10.6 (nowsze wersje i większość starszych wersji również powinny być w porządku)
  • Oficjalne punkty kontrolne stabilnej dyfuzji (uważaj na punkty kontrolne v1.5 pod koniec września!)
  • Punkty kontrolne GFPGAN v1.3 (v1.4 też może działać)
  • Wszelkie dodatkowe modele ESRGAN, których możesz potrzebować. Możesz użyć tylu lub kilku, ile chcesz.

Jak zainstalować stabilną dyfuzję za pomocą GUI

Proces instalacji został znacznie uproszczony, ale nadal istnieje kilka kroków, które musisz wykonać ręcznie, zanim będzie można użyć instalatora.

Najpierw zainstaluj Pythona

Pierwszą rzeczą, którą powinieneś zrobić, to zainstalować wersję Pythona, 3.10.6, zalecaną przez autora repozytorium. Przejdź do tego linku, przewiń w dół strony i kliknij "Instalator Windows (64-bitowy)".

Kliknij pobrany plik wykonywalny i przejdź przez monity. Jeśli masz już zainstalowany Python (i na pewno masz), po prostu kliknij „Uaktualnij”. W przeciwnym razie postępuj zgodnie z zalecanymi monitami.

Uwaga: Upewnij się, że dodasz Pythona 3.10.6 do PATH, jeśli masz taką opcję.

Zainstaluj Git i pobierz repozytorium GitHub

Musisz pobrać i zainstalować Git w systemie Windows, zanim będzie można uruchomić instalator Stable Diffusion. Po prostu pobierz 64-bitowy plik wykonywalny Git, uruchom go i użyj zalecanych ustawień, chyba że masz coś konkretnego na myśli.

POWIĄZANE: Jak zainstalować Git w systemie Windows

Następnie musisz pobrać pliki z repozytorium GitHub. Kliknij zielony przycisk „Kod”, a następnie kliknij „Pobierz ZIP” na dole menu.

Otwórz plik ZIP w Eksploratorze plików lub preferowanym programie do archiwizacji plików, a następnie wyodrębnij zawartość w dowolnym miejscu. Pamiętaj tylko, że folder jest miejscem, w którym musisz przejść, aby uruchomić stabilną dyfuzję. W tym przykładzie wyodrębniono je do katalogu C:\, ale to nie jest konieczne.

Przeciągnij folder „stable-diffusion-webui-master” w dowolne miejsce.

Uwaga: Upewnij się, że przypadkowo nie przeciągniesz „stable-diffusion-webui-master” do innego folderu, a nie do pustego miejsca — jeśli to zrobisz, wpadnie on do tego folderu, a nie do folderu nadrzędnego, który zamierzałeś.

Pobierz wszystkie punkty kontrolne

Aby to zadziałało, potrzebujesz kilku punktów kontrolnych. Pierwszym i najważniejszym są punkty kontrolne stabilnej dyfuzji. Aby pobrać punkty kontrolne, musisz utworzyć konto, ale nie jest to zbyt wiele wymagane do konta — wystarczy imię i adres e-mail i możesz już iść.

Uwaga: Pobieranie punktów kontrolnych zajmuje kilka gigabajtów. Nie oczekuj, że zostanie to zrobione natychmiast.

Skopiuj i wklej „sd-v1-4.ckpt” do folderu „stable-diffusion-webui-master” z poprzedniej sekcji, a następnie kliknij prawym przyciskiem myszy „sd-v1-4.ckpt” i naciśnij zmień nazwę. Wpisz „model.ckpt” w polu tekstowym i naciśnij Enter. Upewnij się, że jest to „model.ckpt” — inaczej nie zadziała.

Uwaga: funkcja zmiany nazwy to ikona w systemie Windows 11.

Musisz także pobrać punkty kontrolne GFPgan. Autor repozytorium, którego używamy, wywołał punkty kontrolne GFPGAN v1.3, ale możesz użyć wersji 1.4, jeśli chcesz ją wypróbować. Przewiń stronę w dół, a następnie kliknij „Model V1.3”.

Umieść ten plik „GFPGANv1.3.pth” w folderze „stable-diffusion-webui-master”, tak jak w przypadku pliku „sd-v1-4.ckpt”, ale nie zmieniaj jego nazwy. Folder „stable-diffusion-webui-master” powinien teraz zawierać te pliki:

Tak powinien wyglądać folder po zmianie nazwy modelu Stable Diffusion i dodaniu modelu GFPGAN.

Możesz także pobrać dowolną liczbę punktów kontrolnych ESRGAN. Zazwyczaj są one spakowane jako pliki ZIP. Po pobraniu otwórz plik ZIP, a następnie rozpakuj plik „.pth” do folderu „ESRGAN”. Oto przykład:

Lokalizacja modeli ESRGAN.

Modele ESRGAN mają zwykle bardziej konkretną funkcjonalność, więc wybierz kilka, które Ci się podobają.

Teraz wystarczy dwukrotnie kliknąć plik „webui-user.bat”, który znajduje się w głównym folderze „stable-diffusion-webui-master”. Pojawi się okno konsoli i rozpocznie się pobieranie wszystkich innych ważnych plików, budowanie środowiska Pythona i konfigurowanie internetowego interfejsu użytkownika. Będzie to wyglądać tak:

Uwaga: Oczekuj, że pierwsze uruchomienie zajmie co najmniej kilka minut. Musi pobrać sporo rzeczy z Internetu. Jeśli wydaje się, że zawiesza się przez nierozsądnie długi czas na jednym kroku, po prostu spróbuj wybrać okno konsoli i nacisnąć klawisz Enter.

Klient WebUI pobierający i instalujący wszystkie zasoby.

Po zakończeniu konsola wyświetli:

 Działa na lokalnym adresie URL: http://127.0.0.1:7860
Aby utworzyć link publiczny, ustaw `share=True` w `launch()`

POWIĄZANE: Jaki jest adres IP 127.0.0.1 i jak go używać?

Jak generować obrazy za pomocą stabilnej dyfuzji za pomocą GUI

W porządku, zainstalowałeś wariant WebUI Stabilnego rozproszenia, a Twoja konsola poinformowała Cię, że „działa na lokalnym adresie URL: http://127.0.0.1:7860”.

Uwaga: Co to dokładnie oznacza, co się dzieje? 127.0.0.1 to adres localhost — adres IP, który nadaje sobie komputer. Ta wersja Stable Diffusion tworzy serwer na lokalnym komputerze, który jest dostępny za pośrednictwem własnego adresu IP, ale tylko wtedy, gdy łączysz się przez właściwy port: 7860.

Otwórz przeglądarkę, wpisz „127.0.0.1:7860” lub „localhost:7860” w pasku adresu i naciśnij Enter. Zobaczysz to na karcie txt2img:

Strona główna klienta WebUI w Google Chrome.

Jeśli korzystałeś już wcześniej ze stabilnej dyfuzji, te ustawienia będą Ci znajome, ale oto krótki przegląd znaczenia najważniejszych opcji:

  • Monit: opis tego, co chcesz stworzyć.
  • Przycisk przewijania: Stosuje losowy styl artystyczny do monitu.
  • Kroki próbkowania: ile razy obraz zostanie poprawiony przed otrzymaniem danych wyjściowych. Im więcej, tym lepiej, ale wyniki są coraz mniejsze.
  • Metoda próbkowania: Podstawowa matematyka, która reguluje sposób obsługi próbkowania. Możesz użyć dowolnego z nich, ale euler_a i PLMS wydają się być najpopularniejszymi opcjami. Więcej o PLMS można przeczytać w tym artykule.
  • Przywróć twarze: używa GFPGAN, aby spróbować naprawić niesamowite lub zniekształcone twarze.
  • Batch Count: Liczba obrazów do wygenerowania.
  • Wielkość partii: liczba „partii”. Utrzymuj to na 1, chyba że masz ogromną ilość pamięci VRAM.
  • Skala CFG: Jak ostrożnie Stabilna Dyfuzja będzie postępować zgodnie z podpowiedziami, które jej udzielisz. Większe liczby oznaczają, że podąża za nim bardzo uważnie, podczas gdy mniejsze liczby dają mu większą swobodę twórczą.
  • Szerokość: szerokość obrazu, który chcesz wygenerować.
  • Wysokość: szerokość obrazu, który chcesz wygenerować.
  • Ziarno: liczba, która zapewnia początkowe dane wejściowe dla generatora liczb losowych. Pozostaw na -1, aby losowo wygenerować nowe ziarno.

Wygenerujmy pięć obrazów na podstawie podpowiedzi: „wyżynna krowa w magicznym lesie, film 35mm, ostry” i zobaczmy, co uzyskamy za pomocą próbnika PLMS, 50 kroków próbkowania i skali CFG 5.

Wskazówka: zawsze możesz nacisnąć przycisk „Przerwij”, aby zatrzymać generowanie, jeśli Twoja praca trwa zbyt długo.

Okno wyjściowe będzie wyglądać tak:

Wyjście do monitu o krowy górskie. Pięć krów górskich, dwie czarno-białe.

Uwaga: Twoje obrazy będą inne.

Górny środkowy obraz to ten, którego użyjemy do maskowania nieco później. Tak naprawdę nie ma powodu dla tego konkretnego wyboru poza osobistymi preferencjami. Chwyć dowolny obraz, który Ci się podoba.

Urocza krowa wyżynna w lesie.

Wybierz go, a następnie kliknij „Wyślij do programu Inpaint”.

Jak maskować obrazy, które tworzysz, aby zamalować?

Malowanie to fantastyczna funkcja. Zwykle do tworzenia całych obrazów na podstawie monitu używana jest stabilna dyfuzja, ale odmalowywanie umożliwia selektywne generowanie (lub regenerowanie) części obrazu. Są tutaj dwie krytyczne opcje: inpaint zamaskowany, inpaint nie zamaskowany.

Zamaskowane zamalowanie użyje monitu do wygenerowania obrazów w podświetlonym obszarze, podczas gdy zamalowanie nie zamaskowane zrobi dokładnie odwrotnie — zachowany zostanie tylko zamaskowany obszar.

Najpierw omówimy trochę o maskowaniu Inpaint. Przeciągnij myszą po obrazie, trzymając lewy przycisk myszy, a zauważysz białą warstwę pojawiającą się nad obrazem. Narysuj kształt obszaru, który chcesz zastąpić, i upewnij się, że wypełniłeś go całkowicie. Nie okrążasz regionu, maskujesz cały region.

Porada: Jeśli po prostu dodajesz coś do istniejącego obrazu, warto spróbować wyrównać zamaskowany region z przybliżonym kształtem, który próbujesz utworzyć. Maskowanie trójkątnego kształtu, gdy chcesz na przykład okręgu, przynosi efekt przeciwny do zamierzonego.

Weźmy przykład z krowy wyżynnej i dajmy jej czapkę kucharza. Zamaskuj region w kształcie zbliżonym do czapki szefa kuchni i upewnij się, że ustawiłeś „Rozmiar wsadu” na więcej niż 1. Prawdopodobnie będziesz potrzebować wielu, aby uzyskać idealny(a) wynik.

Ponadto należy wybrać „Utajony hałas” zamiast „Wypełnij”, „Oryginał” lub „Ukryte nic”. Daje najlepsze rezultaty, gdy chcesz wygenerować zupełnie nowy obiekt w scenie.

Uwaga: zauważysz, że lewa krawędź kapelusza usunęła część jego rogu. Stało się tak, ponieważ ustawienie „Rozmycie maski” było nieco za wysokie. Jeśli widzisz takie rzeczy na swoich obrazach, spróbuj zmniejszyć wartość „Rozmycie maski”.
Krowa góralska w czapce kucharskiej.
Monit: Czapka szefa kuchni Ustawienia: Zamaskowane farbą, Utajona dyfuzja, CFG 9.5, siła odszumiania 0,75, Kroki próbkowania = 50, Metoda próbkowania = Euler_A

W porządku — może kapelusz szefa kuchni nie jest właściwym wyborem dla twojej górskiej krowy. Twoja krowa góralska jest bardziej w klimatach początku XX wieku, więc dajmy mu melonik.

Krowa góralska w meloniku.
Monit: Kapelusz Bwel Ustawienia: Zamaskowane farbą, Utajona dyfuzja, CFG 9,5, siła odszumiania 0,75, Kroki próbkowania = 50, Metoda próbkowania = Euler_A

Jak pozytywnie elegancki.

Oczywiście możesz też zrobić dokładnie odwrotnie z Inpaint Not Masked. Jest koncepcyjnie podobny, z wyjątkiem tego, że definiowane regiony są odwrócone. Zamiast zaznaczać region, który chcesz zmienić, zaznaczasz regiony, które chcesz zachować. Często przydaje się, gdy chcesz przenieść mały obiekt na inne tło.

Jak naprawić błąd „CUDA Out Of Memory”?

Im większy obraz zrobisz, tym więcej pamięci wideo jest wymagane. Pierwszą rzeczą, którą powinieneś spróbować, jest generowanie mniejszych obrazów. Stabilna dyfuzja daje dobre — choć bardzo różne — obrazy w rozdzielczości 256×256.

Jeśli masz ochotę tworzyć większe obrazy na komputerze, który nie ma problemów z obrazami 512 × 512, lub napotykasz różne błędy „braku pamięci”, w konfiguracji należy wprowadzić pewne zmiany, które powinny pomóc.

Otwórz „webui-user.bat” w Notatniku lub dowolnym innym edytorze zwykłego tekstu. Wystarczy kliknąć prawym przyciskiem myszy „webui-user.bat”, kliknąć „Edytuj”, a następnie wybrać Notatnik. Zidentyfikuj wiersz, który odczytuje set COMMANDLINE_ARGS= . W tym miejscu umieścisz polecenia, aby zoptymalizować działanie stabilnej dyfuzji.

POWIĄZANE: Jak napisać skrypt wsadowy w systemie Windows

Jeśli chcesz po prostu robić ogromne zdjęcia lub kończy Ci się pamięć RAM na procesorze graficznym z serii GTX 10XX, wypróbuj --opt-split-attention . Będzie to wyglądać tak:

Następnie kliknij Plik > Zapisz. Alternatywnie możesz nacisnąć Ctrl + S na klawiaturze.

Jeśli nadal otrzymujesz błędy pamięci, spróbuj dodać --medvram do listy argumentów wiersza poleceń (COMMANDLINE_ARGS).

Możesz dodać --always-batch-cond-uncond , aby spróbować naprawić dodatkowe problemy z pamięcią, jeśli poprzednie polecenia nie pomogły. Istnieje również alternatywa dla --medvram , która może jeszcze bardziej zmniejszyć zużycie pamięci VRAM, --lowvram , ale nie możemy potwierdzić, czy rzeczywiście zadziała.

Dodanie interfejsu użytkownika jest krytycznym krokiem naprzód w udostępnianiu tego rodzaju narzędzi opartych na sztucznej inteligencji dla wszystkich. Możliwości są prawie nieskończone, a nawet szybki rzut oka na społeczności internetowe poświęcone sztuce sztucznej inteligencji pokaże Ci, jak potężna jest ta technologia, nawet w powijakach. Oczywiście, jeśli nie masz komputera do gier lub nie chcesz się martwić o konfigurację, zawsze możesz skorzystać z jednego z internetowych generatorów sztuki AI. Pamiętaj tylko, że nie możesz zakładać, że Twoje wpisy są prywatne.