Stable Diffusion

Stable Diffusion - model AI do generowania obrazków na podstawie tekstu, podobny do Dall-E.

W przeciwieństwie do Dall-E, jest dostępny w 100% za darmo. :D

Można go przetestować na tej stronie: https://huggingface.co/spaces/stabilityai/stable-diffusion

Generowanie obrazków online

Linki na tej stronie są z listopada 2022 i mogą być nieaktualne.

Z modelu można dość łatwo skorzystać bez instalowania ani pobierania niczego :D

Potrzebne będzie:

konto Google

!! Achtung !! Niestety pojawiają się informacje, że Google zaczęło blokować modele jak Stable Diffusion na swojej platformie. Dlatego poniższy sposób może nie zadziałać. :(

1

Wejdź w ten link

2

Z menu "Runtime" (Środowisko wykonawcze) na górze wybierz "Change runtime type" (Zmień typ...) i upewnij się że z listy jest wybrane GPU. Kliknij Save.

Plik:Colab-gpu.png

3

Z tego samego menu wybierz "Run all" (Uruchom wszystko)

Plik:Colab-run.png

4

Poczekaj kilka minut aż wszystko się odpali i wejdź w link który pojawi się na dole strony. Colab zostaw otwarty w osobnej zakładce.

Plik:Colab-link.png

5

Gdy strona się załaduje, zmień rozmiar obrazka (parametry Width i Height) na 768

3. Generowanie obrazków! :D

Wpisz coś w polu Prompt i kliknij Generate.

Jeśli chcesz wygenerować więcej obrazków naraz zwiększ parametr "Batch size" (uwaga jeśli ustawi się za dużo, to czasem obrazki się nie ładują xD)

Większość opcji w generatorze ma opis po najechaniu myszką, można z nimi eksperymentować żeby dostać ciekawsze obrazki :D

Aby wyłączyć stronę wróć na Colab i z Runtime wybierz "Disconnect and delete runtime".

Używanie innych modeli online

Na podstawie Stable Diffusion powstało pełno innych modeli, ich lista dostępna jest na civitai.com oraz rentry.org. Dzieła niektórych modeli możesz zobaczyć w artykule Dziewczyny w czapkach - przewodnik.

!! Achtung !! Poniższy opis chwilowo nie działa :/ W międzyczasie możesz wypróbować kilka modeli które są dostępne tutaj: camenduru/stable-diffusion-webui-colab

Aby użyć któregoś z nich:

Poszukaj linka do modelu (plik .ckpt)
Skopiuj go, przejdź do Colab i wklej w polu "Link_CKPT" (w okienku Model Download/Load)
Kliknij w menu na górze Runtime > Run all (lub Restart and run all, jeśli już coś jest odpalone)

Jeśli model nie ma linka bezpośrednio do pliku .ckpt, tylko jest na jakimś hostingu lub torrencie:

Pobierz plik na swój komputer
Wrzuć na dysk Google (np. do głównego katalogu)
Wpisz ścieżkę do modelu w polu "Path_to_CKPT".
- Przykład: jeśli w głównym katalogu jest plik zarathustra.ckpt, ścieżka do niego to będzie /content/gdrive/MyDrive/zarathustra.ckpt

Stable Diffusion 1.4 / 1.5

Jeśli chcesz wypróbować starszą wersję modelu, będzie do tego potrzebne konto na Huggingface.co. Szczegóły tutaj: https://mruczek.wiki/index.php?title=Stable_Diffusion&oldid=24143

Generowanie obrazków offline

Poniżej znajdują się informacje na temat korzystania ze Stable Diffusion offline.

WAŻNE:

Upewnij się najpierw, że spełniasz wymagania sprzętowe.
Jeśli generowanie obrazków trwa bardzo długo, możliwe, że musisz coś dodatkowo skonfigurować w programie lub systemie.
Czas generowania zależy od używanego programu. Zmiana programu może pomóc.

Instalacja i uruchamianie oprogramowania

Istnieją różne narzędzia pozwalające generować obrazki lokalnie na swoim komputerze. Oto wybrane opcje, które są darmowe:

AUTOMATIC1111 - bardzo popularny wybór, ponieważ był jednym z pierwszych i jest cały czas aktywnie rozwijany. Nie należy do najbardziej intuicyjnych, ale powstało do niego wiele narzędzi i wtyczek.
ComfyUI - opcja dla zaawansowanych użytkowników, dająca dużą kontrolę nad procesami.
Easy Diffusion - program starający się być przystępnym w instalacji i użytkowaniu.
Fooocus - program, który wiele roboty wykonuje za użytkownika. W locie dopracowuje prompty.

1

Wejdź w link z nazwą wybranego programu i znajdź instrukcję pobierania oraz instalacji.

Jeśli pierwszy raz jesteś na GitHubie i widzisz ogromną listę plików, to możliwe, że musisz po prostu zjechać niżej do instrukcji.

2

Wykonaj procedurę pobierania i instalacji.

Zwróć uwagę, że procedura może się różnić w zależności od posiadanego systemu oraz karty graficznej.

3

Uruchom program. Interfejs prawdopodobnie odpala się za pomocą przeglądarki i znajduje się pod lokalnym adresem np. http://127.0.0.1:7860/

Adres zależy od programu oraz konfiguracji. Powinna być o tym informacja w instrukcji.

Pobieranie i instalacja modeli

Wraz z pobranym programem zapewnie pobierze się także jakiś domyślny model. Jednakże oprócz tego istnieje wiele modeli przygotowanych przez społeczność w różnych celach. Przeglądać je możesz na stronie CivitAi.

Rodzaje modeli:

Checkpoint - podstawa wymagana do tworzenia. To za jej pomocą jest generowany obrazek. Sam checkpoint może być w zupełności wystarczający.
LORA - mniejszy model, który "pokazuje" podstawowemu checkpointowi, jak wygląda dana postać, interakcja, styl itp. Działa we współpracy z checkpointem. Niestety trzeba trochę poeksperymentować, by znaleźć optymalne duo checkpoint i LORA. Mogą koegzystować słabo lub być zupełnie niekompatybilne.

Baza modeli:

SD 1.4, SD 1.5 - modele oparte na Stable Diffusion 1.4 / 1.5. Mają stosunkowo niskie wymagania sprzętowe i są dedykowane niewielkim rozdzielczościom. Ceną jest jednak niższa jakość i gorsze rozumienie intencji użytkownika.
SDXL - modele oparte na nowszym Stable Diffusion XL. Mają wyższe wymagania sprzętowe i zaleca się użyć wyższych rozdzielczości (co dodatkowo podnosi wymogi). Jednak nagrodą jest lepsza jakość i trafniejsze rozumienie intencji użytkownika.

Upatrzony model należy umieścić w odpowiednim folderze programu. W zależności od rodzaju, ścieżka będzie wyglądać inaczej (np. gdzie indziej umieścisz checkpoint, a gdzie indziej LORA). W razie wątpliwości poszukaj informacji na stronie programu.

Tworzenie obrazków

W tej sekcji zostały wyjaśnione różne elementy i wskaźniki dotyczące tworzenia obrazków.

Alternatywnie pomocne może być przejrzenie wiki do Easy Diffusion oraz poradników na geting.ai, które dobrze tłumaczą podstawy.

Prompt

Prompt to - mówiąc najprościej - polecenie, jakie wydajesz modelowi.

Optymalny sposób formułowania promptu zależy od tego, w jaki sposób model był trenowany. Na jego stronie powinny być informacje. Warte wypróbowania zwykle są:

Język naturalny np. a photograph of an astronaut riding a horse
Tagi oddzielone przecinkami np. girl, black hoodie, bedroom
- Jeśli używasz modelu dedykowanego hentai, być może dobrze rozumie tagi ze stron typu booru jak Danbooru, E621, Gelbooru, Rule34, Sankaku Complex itp.
Model może posiadać "trigger words", których wpisanie jest potrzebne, by uzyskać pożądany rezultat np. odpowiedni styl dla modelu.

Dodatkowa pomoc w promptach:

Galerie dzieł AI

Zewnętrzna pomoc w promptach:

Stable Diffusion Prompt Book

Negative prompt

W negative prompt umieszczasz to, czego nie chcesz widzieć na obrazku.

W części modeli warto wpisać tam wszelkie opisy sugerujące niską jakość. Ale są też takie, gdzie najlepiej pozostawić negative prompt puste.

Przykładowy negative prompt: Deformed, blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, missing limb, blurry, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, mutated hands and fingers, out of frame, watermark

Wagi w promptach

Poszczególnym elementom promptu możesz przyznawać wagi, które informują model, na czym ma się bardziej skupić. Waga 1 jest domyślna. Rzeczy poniżej są mniej istotne (0-1), a powyżej - bardziej (1-2).

girl on a (chair)1.2, (baseball cap)0.8 - w tym prompcie waga dla "chair" jest powyżej średniej, zaś waga dla "baseball cap" poniżej średniej.

Image Size

Rozmiar obrazka.

Zalecane rozmiary dla modeli opartych na SD 1.4 i SD 1.5:

512 x 512

Zalecane rozmiary dla modeli opartych na SDXL:

1024 x 1024
1152 x 896
896 x 1152
1216 x 832
832 x 1216
1344 x 768
768 x 1344
1536 x 640
640 x 1536

Przy czym 512 x 512 również może się dobrze sprawdzić.

Inference Steps

Liczba kroków, zanim model uzna obrazek za ukończony.

Przy zbyt małej liczbie jakość będzie niska. Przy zbyt dużej liczbie nie będzie różnicy w jakości, więc niepotrzebnie zostanie wydłużony czas pracy.

Pomóc w zrozumieniu wskaźnika może ten poradnik. Warto pobawić się podglądem z suwaczkiem.

Dla standardowych modeli zwykle zaleca się wartości 20-40. Przy czym dobrze zacząć od dolnych i przesuwać wyżej, gdy jakość nie jest zadowalająca.

Dla modeli turbo optymalne może być zejście nawet do 5-8.

Guidance Scale / CFG Scale

Wskaźnik, jak bardzo model kieruje się promptem.

Przy zbyt niskiej wartości obrazek będzie miał niewiele wspólnego z promptem. Przy zbyt wysokiej wartości może spaść jakość oraz kreatywność.

Zwykle zaleca się wartości 5-15.

Wybrane modele

W Internecie można znaleźć mnóstwo modeli opartych na różnych wersjach Stable Diffusion. Poniżej zostały opisane wybrane.

Nazwa	Opis
TFM Cutesy Anime 2	Model przygotowany przez artystę TheFoodMage i wytrenowany na jego własnych dziełach. Tworzy urocze, kreskówkowe postacie (głównie kobiece). Jeśli podoba się Tobie jego styl, warto wypróbować.
Pony Diffusion V6 XL	Model przygotowany i rozwijany przez społeczność furry do SFW i NSFW, który charakteryzuje się stosunkowo dobrym rozumieniem różnych styli artystów, postaci i fetyszy. Wbrew temu, co może sugerować nazwa, sprawdza się także do hentai z ludźmi. Prompty można formułować zarówno językiem naturalnym, jak i za pomocą tagów w stylu e621 albo Sankaku Complex. Model jest oparty na SDXL, dlatego ma wysokie wymagania sprzętowe. W dodatku zalecane jest ustawienie wysokiej rozdzielczości, co dodatkowo podnosi wymogi. Tempo generowania zależy także od programu. Stosunkowo szybkie jest w AUTOMATIC1111.

Linki zewnętrzne

Citivai - zbiór różnych modeli do Stable Diffusion (ANG)
rentry.org - spory poradnik zawierający listę modeli itp. (ANG)
r/StableDiffusion/wiki/tutorials Zbiór poradników zebrany na r/StableDiffusion (ANG)

Zobacz też