ControlNet w Stable Diffusion - Rewolucja w Kontroli Generacji Obrazów • ŁowcyAI - Lokalne modele AI, prywatność i niezależność.

Spis treści

Architektura i Zasada Działania
Jak zainstalować?
Pobieranie modeli
Główne sekcje panelu
Praktyczne zastosowania

ControlNet to przełomowa architektura sieciowa zaprojektowana do precyzyjnego sterowania procesem generacji obrazów w modelach dyffuzyjnych, szczególnie w Stable Diffusion. Ta innowacyjna technologia, opracowana przez Lvmin Zhang i zespół, umożliwia użytkownikom dodawanie dodatkowych warunków kontrolnych do standardowego procesu text-to-image.

Architektura i Zasada Działania

Kluczową innowacją ControlNet jest podział sieci neuronowej na dwie części: “zablokowaną kopię” oraz “kopię trenowalna”. Zablokowana kopia zachowuje oryginalną funkcjonalność pre-trenowanego modelu Stable Diffusion, podczas gdy kopię trenowalna uczy się interpretować dodatkowe warunki kontrolne. Obie części są połączone przez “zero convolution” – konwolucję 1×1 z wagami i bias zainicjalizowanymi na zero.

Ten mechanizm gwarantuje, że przed treningiem wszystkie zero konwolucje produkują zera, co oznacza że ControlNet nie wprowadza żadnych zakłóceń do oryginalnego modelu. Dzięki temu możliwy jest trening nawet na małych zbiorach danych bez ryzyka zniszczenia produkcyjnego modelu dyffuzyjnego.

Główne Typy Modeli ControlNet

ControlNet oferuje różnorodne modele preprocesorów, z których każdy specjalizuje się w innym aspekcie kontroli obrazu:

Canny Edge Detection – identyfikuje precyzyjne krawędzie obiektów, idealny do zachowania szczegółowej kompozycji oryginalnego obrazu
OpenPose – rozpoznaje pozy ciała ludzkiego, umożliwiając kontrolę nad pozycjami postaci
Depth Control – analizuje głębię obrazu, zachowując przestrzenne relacje między obiektami
Segmentation Maps – wykorzystuje mapy segmentacji semantycznej do precyzyjnego definiowania obszarów obrazu
Normal Maps – kontroluje powierzchnie i tekstury poprzez mapy normalnych

Jak zainstalować?

Udaj się do wtyczek (extensions) i z dostępnych wybierz sd-webui-controlnet i kliknij install.
Po instalacji przechodzimy do Installed i restartujemy i przeładowywujemy UI.

Po odświeżeniu, pojawi nam się nowy panel w txt2img.
ControlNet v1.1.455 i możemy go rozwinąć.

Pobieranie modeli

Do prawidłowego działania ControlNet potrzebuje dedykowanych modeli, które można pobrać z Hugging Face. Rekomendowane jest pobranie wszystkich dostępnych modeli dla maksymalnej elastyczności, jednak na początek wystarczą podstawowe modele jak Canny, Depth i OpenPose. Przenosimy je do folderu models/ControlNet

Główne sekcje panelu

Sekcja obrazu: W górnej części panelu znajduje się obszar do przesyłania obrazów referencyjnych. Można tutaj przeciągnąć obraz lub kliknąć, aby go wybrać z plików.

Opcje podstawowe:

Enable: Aktywuje funkcjonalność ControlNet.
Low VRAM: Optymalizuje użycie pamięci dla słabszych kart graficznych.
Pixel Perfect: Automatycznie dostosowuje rozdzielczość ControlNet do wymiarów obrazu.
Allow Preview: Umożliwia podgląd przetworzonego obrazu przez preprocessor.

Typy kontroli (Control Types)

ControlNet oferuje szeroką gamę preprocessorów, każdy przeznaczony do różnych zastosowań:

Canny Edge Detection

Canny to preprocessor wykrywający krawędzie w obrazie. Świetnie nadaje się do zachowania struktury obiektów przy jednoczesnej zmianie ich stylu. Canny analizuje kontury i linie, tworząc mapę krawędzi, która następnie kieruje procesem generowania.

Depth (Głębia)

Preprocessor Depth szacuje podstawową mapę głębi z obrazu referencyjnego. Mapa głębi to dwuwymiarowa reprezentacja w skali szarości sceny 3D, gdzie wartość każdego piksela odpowiada odległości obiektów od obserwatora. Umożliwia to odtwarzanie kompozycji, póz i kształtów.

OpenPose

OpenPose wykrywa pozycje człowieka, identyfikując kluczowe punkty ciała takie jak:

OpenPose: Podstawowe punkty – oczy, nos, szyja, ramiona, łokcie, nadgarstki, kolana, kostki
OpenPose_face: OpenPose plus szczegóły twarzy
OpenPose_hand: OpenPose plus dłonie i palce
OpenPose_faceonly: Tylko szczegóły twarzy
OpenPose_full: Wszystkie powyższe elementy

Inne preprocessory

MLSD (Mobile Line Segment Detection): Wykrywa linie i segmenty w obrazie
Scribble: Umożliwia tworzenie obrazów na podstawie szkiców
Segmentation: Dzieli obraz na różne segmenty
Tile: Pomaga w regenerowaniu utraconych szczegółów
Reference: Służy do tworzenia wariacji stylistycznych

Kluczowe ustawienia ControlNet

Control Weight (Waga kontroli)

Control Weight określa, jak bardzo ControlNet wpływa na generowany obraz. Wartości wahają się od 0 do 2, gdzie:

0.0-0.5: Słaby wpływ ControlNet
0.6-1.0: Standardowy wpływ (zalecane)
1.0-1.5: Silny wpływ
1.5-2.0: Bardzo silny wpływ (może prowadzić do “overfitting”)11

Control Mode (Tryb kontroli)

Dostępne są trzry tryby kontroli:

Balanced: Zrównoważony wpływ prompta i ControlNet
My prompt is more important: Priorytet dla prompta tekstowego
ControlNet is more important: Priorytet dla kontroli ControlNet

Starting/Ending Control Step

Te parametry określają, w którym momencie procesu generowania ControlNet zaczyna i kończy swoje działanie. Standardowo:

Starting Control Step: 0 (początek)
Ending Control Step: 1 (koniec)

Resize Mode (Tryby zmiany rozmiaru)

ControlNet oferuje trzy tryby dopasowywania obrazów:

Just Resize – Podstawowe przeskalowanie obrazu do docelowych wymiarów.
Crop and Resize – Przycina obraz zachowując proporcje, a następnie skaluje. Użytkownik może wybrać obszar do przycięcia.
Resize and fill – Dopasowuje obraz do docelowego obszaru dodając tło, aby uniknąć zniekształceń. Zachowuje oryginalne proporcje.

Jak to wygląda w praktyce?

Po wejściu w zakładkę przesyłamy obraz który ma służyć za wzór do generowania przyszłych obrazów lub mają być wkomponowane w obraz i wybieramy odpowiadające nam modele i ustawienia.
Każde generowanie grafik wymaga indywidualnej uwagi i prób ze względu na wiele możliwości wyborów modeli stable diffusion oraz też różnych rozdzielczości generowania obrazów. Nie ma uniwersalnych ustawień które dadzą wszędzie dobre efekty.
Dla przykładu spróbujemy przerobić logo bloga.

Warto testować różne warianty by uzyskać jak najlepsze rezultaty choć może to być czasochłonne.

Praktyczne Zastosowania

ControlNet znajduje szerokie zastosowanie w różnych dziedzinach:

Generowanie Syntetycznych Danych – Badania pokazują, że ControlNet znacząco poprawia jakość syntetycznych obrazów wykorzystywanych do treningu modeli AI. W przypadku wykrywania chwastów, połączenie rzeczywistych i syntetycznych obrazów wygenerowanych przez ControlNet przyniosło poprawę dokładności.

Architektura i Projektowanie – W wizualizacji architektonicznej ControlNet z warstwą Depth pozwala na przekształcanie prostych modeli 3D (np. z SketchUp) w fotorealistyczne wizualizacje, zachowując przy tym precyzyjną kontrolę nad kompozycją i głębią sceny.

Sztuka i Design – Artyści wykorzystują ControlNet do transferu stylu i tworzenia obrazów artystycznych. Badania nad malarstwem Jiehua wykazały, że Fine-tuned Stable Diffusion Model z ControlNet (FSDMC) osiągnął wynik FID równy 3,27, przewyższając tradycyjne modele jak CycleGAN.

Segmentacja Semantyczna – ControlNet wspiera tworzenie syntetycznych obrazów dla poprawy modeli segmentacji semantycznej, wykorzystując jednocześnie mapy głębi, detekcję krawędzi Canny oraz mapy segmentacji.

Optymalizacje i Rozwiązania Techniczne

Najnowsze badania skupiają się na rozwiązywaniu ograniczeń ControlNet. Framework CtrLoRA zmniejsza liczbę parametrów do uczenia o 90% w porównaniu do standardowego ControlNet, wymagając jedynie 1000 par danych i mniej niż godziny treningu na pojedynczym GPU dla większości scenariuszy.

DC-ControlNet wprowadza hierarchiczną kontrolę, rozdzielając warunki na elementy intra-elementowe i inter-elementowe, co umożliwia bardziej precyzyjną kontrolę nad generacją wieloelementowych kompozycji.

ControlNet w Stable Diffusion – Rewolucja w Kontroli Generacji Obrazów

Spis treści

Architektura i Zasada Działania

Główne Typy Modeli ControlNet

Jak zainstalować?

Pobieranie modeli

Główne sekcje panelu

Typy kontroli (Control Types)

Canny Edge Detection

Depth (Głębia)

OpenPose

Inne preprocessory

Kluczowe ustawienia ControlNet

Control Weight (Waga kontroli)

Control Mode (Tryb kontroli)

Starting/Ending Control Step

Resize Mode (Tryby zmiany rozmiaru)

Jak to wygląda w praktyce?

Praktyczne Zastosowania

Optymalizacje i Rozwiązania Techniczne

Źródła

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Spis treści

Architektura i Zasada Działania

Główne Typy Modeli ControlNet

Jak zainstalować?

Pobieranie modeli

Główne sekcje panelu

Typy kontroli (Control Types)

Canny Edge Detection

Depth (Głębia)

OpenPose

Inne preprocessory

Kluczowe ustawienia ControlNet

Control Weight (Waga kontroli)

Control Mode (Tryb kontroli)

Starting/Ending Control Step

Resize Mode (Tryby zmiany rozmiaru)

Jak to wygląda w praktyce?

Praktyczne Zastosowania

Optymalizacje i Rozwiązania Techniczne

Źródła

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane posty

Pliki Cookie

Przegląd Prywatności

Niezbędne Cookies

Cookie preferencji

Marketingowe Cookies