ComfyUI

Interface de ComfyUI : un système de nœuds pour un contrôle de workflow.

Interface modulaire pour l'IA Générative

ComfyUI est une interface utilisateur basée sur des nœuds (graph) pour Stable Diffusion et autre modeles, offrant une flexibilité extrême par rapport aux interfaces classiques. Contrairement aux solutions “clés en main”, elle permet de visualiser précisément comment l'image est construite, étape par étape. C'est l'outil idéal pour optimiser l'utilisation de la VRAM et créer des workflows complexes et réutilisables.

Installation et Mise en route

Vous pouvez utiliser SwarmUI pour une installation simplifiée qui gère les dépendances en arrière-plan. Pour votre premier pas, ouvrez l'espace workflow où un exemple standard pour Stable Diffusion (SDXL) est généralement chargé par défaut ; si des modèles sont manquants, l'interface vous proposera de les télécharger pour les glisser ensuite dans les dossiers appropriés.

L'onglet Templates permet d'accéder à des workflows pré-configurés pour différents modèles tels que Z-image, Flux ou Wan. Concernant la gestion des modèles, si un workflow affiche des nœuds rouges, cela signifie qu'il manque des éléments

Attention : certains modèles comme Text Diffuser doivent souvent être placés spécifiquement dans le dossier CLIP.

Enfin, pour faciliter l'utilisation, installez le plugin indispensable ComfyUI Manager. Il permet de scanner votre workflow pour installer automatiquement les bibliothèques manquantes via l'option Install Missing Nodes et de gérer toutes vos mises à jour facilement.

Vocabulaire Essentiel

Pour maîtriser l'outil, il est nécessaire de comprendre ces termes :

Checkpoint : Le “cerveau” principal. C'est le modèle d'IA complet (ex: SD1.5, SDXL, Flux) qui contient la connaissance des formes et des styles.
CLIP : Le traducteur. Il convertit votre texte (prompt) en vecteurs numériques que l'IA peut traiter.
VAE : L'encodeur/décodeur. Il traduit l'image du “monde mathématique” (Latent) vers le “monde visuel” (Pixels). Un mauvais VAE donne souvent des couleurs délavées.
LoRA : Un petit fichier additionnel appliqué sur un Checkpoint pour lui apprendre un style, un personnage ou un objet spécifique.
Latent : L'espace de travail invisible de l'IA. C'est là que l'image est générée sous forme de données brutes avant d'être “décodée”.
Denoising : Le taux de modification. À 1.0, l'IA crée du contenu neuf. À 0.5, elle transforme l'image existante à 50%.

Les Blocs Principaux (Nodes)

Un workflow standard repose sur ces piliers :

Load Checkpoint : Le point de départ où l'on choisit son modèle principal.
CLIP Text Encode : Deux blocs sont nécessaires : un pour le prompt Positif (ce qu'on veut) et un pour le Négatif (ce qu'on ne veut pas).
Empty Latent Image : Définit la résolution (Largeur / Hauteur) et le nombre d'images à générer.
KSampler : Le moteur de calcul (voir section dédiée).
VAE Decode : Le bloc final qui transforme les données mathématiques en image réelle affichable.

Focus : Le KSampler

C'est le moteur, là ou l'image est réellement “sculptée” :

Seed : Le numéro de départ. Un même Seed produira la même image. Utilisez randomize pour découvrir de nouvelles variantes.
Steps : Le nombre d'étapes de calcul (généralement entre 20 et 30).
CFG : La force du prompt. Entre 5 et 8 en général. Trop haut, l'image devient trop saturée ou déformée.
Sampler : L'algorithme de nettoyage. Euler a ou DPM++ 2M sont les plus courants.
Scheduler : Contrôle la vitesse de réduction du bruit. Karras est très performant pour la netteté.
Denoise : La force de transformation (essentiel pour l'Img2Img).

Astuce Flux : Pour le modèle Flux, utilisez environ 20 steps et un Distilled CFG bas (autour de 3.5).

Astuces et Raccourcis

Récupération de Workflow : Le workflow est enregistré dans les images générées. Glissez-déposez une image directement sur ComfyUI pour restaurer tout le schéma et les réglages.
Recherche rapide / ajout de noeud : Faites un double-clic sur le fond vide pour chercher et ajouter un nœud.
Organisation : Faites un clic droit > Add Group pour encadrer et déplacer des sections de nœuds.
Bypass : Sélectionnez un nœud et appuyez sur Ctrl + B pour le désactiver sans casser les branchements.

Entraînement LORA z-image

Le modèle Z-image se distingue par sa légèreté et sa rapidité, offrant des performances comparables, voire supérieures, à Flux 1.0. Il permet d'entraîner un LoRA (visage, style graphique ou photo) à partir de seulement dix images légendées.

Avec un GPU type RTX 4070, comptez environ 3 à 4 heures de calcul pour obtenir un résultat au réalisme impressionnant. On utilise AI toolkit en local. https://github.com/ostris/ai-toolkit

Générer des vidéos

Principe : On peut générer des vidéos à partir d'une vidéo source ou d'un prompt texte/image via des workflows comme WAN.

Configuration : Nécessite une carte graphique puissante (Gpu > 12 Go de VRAM).