Ceci est une ancienne révision du document !
ComfyUI
Interface de ComfyUI : un système de nœuds pour un contrôle total.
L'interface modulaire pour l'IA Générative
ComfyUI est une interface utilisateur basée sur des nœuds (graph) pour Stable Diffusion, offrant une flexibilité extrême par rapport aux interfaces classiques. Contrairement aux solutions “clés en main”, elle permet de visualiser précisément comment l'image est construite, étape par étape. C'est l'outil idéal pour optimiser l'utilisation de la VRAM et créer des workflows complexes et réutilisables. Sa puissance réside dans sa modularité : chaque élément du processus de génération est un bloc que l'on peut connecter à un autre.
Installation et Mise en route
Méthode recommandée : Vous pouvez utiliser SwarmUI pour une installation simplifiée qui gère les dépendances en arrière-plan.
Premier pas : Ouvrez l'espace workflow. Un exemple standard pour Stable Diffusion (SDXL) est généralement chargé par défaut.
Templates : L'onglet “Templates” permet d'accéder à des workflows pré-configurés (Z-image, Flux, Wan…).
Gestion des modèles : Si un workflow affiche des nœuds rouges, il manque probablement des modèles. Notez que certains modèles comme Text Diffuser doivent souvent être placés dans le dossier CLIP.
Le plugin indispensable : Installez impérativement le ComfyUI Manager. Il permet de scanner votre workflow pour installer les nœuds manquants (“Install Missing Nodes”) et de mettre à jour l'interface en un clic.
Vocabulaire Essentiel
Pour maîtriser ComfyUI, il faut comprendre ces termes techniques :
| Terme | Définition | Checkpoint | Le “cerveau” principal. C'est le modèle d'IA complet (ex: SD1.5, SDXL, Flux) qui contient la connaissance des formes et des styles. | CLIP | Le traducteur. Il convertit votre texte (prompt) en vecteurs numériques que l'IA peut comprendre. | VAE | L'encodeur/décodeur. Il traduit l'image du “monde mathématique” (Latent) vers le “monde visuel” (Pixels). Un mauvais VAE donne souvent des couleurs délavées. | LoRA | Un petit fichier additionnel appliqué sur un Checkpoint pour lui apprendre un style, un personnage ou un objet spécifique sans changer tout le modèle. | Latent | L'espace de travail invisible. C'est là que l'IA “rêve” l'image avant que le VAE ne la rende visible. | Denoising | Le taux de modification. À 1.0, l'IA crée quelque chose de totalement nouveau. À 0.5, elle transforme l'existant à 50%. |
|---|
Les Blocs Principaux (Nodes)
Un workflow standard repose sur ces piliers :
Load Checkpoint : Le point de départ où l'on choisit son modèle.
CLIP Text Encode : Deux blocs sont nécessaires : un pour le prompt Positif (ce qu'on veut) et un pour le Négatif (ce qu'on ne veut pas).
Empty Latent Image : Définit la résolution (Largeur / Hauteur) et le nombre d'images à générer.
KSampler : Le cœur du processus. C'est ici que l'on règle le nombre d'étapes (Steps), la force de l'IA (CFG) et l'algorithme de génération (Sampler).
VAE Decode : Le bloc final qui transforme le résultat mathématique du KSampler en image réelle.
Astuces et Raccourcis
Récupération de Workflow : Le workflow est automatiquement enregistré dans les métadonnées des images générées. Faites un glisser-déposer de l'image directement sur l'interface ComfyUI pour restaurer instantanément tout le schéma et les réglages.
Recherche rapide : Double-cliquez sur le fond vide pour ouvrir une barre de recherche et ajouter un nœud rapidement.
Organisation : Utilisez les “Groups” (clic droit > Add Group) pour encadrer vos nœuds et déplacer des sections entières de votre schéma.
Bypass : Sélectionnez un nœud et appuyez sur Ctrl + B pour le désactiver sans supprimer les connexions (pratique pour tester sans un LoRA précis).
Entraînement LORA z-image
Pour aller plus loin et créer vos propres styles avec AI tool kit :
Focus : Le KSampler
Le KSampler est le nœud le plus complexe et le plus important. C'est ici que l'IA “sculpte” l'image à partir d'un bloc de bruit aléatoire. Voici comment régler ses curseurs pour éviter les résultats flous ou bizarres :
| Paramètre | Rôle | Conseil d'utilisation | Seed | Le numéro de départ de l'image. | Un même Seed avec les mêmes réglages produira toujours la même image. Utilisez randomize pour varier. | Steps | Le nombre d'étapes de calcul. | Entre 20 et 30 pour SDXL/1.5. Trop d'étapes ralentissent le calcul sans forcément améliorer l'image. | CFG | La fidélité au prompt (Guidance). | Généralement entre 5 et 8. Trop haut (15+), l'image devient brûlée et trop contrastée. | Sampler | L'algorithme de “nettoyage”. | Euler a ou DPM++ 2M sont des valeurs sûres. Certains sont plus rapides, d'autres plus détaillés. | Scheduler | La vitesse de réduction du bruit. | Karras est souvent le plus performant pour obtenir des détails nets en peu d'étapes. | Denoise | La force de transformation. | À 1.00, l'IA part de zéro. À 0.50, elle garde 50% de la structure de l'image source (utile pour l'Img2Img). |
|---|
Astuce d'expert : Si vous utilisez le modèle Flux, les réglages changent ! On utilise souvent un nombre de steps plus bas (autour de 20) et un “Distilled CFG” de 3.5.
Génération de Vidéos
ComfyUI permet de générer des vidéos ou des suites d'images à partir d'une source vidéo ou d'un simple prompt. Via SwarmUI, des workflows basés sur WAN sont disponibles.
Attention : La génération vidéo est gourmande. Une carte graphique avec plus de 12 Go de VRAM est fortement recommandée.