|
Prochaine révision
|
Révision précédente
|
bases:fabnum:ai:comfyui:start [2026/01/10 08:23] enseignant créée |
bases:fabnum:ai:comfyui:start [2026/01/10 08:40] (Version actuelle) enseignant [Entraînement LORA z-image] |
| ====== ComfyUI : L'interface modulaire pour l'IA Générative ====== | ====== ComfyUI ====== |
| |
| {{:bases:fabnum:ai:capture_d_ecran_2025-12-04_110459.png?600|}} //Interface de ComfyUI : un système de nœuds pour un contrôle total.// | {{:bases:fabnum:ai:capture_d_ecran_2025-12-04_110459.png?600|}} //Interface de ComfyUI : un système de nœuds pour un contrôle total.// |
| |
| ComfyUI est une interface utilisateur basée sur des nœuds (graph) pour Stable Diffusion, offrant une flexibilité extrême par rapport aux interfaces classiques. Contrairement aux solutions "clés en main", elle permet de visualiser précisément comment l'image est construite, étape par étape. C'est l'outil idéal pour optimiser l'utilisation de la VRAM et créer des workflows complexes et réutilisables. Sa puissance réside dans sa modularité : chaque élément du processus de génération est un bloc que l'on peut connecter à un autre. | **Interface modulaire pour l'IA Générative** |
| | |
| | ComfyUI est une interface utilisateur basée sur des nœuds (graph) pour Stable Diffusion, offrant une flexibilité extrême par rapport aux interfaces classiques. Contrairement aux solutions "clés en main", elle permet de visualiser précisément comment l'image est construite, étape par étape. C'est l'outil idéal pour optimiser l'utilisation de la VRAM et créer des workflows complexes et réutilisables. |
| |
| ===== Installation et Mise en route ===== | ===== Installation et Mise en route ===== |
| |
| Méthode recommandée : Vous pouvez utiliser [[https://swarmui.net/|SwarmUI]] pour une installation simplifiée qui gère les dépendances en arrière-plan. | Vous pouvez utiliser [[https://swarmui.net/|SwarmUI]] pour une installation simplifiée qui gère les dépendances en arrière-plan. Pour votre premier pas, ouvrez l'espace workflow où un exemple standard pour Stable Diffusion (SDXL) est généralement chargé par défaut ; si des modèles sont manquants, l'interface vous proposera de les télécharger pour les glisser ensuite dans les dossiers appropriés. |
| |
| Premier pas : Ouvrez l'espace workflow. Un exemple standard pour Stable Diffusion (SDXL) est généralement chargé par défaut. | **L'onglet Templates** permet d'accéder à des workflows pré-configurés pour différents modèles tels que Z-image, Flux ou Wan. Concernant la gestion des modèles, si un workflow affiche des nœuds rouges, cela signifie qu'il manque des éléments |
| |
| Templates : L'onglet "Templates" permet d'accéder à des workflows pré-configurés (Z-image, Flux, Wan...). | <WRAP center round important 80%> |
| | :!: Attention : certains modèles comme Text Diffuser doivent souvent être placés spécifiquement dans le dossier CLIP. |
| | </WRAP> |
| |
| Gestion des modèles : Si un workflow affiche des nœuds rouges, il manque probablement des modèles. Notez que certains modèles comme Text Diffuser doivent souvent être placés dans le dossier CLIP. | |
| |
| Le plugin indispensable : Installez impérativement le [[https://github.com/Comfy-Org/ComfyUI-Manager|ComfyUI Manager]]. Il permet de scanner votre workflow pour installer les nœuds manquants ("Install Missing Nodes") et de mettre à jour l'interface en un clic. | Enfin, pour faciliter l'utilisation, installez le plugin indispensable [[https://github.com/Comfy-Org/ComfyUI-Manager|ComfyUI Manager]]. Il permet de scanner votre workflow pour installer automatiquement les bibliothèques manquantes via l'option **Install Missing Nodes** et de gérer toutes vos mises à jour facilement. |
| |
| ===== Vocabulaire Essentiel ===== | ===== Vocabulaire Essentiel ===== |
| |
| Pour maîtriser ComfyUI, il faut comprendre ces termes techniques : | Pour maîtriser l'outil, il est nécessaire de comprendre ces termes : |
| |
| ^ Terme ^ Définition ^ | Checkpoint | Le "cerveau" principal. C'est le modèle d'IA complet (ex: SD1.5, SDXL, Flux) qui contient la connaissance des formes et des styles. | | CLIP | Le traducteur. Il convertit votre texte (prompt) en vecteurs numériques que l'IA peut comprendre. | | VAE | L'encodeur/décodeur. Il traduit l'image du "monde mathématique" (Latent) vers le "monde visuel" (Pixels). Un mauvais VAE donne souvent des couleurs délavées. | | LoRA | Un petit fichier additionnel appliqué sur un Checkpoint pour lui apprendre un style, un personnage ou un objet spécifique sans changer tout le modèle. | | Latent | L'espace de travail invisible. C'est là que l'IA "rêve" l'image avant que le VAE ne la rende visible. | | Denoising | Le taux de modification. À 1.0, l'IA crée quelque chose de totalement nouveau. À 0.5, elle transforme l'existant à 50%. | | * **Checkpoint :** Le "cerveau" principal. C'est le modèle d'IA complet (ex: SD1.5, SDXL, Flux) qui contient la connaissance des formes et des styles. |
| | * **CLIP :** Le traducteur. Il convertit votre texte (prompt) en vecteurs numériques que l'IA peut traiter. |
| | * **VAE :** L'encodeur/décodeur. Il traduit l'image du "monde mathématique" (Latent) vers le "monde visuel" (Pixels). Un mauvais VAE donne souvent des couleurs délavées. |
| | * **LoRA :** Un petit fichier additionnel appliqué sur un Checkpoint pour lui apprendre un style, un personnage ou un objet spécifique. |
| | * **Latent :** L'espace de travail invisible de l'IA. C'est là que l'image est générée sous forme de données brutes avant d'être "décodée". |
| | * **Denoising :** Le taux de modification. À 1.0, l'IA crée du contenu neuf. À 0.5, elle transforme l'image existante à 50%. |
| |
| ===== Les Blocs Principaux (Nodes) ===== | ===== Les Blocs Principaux (Nodes) ===== |
| Un workflow standard repose sur ces piliers : | Un workflow standard repose sur ces piliers : |
| |
| Load Checkpoint : Le point de départ où l'on choisit son modèle. | * **Load Checkpoint :** Le point de départ où l'on choisit son modèle principal. |
| | * **CLIP Text Encode :** Deux blocs sont nécessaires : un pour le prompt Positif (ce qu'on veut) et un pour le Négatif (ce qu'on ne veut pas). |
| | * **Empty Latent Image :** Définit la résolution (Largeur / Hauteur) et le nombre d'images à générer. |
| | * **KSampler :** Le moteur de calcul (voir section dédiée). |
| | * **VAE Decode :** Le bloc final qui transforme les données mathématiques en image réelle affichable. |
| |
| CLIP Text Encode : Deux blocs sont nécessaires : un pour le prompt Positif (ce qu'on veut) et un pour le Négatif (ce qu'on ne veut pas). | ===== Focus : Le KSampler ===== |
| |
| Empty Latent Image : Définit la résolution (Largeur / Hauteur) et le nombre d'images à générer. | C'est le moteur, là ou l'image est réellement "sculptée" : |
| |
| KSampler : Le cœur du processus. C'est ici que l'on règle le nombre d'étapes (Steps), la force de l'IA (CFG) et l'algorithme de génération (Sampler). | * **Seed :** Le numéro de départ. Un même Seed produira la même image. Utilisez randomize pour découvrir de nouvelles variantes. |
| | * **Steps :** Le nombre d'étapes de calcul (généralement entre 20 et 30). |
| | * **CFG :** La force du prompt. Entre 5 et 8 en général. Trop haut, l'image devient trop saturée ou déformée. |
| | * **Sampler :** L'algorithme de nettoyage. Euler a ou DPM++ 2M sont les plus courants. |
| | * **Scheduler :** Contrôle la vitesse de réduction du bruit. Karras est très performant pour la netteté. |
| | * **Denoise :** La force de transformation (essentiel pour l'Img2Img). |
| |
| VAE Decode : Le bloc final qui transforme le résultat mathématique du KSampler en image réelle. | :!:**Astuce Flux :** Pour le modèle Flux, utilisez environ 20 steps et un Distilled CFG bas (autour de 3.5). |
| |
| ===== Astuces et Raccourcis ===== | ===== Astuces et Raccourcis ===== |
| |
| Récupération de Workflow : Le workflow est automatiquement enregistré dans les métadonnées des images générées. Faites un glisser-déposer de l'image directement sur l'interface ComfyUI pour restaurer instantanément tout le schéma et les réglages. | * Récupération de Workflow : Le workflow est enregistré dans les images générées. Glissez-déposez une image directement sur ComfyUI pour restaurer tout le schéma et les réglages. |
| | * Recherche rapide / ajout de noeud : Faites un double-clic sur le fond vide pour chercher et ajouter un nœud. |
| | * Organisation : Faites un clic droit > Add Group pour encadrer et déplacer des sections de nœuds. |
| | * Bypass : Sélectionnez un nœud et appuyez sur Ctrl + B pour le désactiver sans casser les branchements. |
| |
| Recherche rapide : Double-cliquez sur le fond vide pour ouvrir une barre de recherche et ajouter un nœud rapidement. | ===== Entraînement LORA z-image ===== |
| |
| Organisation : Utilisez les "Groups" (clic droit > Add Group) pour encadrer vos nœuds et déplacer des sections entières de votre schéma. | Le modèle Z-image se distingue par sa légèreté et sa rapidité, offrant des performances comparables, voire supérieures, à Flux 1.0. Il permet d'entraîner un LoRA (visage, style graphique ou photo) à partir de seulement dix images légendées. |
| | |
| Bypass : Sélectionnez un nœud et appuyez sur Ctrl + B pour le désactiver sans supprimer les connexions (pratique pour tester sans un LoRA précis). | |
| | |
| ===== Entraînement LORA z-image ===== | |
| |
| Pour aller plus loin et créer vos propres styles avec AI tool kit : {{youtube>Kmve1_jiDpQ?medium}} | Avec un GPU type RTX 4070, comptez environ 3 à 4 heures de calcul pour obtenir un résultat au réalisme impressionnant. |
| | On utilise AI toolkit en local. https://github.com/ostris/ai-toolkit |
| |
| ===== Génération de Vidéos ===== | {{youtube>Kmve1_jiDpQ?large}} |
| |
| ComfyUI permet de générer des vidéos ou des suites d'images à partir d'une source vidéo ou d'un simple prompt. Via SwarmUI, des workflows basés sur WAN sont disponibles. | ===== Générer des vidéos ===== |
| |
| Attention : La génération vidéo est gourmande. Une carte graphique avec plus de 12 Go de VRAM est fortement recommandée. | Principe : On peut générer des vidéos à partir d'une vidéo source ou d'un prompt texte/image via des workflows comme WAN. |
| |
| [[https://stable-diffusion-art.com/video-to-video/|Guide complet Video-to-Video]] | Configuration : Nécessite une carte graphique puissante (Gpu > 12 Go de VRAM). |
| |
| [[https://github.com/Wan-Video/Wan2.2|Dépôt officiel Wan2.2]] | * [[https://stable-diffusion-art.com/video-to-video/|Guide Video-to-Video]] |
| | * [[https://github.com/Wan-Video/Wan2.2|Dépôt officiel Wan2.2]] |