Table des matières

ComfyUI

Interface de ComfyUI : un système de nœuds pour un contrôle total.

Interface modulaire pour l'IA Générative

ComfyUI est une interface utilisateur basée sur des nœuds (graph) pour Stable Diffusion, offrant une flexibilité extrême par rapport aux interfaces classiques. Contrairement aux solutions “clés en main”, elle permet de visualiser précisément comment l'image est construite, étape par étape. C'est l'outil idéal pour optimiser l'utilisation de la VRAM et créer des workflows complexes et réutilisables.

Installation et Mise en route

Vous pouvez utiliser SwarmUI pour une installation simplifiée qui gère les dépendances en arrière-plan. Pour votre premier pas, ouvrez l'espace workflow où un exemple standard pour Stable Diffusion (SDXL) est généralement chargé par défaut ; si des modèles sont manquants, l'interface vous proposera de les télécharger pour les glisser ensuite dans les dossiers appropriés.

L'onglet Templates permet d'accéder à des workflows pré-configurés pour différents modèles tels que Z-image, Flux ou Wan. Concernant la gestion des modèles, si un workflow affiche des nœuds rouges, cela signifie qu'il manque des éléments

:!: Attention : certains modèles comme Text Diffuser doivent souvent être placés spécifiquement dans le dossier CLIP.

Enfin, pour faciliter l'utilisation, installez le plugin indispensable ComfyUI Manager. Il permet de scanner votre workflow pour installer automatiquement les bibliothèques manquantes via l'option Install Missing Nodes et de gérer toutes vos mises à jour facilement.

Vocabulaire Essentiel

Pour maîtriser l'outil, il est nécessaire de comprendre ces termes :

Les Blocs Principaux (Nodes)

Un workflow standard repose sur ces piliers :

Focus : Le KSampler

C'est le moteur, là ou l'image est réellement “sculptée” :

:!:Astuce Flux : Pour le modèle Flux, utilisez environ 20 steps et un Distilled CFG bas (autour de 3.5).

Astuces et Raccourcis

Entraînement LORA z-image

Le modèle Z-image se distingue par sa légèreté et sa rapidité, offrant des performances comparables, voire supérieures, à Flux 1.0. Il permet d'entraîner un LoRA (visage, style graphique ou photo) à partir de seulement dix images légendées.

Avec un GPU type RTX 4070, comptez environ 3 à 4 heures de calcul pour obtenir un résultat au réalisme impressionnant. On utilise AI toolkit en local. https://github.com/ostris/ai-toolkit

Générer des vidéos

Principe : On peut générer des vidéos à partir d'une vidéo source ou d'un prompt texte/image via des workflows comme WAN.

Configuration : Nécessite une carte graphique puissante (Gpu > 12 Go de VRAM).