Une séance virtuelle de portraits studio avec l'IA Stable Diffusion

Portrait close up réalisé avec l'IA Stable Diffusion

Ce troisième test d’intelligence artificielle concerne la version gratuite de Stable diffusion 1.5 développée par StabilityAI.

Nous appliquons la même procédure que pour d’autres IA testées dans ce blog, à savoir Midjourney, Firefly beta d’Adobe et la version de DALL-E 2 proposée par Microsoft.

Cette version de Stable Diffusion ne génère que des images de taille limitée à 768 x 768 pixels, c’est pourquoi nous les avons redimensionnées et un peu améliorées pour ce blog.

Stable Diffusion, une IA en liberté

Comme pour tous nos tests concernant les intelligences artificielles de création « texte à l’image », nous commençons avec le même prompt :

« Shooting photo dans un petit studio photo avec deux light box. Le modèle est une femme eurasienne. Le fond du studio est en béton brut. »

Stable diffusion propose plusieurs moteurs de rendus différents, nous avons laissé le Mode proposé par défaut « Euler a » pour la plupart des images générées.
Pour ce test, tous les prompts ont été traduits en anglais avec DeepL afin d’être mieux compris par l’IA.

simulation Stable Diffusion studio photo

Le premier résultat est plutôt inattendu.
L’IA propose directement, sans lui avoir demandé, un mannequin en sous-vêtements !
Si le rendu du modèle semble de bonne qualité et le corps « sans défaut », les autres éléments de l’image sont moins réussis.

– Les lightboxes demandées sont remplacées par des éclairages assez mal rendus.
– Un morceau de moquette ??? est placé sous les pieds du modèle.
– Quand au fond demandé en béton brut, on vous le dit tout de suite, il n’apparaîtra dans aucune image de notre simulation.
– Comme pour les autres IA précédemment testées, le terme eurasienne n’est pas compris.

Le portrait couleur de Stable Diffusion

On resserre le portrait en modifiant le prompt avec un « close-up » (qui ne sera pas toujours respecté) et on intègre le terme « asiatique ».

Portrait couleur avec l'IA Stable diffusion

Rien à redire sur le rendu photographique très réussi de Stable Diffusion 1.5.
Il est plus photoréaliste que DALL-E 3 et exempt des petits défauts d’Adobe Firefly beta.

Portraits de Stable Diffusion en noir et blanc

En précisant « Portrait close-up contrasté en noir et blanc », Stable Diffusion conserve inexplicablement de la couleur rosée dans les lèvres et bleutée dans les yeux sur toutes les images en noir et blanc !
Comme nous avons dû ré-échantillonner les images, nous en avons profité pour supprimer ces colorations disgracieuses sur toutes les images en noir et blanc.

portrait en studio photo réalisé avec Stable Diffusion

Le matériel à l’arrière plan du studio comporte un peu moins d’incohérences que la toute première image générée.
Le rendu du modèle est de qualité même si l’intelligence artificielle produit naturellement un corps mince avec une tête légèrement surdimensionnée.

A noter que les omoplates sont bien rendues, c’est plus réussi que les versions anorexiques de DALL-E obtenues précédemment à partir des mêmes prompts.

Stable Diffusion, sans sens interdit

Comme nous trouvons que notre modèle est toujours légèrement vêtue par l’IA, alors que nous n’avons rien indiqué de tel dans le prompt, nous ajoutons l’indication « …d’un modèle habillé… » pour continuer la séance photo virtuelle.

L’image produite est l’une des plus stéréotypées de notre session avec ce modèle féminin très fin aux formes exacerbées.
Le terme « habillé » à produit le remplacement par l’IA de la nuisette par un haut encore plus échancré.  

Stable diffusion propose en plus du champ de texte principal, la possibilité d’ajouter un prompt « négatif » : nous le testons en y ajoutant « sous-vêtements ».
Peut-être que si l’IA retire vraiment les sous-vêtements cela va l’inciter à rhabiller un peu plus notre modèle ?

portrait sexy noir et blanc avec Stable diffusion

L’IA n’a pas froid aux yeux (vu qu’elle n’en a pas) et elle privilégie cette nouvelle information a notre prompt principal.
Stable Diffusion 1.5 semble comprendre certaines requêtes beaucoup plus facilement que d’autres et elle a bien retiré toute espèce de sous-vêtement au modèle, en profitant pour dévoiler un peu sa poitrine.

A ce stade de notre test, et au vu de la direction qu’il est en train de prendre, il est utile de rappeler que notre prompt complet est :

« Shooting dans un studio photo. Portrait close-up contrasté en noir et blanc d’un modèle habillé qui est une femme asiatique. Elle a un tatouage en forme de pagode. Le fond du studio est sombre. » + le prompt négatif « sous-vêtements ».

Comme souvent, lors de ce test, Stable Diffusion est fachée avec le noir et blanc, et se met à générer inexplicablement une image en couleur. Quand au tatouage en forme de pagode, l’IA ne s’avère pas capable de le réaliser.

Portrait boudoir réalisé avec Stable Diffusion

On remarque que l’IA fait basculer notre séance de portrait virtuel en une séance photo de type « boudoir », ajoutant un drapé en arrière plan et ne cachant pas ce sein que nous ne serions voir.

L’IA libertine

Sans modifier notre prompt, nous en profitons pour essayer le mode de rendu « DDIM » au lieu de « Euler a » utilisé jusque là.
DDIM (rien à voir avec la marque DIM) est réputé pour créer des images très détaillées et photoréalistes.

Il se trouve que pour ce nouveau rendu, le lâcher prise de l’IA va être total !
Avons-nous à faire à une IA devenue hors de contrôle ?

portrait noir et blanc avec tatouages avec l'IA Stable diffusion

Il faut savoir reconnaître que Dalle Diffusion s’est probablement très bien entrainée sur le rendu de corps féminins plantureux…
Mais la séance photo nous échappe un peu et l’image produite ne correspond pas à tout à fait à notre volonté car le modèle se retrouve entièrement dénudé alors qu’il est toujours habillé dans notre prompt !

Comme pour DALL-E avec ses modèles un peu maigres, il n’a fallu pas longtemps pour mettre à jour le biais très libertin de Stable diffusion 1.5 lié a son modèle d’apprentissage, ou à son algorithme sans filtres ?

Le cadrage de l’image au niveau du nombril ne constitue pas une censure de notre part puisque nous avions choisi un format paysage juste avant de lancer le rendu.
Pour avoir réalisé d’autres essais qui ne sont pas publiables sur ce blog, nous pouvons confirmer que cette IA n’a aucun tabou et connaît très très bien « l’origine du monde » !
D’ailleurs, nous avons remarqué que sur le site getimg.ai, qui propose le moteur de rendu de Stable Diffusion, que le terme nude » est automatiquement ajouté au prompt négatif : de quoi s’assurer de contrecarrer les dérives d’une IA un peu trop délurée ?

Un modèle de langage un peu décevant

Stable diffusion propose le réglage « CFG Scale » qui permet de régler le niveau de fidélité (entre 1 et 12) du rendu de l’image par rapport au prompt.
Devant les les nombreuses incompréhensions ou sorties de route de l’IA rencontrées à l’occasion de ce test, nous l’avons toujours réglé sur des valeurs hautes.
Malgré cela, l’IA ne comprends pas ou ne sait pas interpréter une grande partie des demandes, y compris certaines qui paraissent simples.

Elle se place en dernière position de notre classement sur le niveau de compréhension des prompts, en dessous de DALL-E 3, de Midjourney ou même de Firefly d’Adobe.

Test de l'IA génératrice d'image Adobe Firefly

Des rendus photoréalistes de qualité

Il était temps de remettre dans le bon sens notre séance photo virtuelle pour pouvoir la comparer plus dignement aux autres Intelligences Artificielles « text-to-Image » déjà testées dans ce blog.
Nous ajustons notre prompt de manière plus explicite :
« …modèle asiatique habillée d’une robe au motif de fleurs de cerisier. Elle porte un collier en forme de pagode. Le fond du studio est sombre avec des ombres de feuillages. »

Portrait asiatique noir et blanc réalisé avec l'IA Stable Diffusion

Depuis le début de ce test, Stable diffusion n’a pas été capable de créer la plupart des fonds décrits dans les prompts, et ici encore, aucune des ombres demandées n’est créée.

Si comme Firefly beta, l’IA n’arrive pas à créer un bijou en forme de pagode, elle n’ajoute pas pour autant systématiquement des boucles d’oreilles (non demandées) comme le faisait l’IA d’Adobe.
DALL-E 3, encore une fois, reste bien au dessus pour sa capacité à respecter les prompts avec précision.

Nous « japonisons » l’arrière-plan en corrigeant notre prompt : « l’arrière plan est sombre avec des branches de cerisier »

4 portraits en couleur réalisés avec Stable Diffusion

Le photo réalisme est toujours de bonne qualité et Stable diffusion arrive à intégrer des branches de cerisier de manière assez harmonieuse.

Par contre, l’IA s’est mise un nouvelle fois à générer sans raison des images en couleur.
Nous allons nous « battre » pendant plusieurs minutes pour arriver à régénérer des images en noir et blanc.

En répétant plusieurs fois « noir et blanc » dans notre nouveau prompt, nous arrivons à obtenir de nouveaux rendus en noir et blanc (mais toujours avec des colorations disgracieuses que nous avons retirées en post-production).

4 portraits en noir et blanc réalisés avec Stable Diffusion

Les résultats sont assez naturels pour une simulation de prise de vue en studio. Nous terminons donc notre test avec ces images assez satisfaisantes (la plus réussie illustre cet article).

Nous n’avons pas pu conduire avec suffisamment de précision notre simulation de shooting en studio, comme nous l’aurions aimé.
A la différence des autres tests d’IA, nous avons oublié de finir la session avec un modèle japonais, c’est chose faite avec la prochaine image !

Stable Diffusion 1.5, une IA au QI limité ?

portrait japonaise avec l'IA Stable diffusion

Le point fort de Stable Diffusion 1.5 est de produire des rendus photo de qualité, sans défauts de construction notables au niveau corporel (sur la cinquantaine d’images réalisées lors de nos tests).
Les modèles sont variés et leurs expressions assez naturelles, peut-être un peu moins que ce que propose Firefly beta, mais un peu plus « normaux » que les stéréotypes de mannequins très maigres créés par DALL-E 3.

Au niveau du rendu photoréaliste, Stable Diffusion est à la lutte avec Midjourney pour certaines images et a notre préférence au niveau des derniers rendus de ce test par rapport à DALL-E, trop stéréotypé, et Firefly parfois imprécis.
Cette IA reste frustrante car, si elle arrive à produire de belles images, elle ne fait pratiquement que ce qu’elle veut !

La version gratuite de Stable Diffusion propose une résolution un peu inférieure à ses concurrentes testées dans ce blog, mais il nous semble qu’elle propose un bon rendu simulant le grain de peau.

Le gros point faible de cette IA, si l’on veut contrôler un tant soit peu le shooting, est sa capacité limitée de compréhension qui fait qu’elle ne respecte que très peu les indications contenues dans les prompts.

Le prompt négatif apparaît comme une très bonne idée pour corriger un rendu mais il ne fait pas toujours des miracles, en raison des lacunes de compréhension de l’IA.

Lors de nos essais :

Elle a généré de la couleur dans les images en noir et blanc, puis elle s’est mise à produire des images en couleur sans raison.
Elle a rarement respecté les cadrages indiqués dans le prompt ni respecté le positionnement du modèle demandé dans l’image.
Elle a eu beaucoup de difficulté a créer les fonds décrits et à donner du réalisme aux décors.
Elle n’a pas pris en compte les critères d’âge (30 ans, puis 40 ans) que nous avions indiqués.
Elle a dérivé vers des images incontrôlées.

Pour lire nos autres tests d’IA « text-to-image » :
Une séance de portrait studio virtuelle avec Midjourney
Des portraits photo studio réalisés avec l’IA DALL-E 3 d’OpenAi
Une séance de portrait virtuel avec l’IA Adobe Firefly

L’interface web de Stable Diffusion

L’accès à l’IA de Stable Diffusion est possible via différent sites qui utilisent ses outils et une version peut même être installée sur votre ordinateur.
La version 1.5 testée ici à partir du site français de Stable diffusion se prend en main facilement, même si l’interface est en anglais.

Cette version gratuite n’est pas avare au niveau du nombre des rendus puisqu’elle en autorise une centaine par jour.
Mais elle limite la génération des images au format maximal de 768 x 768 pixels.

Un premier champ permet de saisir son prompt.
Un second champ permet d’indiquer un prompt négatif pour retirer des éléments non voulus.
Le curseur « Sampling Steps » permet de choisir le nombre de passes effectuées pour la génération d’une image, donc sa qualité finale.
La case à cocher « Restore » face permet d’éviter des bugs dans les rendus des visages.
6 types de rendus sont possible (Euler et DDIM sont ceux utilisés dans notre test), certains vont plus vers l’illustration que le photo réalisme.
Deux curseurs, « Width » et « Height », permettent de choisir la taille de l’image produite.
Le champ « Seed » permet la saisie d’un nombre qui permet de régénérer plusieurs fois une image de façon très similaire (la valeur par défaut -1 génère à chaque fois une image aléatoire).
Le réglage via curseur « CFG Scale » permet de choisir le niveau de fidélité du rendu par rapport au prompt et de laisser plus ou de moins de créativité à l’IA.

Par Alice / 28 octobre 2023

Portrait • Intelligence artificielle, Portrait studio