Une séance de portrait studio virtuelle avec Midjourney

Midjourney est la plus réputée des IA génératrice d’image à partir de prompts.
Ce quatrième volet de nos tests d’IA « text-to-image » permet de comparer dans les mêmes conditions, Midjourney 5.2 à Firefly beta d’Adobe, DALL-E 3 d’openAi ou Stable Diffusion 1.5.

Midjourney, l’IA qui en met plein la vue

Notre séance virtuelle commence toujours avec le même prompt :

« Shooting photo dans un petit studio photo avec deux lightboxes. Le modèle est une femme eurasienne. Le fond du studio est en béton brut.»

Le terme eurasienne n’étant pas compris (comme dans toutes les IA testées jusqu’à présent) dans les 4 premières images, nous le remplaçons immédiatement par asiatique pour les 4 images suivantes (à droite).

On remarque que Midjourney, avec les réglages par défaut, cherche immédiatement à en mettre plein la vue en créant des décors riches et plutôt créatifs !
Si vous n’avez pas vraiment d’idées, cette IA en aura toujours pour vous !

Les rendus sont de bonne qualité et très photoréalistes. Ce constat sera valable tout au long de notre séance de shooting virtuel avec Midjourney, qui est une référence dans ce domaine.

Mais avec ces deux premières séries d’images, nous comprenons immédiatement l’erreur commise d’avoir laissé activé le réglage « très haute stylisation » qui conduit Midjourney à en faire des tonnes et à beaucoup trop s’éloigner du prompt.

En choisissant une stylisation réduite mais aussi en passant au mode « RAW » qui respecte plus fidèlement le prompt, nous allons pouvoir continuer notre séance de portrait studio dans un cadre plus simple et plus contenu.

French touch

Midjourney est prévu, à la base, pour fonctionner en anglais, mais l’IA comprend aussi désormais assez bien le français.
Nous en profitons pour faire un test comparatif dans les deux langues à partir du prompt suivant :
« Shooting photoréaliste dans un studio photo professionnel avec deux lightboxes octogonales. Le modèle est une femme asiatique. Le fond du studio est un mur en béton brut. Il n’y a aucun accessoire dans l’image. ».

Comparaison de rendus d'images de Midjourney en anglais et en français

Étonnamment, Midjourney à été plus fidèle au prompt en français que celui en anglais !
Nous avons peut-être utilisé incorrectement le terme « lightbox » au lieu de « softbox » mais il est amusant de constater qu’en français, l’IA a plutôt placé des éclairages et des fonds studio (les 4 images de gauche) alors qu’en anglais elle a créé une ambiance très différente, plus sophistiquée et avec des éclairages décoratifs.

L’apprentissage de l’IA semble s’être arrêtée à la forme hexagonale car aucun des éclairages n’aura huit cotés dans toutes nos tentatives suivantes !
Y compris dans nos essais en mode avancé, en proposant des images en exemple.

Pour la suite du test, nous formulons tous les prompts en anglais et en profitons pour utiliser le terme plus approprié de « softbox ».

La simple utilisation du terme Softbox en anglais à remis Midjourney dans notre contexte de studio photo !
C’est un enseignement à garder en tête : un seul mot mal utilisé (ou mal compris) par l’IA peut changer complètement les images produites.

Les premières propositions sont variées : diversités des tenues, des positions et des arrières plans.
Les visuels correspondent peu ou prou à ce que l’on attendait, même si il y quelques bizarreries au niveau des avant-bras ou pour une softbox très déformée.

Midjourney permet de corriger des parties d’une image sélectionnée donc il serait bien sûr possible de retravailler l’une de ces images pour l’améliorer en quelques étapes supplémentaires.

Les portraits studio Midjourney

Comme pour les autres IA testées dans de blog, nous retirons les éclairages de la scène et resserrons un peu plus notre portrait.

Midjourney permet d’indiquer une focale d’objectif dans le prompt, nous en profitons pour passer notre shooting virtuel au 85 mm :

« Shooting photo studio professionnel avec 2 sources de lumière et un rendu photo réaliste. Portrait close-up, 85 mm, d’une femme asiatique. L’arrière plan est un mur est en béton brut. »

Comme pour les autres IA, excepté DALL-E 3 très performante sur ce point, Midjourney n’arrivera pas à mettre un vrai fond en béton dans notre studio (pourtant l’IA sait le faire dans les vues d’architectures intérieures).

Nous créons des déclinaisons « subtiles » à partir du premier visage de l’image précédente.

Les 4 propositions, qui ne varient sur des petits détails, sont toutes intéressantes et il n’est pas nécessaire de continuer à faire d’autres déclinaisons à l’infini.
Comme lors d’un vrai shooting de portrait, il faut s’avoir s’arrêter et faire un choix.

Le portait couleur Midjourney

Portrait couleur studio photo Midjourney d'une femme asiatique

Ce portrait de qualité réalisé par Midjourney 5.2 en très peu d’essais propose un grain de peau intéressant, un léger flouté au niveau des épaules, et un rendu des cheveux très fin.

Midjourney, le noir et blanc qui en fait voir de toutes les couleurs

Nous repartons sur de nouveaux modèles avec notre prompt mis à jour pour les portraits en noir et blanc.
Nous en profitons pour choisir une focale de 135 mm et une seule source de lumière :
« Shooting photo studio professionnel. Rendu photo réaliste. Portrait extrême close-up d’une femme asiatique, 135 mm. Une source de lumière. Noir et blanc contrasté. »

Comme avec toutes les autres IA nous avons abandonné très vite le « style Harcourt » qui n’a rien produit.
On peut aussi vous dire tout de suite que nous allons rencontrer le même problème qu’avec Stable diffusion 1.5 : Midjourney 5.2 n’arrive pas à produire toutes les images en noir en blanc.

L’IA respecte bien l’unique source de lumière demandée, le reflet d’une softboxe dans les yeux correspond à l’angle de la lumière sur le visage.

Nous décidons de vieillir un peu les jeunes modèles proposés par défaut par l’IA, en précisant un age de 35 ans dans le prompt.

Nous décidons aussi de changer le ratio largeur-hauteur de l’image générée. Pour cela il faut utiliser une commande particulière dans le prompt.
Par défaut, Midjourney insère automatiquement un code pour le format carré qui équivaut à « –ar1:1 »
Nous choisissons le format « –ar7:5 » (il faut un certain apprentissage pour pouvoir utiliser l’interface de Midjourney sur Discord, qui n’est pas un modèle de convivialité – voir le tuto sur l’interface Discord pour Midjourney en fin d’article).

Pour l’ensemble des rendus de ce test (à l’exception des dernières étapes d’affinage des portraits), nous avons sélectionné le mode à « haute variation » qui permet d’avoir à chaque fois 4 propositions très différentes.

Le choix d’une seule lumière et l’indication « noir et blanc contrasté » à permis d’avoir un grain de peau intéressant.
Nous sélectionnons notre image préférée, la n°2, pour l’utiliser en Une de cet article.

Midjourney en mode remix

Comme nous l’avons déjà utilisé pour le portrait couleur, le mode « remix » proposé par MidJourney 5.2 est un mode avancé qui permet de repartir d’une image sélectionnée et d’en modifier le prompt pour générer plus précisément ses variantes.

Par défaut, quand le mode remix est désactivé, les boutons de variations génèrent des images sans aucun contrôle possible.

Nous avons gardé notre modèle pour générer ces propositions très satisfaisantes. Il ne nous reste plus qu’à sélectionner l’un des portraits pour générer une dernière variante en mode « remix », en y ajoutant un demi sourire.

Le portrait studio noir et blanc Midjourney

Le portrait japonais

Nous terminons cette séance photo virtuelle par : « le portrait d’une femme japonaise de 40 ans avec un demi-sourire. Elle porte une robe à fleur de cerisiers. L’arrière-plan est composé de branches de fleurs de cerisier. Objectif 135 mm. Noir et blanc contrasté. –ar 1:1 »

Le biais de l’IA jaunissante : à partir de ce moment, Midjourney s’est mis à « jaunir » (comme si il s’agissait de vieilles photos) la majorité des portraits suivants que nous avons tous remis en noir et blanc.

8 portraits japonais noir et blanc Midjourney

Midjourney en mode « Var (strong) » produit des propositions très diverses et très réussies, tant au niveau de la composition, que des coiffures ou encore des robes. Nous décidons de faire un dernier saut dans le temps en vieillissant à « 50 ans » l’un des modèles proposés.

Pagode, pagode !

En ajoutant au prompt notre « pendentif en forme de pagode » qui a piégé les autres IA testées dans ce blog, à l’exception de DALL-E 3, comment Midjourney va-t-elle s’en sortir ?

L’IA crée bien des colliers mais aucun avec un motif de pagode !
Nous profitons du mode avancé en essayant plusieurs fois de modifier uniquement le pendentif en mode localisé (y compris en donnant en exemple une image de pagode) mais sans succès.

Seul point positif, MidJourney n’impose pas systématiquement des boucles d’oreilles en plus comme le faisait Adobe Firefly.

Les modèles de 50 ans générés par Midjourney n’ont pratiquement aucune ride mais ont le grain de peau que l’on aurait peut-être préféré voir sur les modèles un peu plus jeunes.

Nous effectuons notre dernier rendu japonais en partant du modèle n°4, et en demandant quelques rides supplémentaires dans le prompt :

Portrait femme japonaise noir et blanc Midjourney

Midjourney à ajouté de très subtiles rides autour des yeux et de la bouche de cette splendide femme japonaise de 50 ans, nous permettant de conclure avec brio cette séance de portrait virtuelle.

Comment utiliser l’interface de Midjourney

Rançon du succès, MidJourney est devenu payant depuis 2023 et propose plusieurs offres qui démarrent à partir de 10€/mois.
Pour utiliser Midjourney vous devez passer obligatoirement par l’application Discord.

Nous n’allons pas rentrer dans le détail de toutes les fonctionnalités de l’IA, car elles sont nombreuses, mais donner les bases principales de son utilisation.

Le langage de commande de Midjourney

Discord est à la base une application de chat qui n’est pas vraiment adaptée à accueillir des applications. Du coup, l’interface de Midjourney dans ce logiciel s’avère peu pratique et un peu désuète, sans compter qu’elle semble venir de la préhistoire de l’informatique.

4 commandes indispensables à connaitre pour utiliser Midjourney dans Discord.

La commande « /settings » permet d’afficher le panneau des réglages et de régler ses préférences de rendu des images.
La commande « /imagine » permet d’activer la zone de saisie du prompt avant de lancer un rendu.
La commande « /describe » permet de faire apparaître un bouton « IMAGE » qui vous permet d’uploader une image personnelle pour servir de référence avant de générer un rendu.
La commande « /info » permet de connaître l’état de sa consommation de crédits Midjourney en cours et du temps CPU disponible.

Réglages des rendus Midjourney

La commande « /settings » fait apparaître le panneau de réglages :

1. Le mode « RAW » est le rendu qui vous permet de produire de meilleurs rendus photoréalistes et vous offre plus de contrôle sur les résultats en respectant plus précisément le contenu de votre prompt.
2. Il y a 4 niveaux de stylisation : le mode « low » est au plus proche du prompt quand le mode « high » laisse le plus de liberté à l’IA d’ajouter ses idées « artistiques ».
3. Le mode public signifie que toutes vos images sont publiques (il faut un abonnement pro pour pouvoir garder ses images privées).
4. Activer le « Remix mode » vous permet de repartir d’images précédentes en modifiant le prompt.
5. Les modes Variation « High » ou « low » permettent de choisir le niveau de différences entre les 4 images générées.
6. « Sticky style » verrouille votre style d’image favori : cela concerne une fonctionnalité avancée qui permet de créer, à l’aide de la commande /tune, plusieurs styles d’images pour lesquelles vous disposez d’un code unique à indiquer dans vos prompt.
7. Les 3 boutons, Turbo, Fast, et Relax permettent de choisir la vitesse de génération des images.

Créer des images à partir d’un prompt dans Midjourney

Saisir /imagine dans le champ de texte puis pour faire apparaître l’indication « prompt », puis saisir son prompt complet.
Cliquer sur le bouton bleu pour lancer les 4 rendus.

Par défaut, MidJourney génère quatre images.

Les boutons « U » servent à générer l’image correspondante dans un format de 1024 x 1024 px.
Les boutons « V » permettent, soit de générer automatiquement des variantes du portrait, soit, si on est en mode « Remix », de donner la possibilité de modifier le prompt avant de générer les variantes de l’image correspondante.
Le bouton « double flèche » permet de relancer 4 nouveau rendus.

Une fois qu’une image est générée de façon isolée, de nouvelles options apparaissent.

1. Les boutons « Vary » permettent de créer de nouvelles variantes, fortes ou subtiles de l’image.
2. Les boutons « Upscale » x2 ou x4 permettent de crée des versions agrandies (il s’agit de ré-échantillonnage).
3. Les boutons « Zoom » agrandissent la zone de rendu tout autour de l’image déjà créée.
4. Les boutons « flèches » agrandissent une zone sur un côté de l’image centrale.
5. Le bouton « cœur ».
6. Le bouton « partage » pour créer un lien sur l’image.

Importer l’une de ses images dans Discord

Cliquer sur le + (à gauche du champ de saisie), permet d’importer une image de sa photothèque dans Discord pour ensuite servir de base de départ à de nouvelles images.
Une fois votre image importée de cette façon, il faudra copier son URL pour pouvoir la coller ensuite au début d’un prompt.

Générer des prompts à partir d’une image importée ou un lien externe

Pour utiliser une image externe à Midjourney comme référence, vous devez insérer son URL au début d’un prompt.
Vous pouvez utiliser n’importe quelle image existante pour servir de base à votre création Midjourney, et ceci de trois façons différentes :

En utilisant la commande « /describe » propre à Midjourney qui crée un bouton IMAGE au dessus du champ de saisie : en cliquant sur ce bouton, vous pouvez aller directement sélectionner une image de votre photothèque que Midjourney insère automatiquement au début du prompt.
En copiant directement une URL d’image à partir d’un site internet.
En l’important directement dans Discord selon la méthode décrite dans le point précédent, puis en copiant son URL dans Discord.

Autres astuces à connaitre sur Midjourney

Il n’existe pas de véritable historique et au bout de centaines d’images générées, il peut être compliqué de retrouver des images non sauvegardées :
Pour conserver un meilleur suivi de vos productions, nous conseillons de ne pas utiliser les divers fils de discussions proposés et de ne créer vos rendus que dans le fil du « Midjourney Bot ». Vous pouvez aussi « Epingler » au fur et à mesure vos meilleurs rendus pour les retrouver plus facilement ensuite.
MidJourney crée des images carrées par défaut : pour choisir un format d’image personnalisé il faut changer dans le prompt la valeur de base « –ar 1:1 » avec d’autres chiffres, par exemple –ar 3:2 pour un format paysage standard ou –ar 16:9 pour un format cinéma.
Pour supprimer un élément indésirable d’une image (l’équivalent du prompt négatif de Stable Diffusion), ajouter dans le prompt la commande :
–no
suivi de l’élément à enlever, par exemple –no arbre
Les prompts multiples peuvent éviter des erreurs d’interprétation de MidJourney :
plutôt que séparer des mots par des virgules, il est possible d’ajouter :: après chaque mot afin qu’ils soient bien considérés séparément.
Par exemple « studio:: photo:: » est interprété différemment par Midjourney que « studio photo »
Pour régler l’importance donnée à certains mots par rapport à d’autres, il suffit d’ajouter un chiffre après ::
suivi d’un chiffre compris entre 1 et 100, par exemple arbre:: 100 montagne::10

MidJourney, l’IA « text-to-image » de référence

Visages et corps

MidJourney maîtrise le rendu des visages et des corps et produit des images sans défauts apparents.
Sans indications particulières, l’IA à proposé des visages « normaux » assez variés, comme l’avait fait Firefly beta d’Adobe, quand DALL-E 3 ou Stable diffusion 1.5 avaient proposé plus systématiquement de jeunes canons de beauté.
MidJourney semble être un peu bridée (sans mauvais jeu de mot) puisqu’elle nous a bloqué immédiatement lors d’un essai d’utilisation de l’anodin terme « sexy » quand Stable Diffusion 1.5 a déshabillé sans hésitation notre modèle (il semblerait que cela a été corrigé avec la version 2).

Interprétation des prompts

Si on laisse de la liberté à MidJourney, l’IA à la capacité à générer des images sophistiquées très impactantes : elle dispose d’un savoir-faire et d’une base créative au dessus de toutes les autres.
Mais passé l’effet « Waouh » des rendus de MidJourney 5.2, on s’aperçoit que cette IA est moins douée pour comprendre et réaliser nos demandes que DALL-E 3, qui profite de ChatGPT. MidJourney s’emmêle assez vite les pinceaux si les formulations ne sont pas assez simples et dès que les prompts dépassent une quinzaine de mots. Sur ce plan, elle montre un peu les même limites que Stable diffusion 1.5.

Dans le cadre de notre simulation d’une scène de studio, MidJourney n’a pas tout à fait réussi à créer un intérieur de studio photo avec des éclairages studios réalistes (voir le dernier test en fin d’article) au contraire de DALL-E 3 qui a été capable de reconstituer des scènes de studio avec très peu de défauts.
Sur ce point, MidJourney se place en deuxième position à égalité avec Stable diffusion, suivies par Firefly d’Abobe.

Photoréalisme

Au niveau du photoréalisme des rendus, MidJourney 5.2 n’a pas grand chose à prouver, c’est probablement la meilleure. L’écart s’est réduit avec ses poursuivantes.

MidJourney est la seule IA que nous avons testée en mode pro, car elle n’est plus proposée gratuitement depuis cette année.
C’est pourquoi nous ne l’avons pas trop poussée dans ses retranchements afin de pouvoir la comparer plus équitablement avec les versions gratuites des 3 autres IA testées précédemment.

PORTRAITS COULEUR – PORTRAITS NOIR & BLANC – INTERFACE MIDJOURNEY

Les capacités d’interprétation de Midjourney 5.2 face à DALL-E 3

Tout au long de ce test, nous nous somme battus avec l’IA Midjourney pour le respect des prompts (nous vous avons épargné les ratés).
Pour terminer nous l’avons soumise au même prompt détaillé que seule DALL-E 3 à été capable de représenter directement sans erreurs, ni oublis :

« Shooting dans un photo studio. Une photographe prends en photo en noir et blanc une femme japonaise de 35 ans avec un demi sourire portant une robe au motif de cerisier. Deux light boxes octogonales, une grande et une petite, éclairent la scène de chaque côté. Le fond du studio est en béton brut. »

Les résultats ne sont loin d’être mauvais mais il y a, par exemple, un gros oubli avec l’absence de la photographe demandée.
De plus, l’intégration des motifs de cerisier se fait parfois n’importe comment, les softboxes sont plus difformes les unes que les autres et le fond du studio n’est jamais en béton.
Cela fait beaucoup d’erreurs d’interprétation à comparer avec le respect du prompt impressionnant de DALL-E 3.

Évidemment, nous somme conscients que l’intérieur d’un studio photo est quelque chose de très difficile à recréer mais cela permet justement de comparer les performances des différents modèles de langages et l’avantage certain de DALL-E sur ce plan face à tous ses concurrents.
Les IA sont bien entraînées sur les représentations humaines, sur les paysages, et sur nombre d’objets usuels. Ils leur reste encore des progrès à faire, avant d’arriver à simuler le matériel d’éclairage de nos studios photo, comme sait le faire parfaitement l’application 3D set.a.light testée dans ce blog.