Guía práctica para escribir los mejores 'prompts' en Midjourney y crear imágenes alucinantes

La oleada de herramientas basadas en Inteligencia Artificial que nos llegó en 2022 fue de las mejores noticias del mundo online en muchos años. Tras años de cryptobros promocionando criptomonedas con nombres astronómicos, perrunos u otra clase de timos de la estampita; expertos en la recién anunciada Web3 con diez años de experiencia en ella u otros tipos de pokémon salvajes; de pronto llega algo con enjundia, que convence y emociona.

Aunque las manos tengan siete dedos. Aunque las superficies polimorfas parezcan apocalípitcas. Aunque podamos convencer a la máquina de que dos más dos son cinco. Hablamos de un niño que todavía gatea y usar estas herramientas es tan emocionante como cuando nos conectábamos a Internet por primera vez.

Y una de ellas, Midjourney, se ha convertido en esencial en mi día a día, así que ahí van algunos consejos para sacarle todo el partido y crear imágenes con la mayor calidad posible. Partiendo de la base de que ya sabes cómo se utiliza Midjourney.

Puedes ser ridículamente específico

Llevamos muchos años buscando mediante palabras clave, y esto es lo primero que suele hacer alguien cuando usa Midjourney, ChatGPT y compañía: hablar en apache. Aquí lo ideal es hacer exactamente lo opuesto.

Algunos ejemplos:

❌ Demasiado breve

✅ detallado, mucho mejor

Perro volando

Perro de la raza pastor alemán, volando en un cielo azul con algunas nubes esponjosas, el perro no tiene alas pero sí posa como un pájaro, el sol incide perpendicular para hacer la imagen brillante. Tiene una expresión feliz e intrépida en su rostro, mira hacia el horizonte.

Hombre viendo la TV

Un hombre de unos 60 años sentado sobre el sofá de su salón, observando calmado un televisor. Tiene el mando a distancia en su mano, apuntando hacia el televisor. Las paredes son lisas con algunos cuadros de paisajes, hay una gran ventana en la pared del fondo tapada con una cortina. Toda la estancia está iluminada de rojo.

Un niño y un perro

Un niño rubio con ojos azules de unos cinco años se está haciendo una selfie junto a su perro. Ambos sonríen entusiasmados. De fondo se ve una casa típicamente mediterránea, con maceteros en la calle y el mar de fondo, a mediodía.

No tengas miedo a dar unas descripciones que parezcan absurdas, simplemente asegúrate de que queda reflejada en ellas todo aquello que crees importante para la imagen que quieres conseguir. Dicho eso, precisamente MidJourney hace algo mucho mejor que los demás: dar buenos resultados con prompts breves, por lo que para según qué tipo de imágenes, estos pueden valer.

Mejor en inglés

Aunque la interfaz de Midjourney esté en inglés, la herramienta entiende prácticamente cualquier idioma, pero eso no significa que los resultados que ofrece sean de la misma calidad en uno que en otro.

Mi propia experiencia tratando de calzarle conceptos extremadamente concretos en español, junto a algún que otro comentario en Reddit, me han terminado de convencer: al menos de momento, los resultados óptimos se logran haciéndole peticiones en inglés. Si no es tu fuerte, puedes recurrir al traductor que mejor te funcione, Google Translate o DeepL.

La proporción

Midjourney proporciona con cada petición cuatro imágenes cuadradas. Puedes pedir que sean apaisadas o verticales con el comando "--ar" seguido de la relación de aspecto que quieras. "--ar 3:2", "--ar 16:9", etc. "ar" significa "aspect ratio".

Un ejemplo de dos imágenes con el mismo prompt, uno sencillo, simplemente añadiendo el comando "--ar 3:2" al final.

Prompt: "A five-year-old boy takes a selfie with a dog. Both are smiling. Sunset lighting."
Prompt: "A five-year-old boy takes a selfie with a dog. Both are smiling. Sunset lighting. --ar 3:2".

Midjourney da mucha libertad para escoger proporciones, si bien avisa que en algunos casos concretos podría no entregar la imagen final con esa proporción exacta, así que toca revisar bien el resultado final.

Y un matiz importante: solo detecta números enteros, no decimales. Si quieres uno con decimales, multiplica hasta que desaparezcan esos decimales. Por ejemplo, si quieres una imagen en 2.39:1, una proporción habitual en el cine, usa --ar 239:100. No obstante, a partir de la cuarta versión, Midjourney no genera imágenes en ciertas proporciones, como alguna superior a 2:1 o 1:2.

El estilo es la clave

"Una ilustración" o "una imagen" es un concepto ambiguo. ¿Qué tipo de ilustración? ¿Qué tipo de imagen? ¿Realista, a mano alzada, en acuarela? ¿Con iluminación cinemática o mejor que parezca un cuadro al óleo? Ahí es donde entran los estilos. Los estilos e iluminaciones que puede entender Midjourney son casi infinitos, así que el principal límite es tu conocimiento o tu imaginación.

Algunos ejemplos en los que puedes revisar el prompt para entender esto. Atención a los términos usados al final, son los que también puedes usar para ir experimentando con esta herramienta.

Prompt: "A person alone, in the living room of his house, watching television. He has the remote control in his hand, pointing towards the television. Hyperrealistic, CGI, HDR, red-lighting, --ar 3:2"

¿No conoces suficientes términos como para matizar tanto una petición? No hay problema, busca jerga como esta para hacer referencia a lentes, óptica, iluminación, efectos visuales... Midjourney es lo suficientemente inteligente como para no provocar un desastre cuando nos pasemos usando términos, así que en la práctica no es un gran problema que nos excedamos.

Prompt: "A guy in his 20s with a cap doing maths in his desk. With cinematic lightting, practical light, with closeup shot, 55 mm lens, production quality, depth of field, cinema photography, professional color grading, exquisite detail, sharp-focus, intricately-detailed, long exposure time, f/2.8, diffuse-back-light, award winning photography, realistic photography, hyper realistic, unreal engine, realistic lense flare, real lighting, Studio Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Shimmering, Lumen Reflections, Screen Space Reflections, Diffraction Grating, GB Displacement, Ray Traced, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, Tone Mapping, CGI, VFX, SFX, --ar 3:2".

Usar estos estilos, lentes, iluminaciones, matices... es lo que marca la diferencia a la hora de lograr ciertos resultados.

Un ejemplo bastante notable. Esta imagen de cuatro antenas de telecomunicaciones sobre una montaña nevada...

Prompt: "Snow-capped mountains, with four mobile telecom towers on top,--ar 3:2"

...frente a esta otra...

Prompt: "Snow-capped mountains, with four mobile telecom towers on top, light blizzard, ultra-realistic, cinematic, chromatic aberration, incredibly detailed and intricate, FKAA, TXAA, RTX, CGI, VFX, --ar 3:2"

Si quieres estilos realistas, fotográficos, también hay muchos añadidos que puedes hacer al prompt. Un ejemplo para generar una imagen lo más natural posible, aunque con estilo fotográfico, de una pareja asistiendo al cine con mascarilla. No pasa nada por añadir términos contradictorios al prompt en cuanto a estilo, ya que Midjourney es lo suficientemente bueno como para entenderlo y separarlos en sus cuatro propuestas o no tratar de aplicarlos a la vez.

Prompt: A couple in their 40s, a man and a woman, are in the cinema. They are seen from the front, in the foreground. Both are wearing a face mask while looking towards the screen. With cinematic lighting, closeup shot, 75 mm lens, production quality, depth of field, cinema photography, color grading, exquisite detail, sharp-focus, intricately-detailed, long exposure time, f/2.8, diffuse-back-light, award winning photography, hyper realistic, unreal engine, realistic lense flare, Cinematic Lighting, Studio Lighting, Beautiful Lighting, Accent Lighting, Global Illumination, Ray Tracing Global Illumination, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, elegant, 4K, --ar 3:2"

La calidad que puede lograr Midjourney a partir de prompts no tan elaborados es impresionante.

Prompt: "A mediterranean house with a garden. It has two floors and a brick gable roof. The facade is beige. Sunset golden hour. In the garden there are dogs. Ultra-realistic, cinematic, chromatic aberration, incredibly detailed and intricate, FKAA, TXAA, RTX, CGI, VFX, --ar 3:2"

Ilustraciones

No toda creación con Midjourney tiene que parecer una imagen real, también funciona muy bien para crear ilustraciones de multitud de estilos. Piensa en un estilo de arte pictórico, ilustración, cómic, manga, anime... Hasta puedes recrear estilos de personajes de animación. Atención a las últimas palabras de los siguientes prompts, que son las que suelen indicar los estilos:

Prompt: "A man sitting on the couch in his living room, a minimalist flat. He holds a calculator in his hands while watching TV. 4K, Ukiyo-e. --ar 3:2"
Prompt: "Epic bowling strike by a couple, anime style. 4K, --ar 3:2"
Prompt: "George Costanza as a Pixar character. 4K, --ar 3:2"
Prompt: "Freddie Mercury singing, oil-painting, 4K, --ar 9:16"
Prompt: "Elaine Benes, art deco, 4K".
Prompt: "Mediterranean village, concept art, 4K, --ar 2:3"
Prompt: "Bill Gates, no text, catholic icon, 4K, --ar 2:3"
Prompt: "Frida Kahlo as a GTA videogame character. 4K"
Prompt: "Albert Einstein, fauvism".
Prompt: "Valencia, naive art"
Prompt: "Hogwart's professors, steampunk, 3D, full body, movie scenes, ultra realistic, colorful. 4K, --ar 2:1"
Prompt: "Burguer, pointilism, --ar 3:2"
Prompt: "Super Mario, expressionism, 4K".
Prompt: "David Bowie arriving at the gates of heaven. Surrealism. 4K, --ar 3:2"
Prompt: "Ultrarealistic 8K anime portrait of Joker with rain in the background"
Prompt: "A watercolor painting depicting a lovely 8-month-old Spanish baby girl and a Spanish mother with long hair, they are smiling on the sunset beach. 4K, --ar 3:2"


La resolución

Si no solo quieres cambiar la proporción de la imagen, sino que le pides un tamaño exacto, puedes especificarlo usando los comandos --w para indicar la anchura y --h para indicar la altura.

Por ejemplo, si quieres una imagen de 1000 píxeles de ancho y 700 de alto, deberías añadir "--w 1000 --h 700" al final del prompt.

La calidad

Midjourney entiende "calidad" como "tiempo necesario para generar una imagen". Y puedes controlarlo. Esto es especialmente útil en imágenes donde los pequeños detalles sean clave. Por ejemplo, en imágenes donde el sujeto o el objeto protagonista aparezcan muy de cerca, sobre todo si tienen alguna textura muy marcada en su superficie; o en imágenes arquitectónicas.

Los valores que puedes usar son los siguientes, precedidos del comando:

  • --quality .25
  • --quality .5
  • --quality 1
  • --quality 2

A mayor sea el número, mayor el tiempo empleado en generar la imagen, y por tanto, su calidad. Si no usas ningún comando para la imagen que estés generando se aplicará "--quality 1" por defecto. Reducir la "calidad" es asumible en ciertas imágenes  a costa de tenerlas más rápido, y sobre todo, con menor uso de GPU de Midjourney, que es lo que marca los límites de su plan de pago.

Algunos ejemplos:

Prompt: "Happy elephant running across the desert. 4K, --ar 3:2 --quality 0.25"
"Happy elephant running across the desert. 4K, --ar 3:2 --quality 0.5"
Prompt: "Happy elephant running across the desert. 4K, --ar 3:2 --quality 1"
Prompt: "Happy elephant running across the desert. 4K, --ar 3:2 --quality 2"


Que parta de una imagen previa o mezcle dos

Si quieres que tu imagen parte de una previa, puedes incluir su URL y entenderá que esa es la base que debe usar. No significa que vaya a reinterpretarla de una manera muy fidedigna, pero todo es probar y ajustar. Simplemente la URL de la imagen. Asegúrate de que finaliza con la extensión de la imagen.

Otra posibilidad es unir dos imágenes distintas para crear un híbrido de ambas. En ese caso, añade las URL de ambas. Por supuesto, puedes añadir los matices que quieras al prompt, aunque a mayor complejidad, más se puede alejar el resultado de la fusión de ambas imágenes.

Prompt: "https://pbs.twimg.com/media/FpAoNVCX0AEu4tv?format=jpg&name=medium https://pbs.twimg.com/media/FpAoNVCX0AEu4tv?format=jpg&name=medium https://pbs.twimg.com/media/FiLm_bLXwAEVfDi?format=jpg&name=4096x4096 https://es.webedia-group.com/wp-content/uploads/sites/12/2022/11/premios_xataka_1-1024x682.jpg " (Imágenes de los Premios Xataka Orange 2022)

Evita presencias habituales

En la imagen anterior de Bill Gates solían aparecer textos ilegibles (Midjourney tiende a poner textos que son mezclas de muchos y no se entiende ninguno) en algún lugar cerca del protagonista. ¿No quieres que aparezca ninguno? Usa los dos guiones seguidos para establecer lo que no quieres que salga. Por ejemplo, "--no text". ¿Estás creando imágenes de pizzas y quieres que dejen de incluir pepperoni? Usa "--no pepperoni".

Prompt: "Pizza, realistic"
Prompt: "Pizza, realistic, --no pepperoni"

Abraza el caos

Una opción curiosa que ofrece Midjourney es introducir "caos" en las imágenes, lo cual viene a significar abrir el abanico en cuanto a libertad creativa e inventiva artificial a partir del prompt. Abstracción.

Si no usamos este parámetro, el valor por defecto es cero. Si queremos que suba, tenemos que añadir el comando "--chaos" o "--c" seguido de un número del 0 al 100. A mayor sea el número, más "caótica" será la imagen.

Unos ejemplos made in València. Caos 0, caos 50, caos 100.

Prompt: "Tasty paella at the beach --ar 3:2"
Prompt: Tasty paella at the beach --ar 3:2 --chaos 50"
Prompt: "Tasty paella at the beach --ar 3:2 --chaos 100"

Otro ejemplo un poco más ilustrativo: un híbrido entre un murciélago y una mandarina. Caos 0, caos 50, caos 100. Depende de si quieres un resultado más tradicional, o uno más imaginativo.

Prompt: "Bat tangerine hybrid".
Prompt: "Bat tangerine hybrid --chaos 50".
Prompt: "Bat tangerine hybrid --chaos 100".

Y algunas palabras clave

Para que siempre puedas acogerte a una serie de términos que si incluyes en tu prompt, te garantizarán un resultado en una dirección concreta.

  • Aerial photography: para ver un paisaje, una ciudad, etc. desde una vista cenital
  • Astrophotography: paisajes nocturnos que incluyan estrellas, nebulosas, etc. en el cielo.
  • Cinematic: aspecto cinematográfico
  • Closeup shot: genera primeros planos para imágenes realistas
  • Chromatic aberration: simula esta distorsión fotográfica
  • Cyberpunk: estilo de este subgénero de la ciencia ficción (paisajes artificiales, iluminaciones urbanas nocturnas, neones...)
  • Depth of field: profundidad de campo, fondo desenfocado
  • Diffraction grating: red de difracción, mejora las iluminaciones
  • Diffuse back light: simula la retroiluminación artificial mediante un foco difuso
  • Expressionism: simula arte expresionista
  • Fauvism: estilo artístico que usa el color de forma provocativa
  • Glitch art: estética de arte tradicional "roto" de forma digital
  • Glowing: crea una imagen brillante
  • HDR: alto rango dinámico
  • Hyper realistic: genera imágenes ultra realistas
  • Intricately-detailed: gran nivel de detalle
  • Lo-fi photography: fotografías hechas a propósito con aspecto de mala calidad, pero con el tipo de estética buscada (distorsionadas, borrosas, con fugas de luz, viñetas...)
  • Oil painting: genera imágenes que simulan pinturas al óleo
  • Pixel art: un poco de nostalgia por lo retro
  • Pop art: imágenes de este estilo artístico
  • Ray-traced / Ray tracing: empleo del algoritmo especializado en la generación de iluminaciones y sombras
  • Realistic lense flare: genera un destello de lente realista, como en una fotografía
  • Rococo: imágenes que representen este movimiento artístico
  • Scattering: dispersión, un efecto popular para ciertas fotografías o composiciones
  • Screen space reflections: técnica para calcular de forma óptima los reflejos sobre una superficie
  • SSAO: técnica de oclusión ambiental para mejorar las zonas sombreadas
  • Sunset / Sunset lightning: recrea la luz de un atardecer en la imagen
  • Ukiyo-e: genera imágenes que simulan esta técnica de estampación japonesa
  • Vintage: imágenes en sepia, de baja calidad, emulando fotografías muy antiguas
  • Watercolor: emula un cuadro pintado con acuarelas
  • X architecture (siendo 'X' un tipo de arquitectura): genera imágenes con ese estilo arquitectónico. Por ejemplo, 'stalinist architecture', 'scandinavian architecture', 'traditional japanese architecture' o 'minimalist architecture'.
  • XXXXs fashion (siendo 'XXXX' un número'): genera imágenes donde las personas aparecen vestidas y peinadas con la moda de la década que le indiquemos. Por ejemplo, '1970s fashion'.
  • XX mm lens (siendo 'XX' un número): genera imágenes que recrean fotos con una lente de la distancia focal que le indiquemos. Por ejemplo, '55 mm lens'.

Esta lista puede ser casi infinita. Cuanto mejor conozcas la ilustración, el arte y la fotografía, mejores prompts podrás redactar. No te limites a estos conceptos, piensa de forma amplia.

Y esto es todo. Midjourney ofrece posibilidades infinitas, su única limitación es nuestra imaginación y la capacidad que tengamos para poner palabras y términos adecuados a lo que aspiramos a crear. De la misma forma que podemos transmitir ideas mejor comunicadas y más complejas a menudo que enriquecemos nuestro vocabulario, la habilidad semántica es clave para manejar Midjourney de la mejor forma posible.

Imagen destacada: Javier Lacort con Midjourney.

Ver todos los comentarios en https://www.xataka.com

VER 9 Comentarios

Portada de Xataka