Imagen ilustrativa creada por Reason Why utilizando Inteligencia Humana y Artificial
A lo largo de los últimos años, la inteligencia artificial ha demostrado su útil aplicación en numerosos ámbitos y sectores. Uno de los que más está acaparando la atención de la comunidad tecnológica es el relacionado con la creación de imágenes a partir de texto, tal y como son capaces de hacer programas como Midjourney o Dall-e, cuyos algoritmos se han sofisticado para brindar recursos gráficos tanto a usuarios corrientes como a profesionales.
Su uso es aparentemente sencillo. Basta con introducir los términos y conceptos que aluden a la imagen que se desea obtener como resultado y dejar operar a la máquina, que consiste en una inteligencia artificial capaz de crear imágenes originales a partir de datos de millones de imágenes existentes en internet. Por ejemplo, al introducir la descripción “un oso panda como un científico”, Dall-e nos devuelve esta imagen:
El resultado podría no llegar a satisfacer nuestros gustos o necesidades, lo que requeriría trabajar más en profundidad la descripción aportada a la plataforma. Lo intentamos de nuevo con la frase “un oso panda como un gran científico trabajando en un laboratorio, con estilo de dibujo futurístico”. Y el software nos devuelve la siguiente ilustración.
Más o menos acertada, y más o menos susceptible de ser calificado como arte, lo que denota la diferencia entre ambas imágenes es la necesidad de que el usuario de este tipo de inteligencias artificiales elabore las descripciones de cara a obtener resultados satisfactorios y adecuados. Un terreno que, más allá de las brechas tecnológicas que estos sistemas tengan todavía que solventar, está siendo ya capitalizado por muchos y convirtiendo la generación de indicaciones correctas para la creación de imágenes en una profesión que apunta a tener futuro.
Economía en la generación de descripciones
Así lo demuestra la creciente popularidad de la plataforma PromptBase, lanzada a comienzos de este verano como un mercado para la compraventa de descripciones para los sistemas de inteligencia artificial. Según describe la plataforma, el objetivo es poner a disposición de los interesados “indicaciones de calidad que producen los mejores resultados y permiten ahorrar dinero en costos de API”. Y es que, en el caso de Dall-e, el pago de la suscripción permite obtener créditos, cada uno de los cuales se ha de traducir en la introducción de una indicación en el software, que a su vez ofrece cuatro imágenes diferentes.
De esta forma, ya sea para evitar el gasto de créditos o para obtener imágenes más elaboradas, el perfil de “prompt engineer” -traducible como “ingeniero de descripciones”- se encuentra cada vez más demandado. Estas figuras están desarrollando una actividad económica en torno a la venta de descripciones de texto que producen imágenes en torno a una temática o un estilo artístico. Tal y como explica PromptBase, una vez se apruebe la indicación -cabe recordar que las plataformas de IA no admiten términos vinculados, por ejemplo, a violencia o sexo-, el ingeniero puede ponerla a la venta, de la que obtendrá el 80%, quedándose PromptBase con una comisión del 20%.
Los compradores, por su parte, no acceden a la imagen que genera la indicación, sino a un archivo que contiene el texto de la indicación en sí mismo para la plataforma que deseen. Una vez cuenten con este archivo, lo pondrán introducir en el generador del sistema para acceder a la colección de imágenes correspondientes. Algunas indicaciones se venden por 1,29 dólares, pero pueden encontrarse otras que alcanzan los 4,99 dólares. Esta, que da lugar a paisajes, personajes y objetos dentro de bolas de nieve, se comercializa por 2,99 dólares.
“Nuestro objetivo final es construir herramientas para ayudar a apoyar a los ingenieros rápidos", señaló Ben Stokes, fundador de PromptBase, a TechCrunch en julio. "Estamos viendo que las grandes empresas de tecnología construyen sus propios sistemas similares a GPT-3 y DALL-E, y preveo muchos más por venir. Es probable que se utilicen diferentes sistemas, de forma similar a cómo se usan hoy en día los diferentes lenguajes de programación, y planeamos adaptarlos a todos a medida que ganen popularidad”.
Llegar a pagar hasta 5 dólares por unas líneas de texto puede resultar excesivo para muchos, pero la generación de indicaciones exitosas resulta más complejo de lo que puede parecer a simple vista. Las que se ofrecen en PromptBase incluyen palabras clave que describen la estética deseada, los elementos importantes para una escena y corchetes donde los compradores pueden agregar sus propias variables para adaptar el contenido.
Un profesión ante desafíos
En conversación con The Verge, un diseñador que comercializa sus creaciones a través de la plataforma detalla que vende entre tres y cinco descripciones por día, con cada indicación promediando dos o tres ventas en un mes o dos. Asegura también que cuenta un inventario de aproximadamente 50 prompts, y que la mayoría de las indicaciones que ha vendido parecen estar destinadas al disfrute personal, más que a motivos comerciales.
En lo que respecta a la creación de las imágenes, este prompt engineer explica que puede resultar útil emplear comillas para separar las ideas principales, así como familiarse con términos artísticos o fotográficos, como “hiperrealista”, “fotografía macro” o “hiperdetallado”, así como otros -“iluminación cinematográfica” u “hora dorada”- para añadir detalles. Bajo su opinión, Dall-e ofrece resultados más refinados y profesionales, parecidos a los de un banco de imágenes; mientras de Midjourney tiene un carácter más creativo o práctico. Esta última, además, permite ajustar el peso de las palabras para recoger distintas opciones de la imagen.
El diseñador también explica el trabajo detrás de esta nueva profesión y negocios. Según comenta, además de aprender habilidades para mejorar su técnica, invierte entre 10 y 15 dólares en créditos por cada descripción que cree para obtener los resultados deseados, pero necesita vender entre 5 y 10 unidades de cada indicación para alcanzar el punto de equilibrio. A este respecto, rechaza que quienes critican esta nueva dedicación en la inteligencia artificial vean el resultado final y no el esfuerzo de llegar a ese destino final.
Esta misma visión es la que comparte el fundador de PromptBase, asegurando que las indicaciones representan horas de trabajo genuino y conocimiento por parte de los ingenieros. “Hoy tenemos indicaciones para generar texto e imágenes básicas, pero no es difícil extrapolar esta idea a años en el futuro donde tendremos indicaciones para generar videos, tal vez algún día incluso largometrajes completos o partituras música", comento Stokes a TechCrunch. "Aquellas personas que puedan crear las indicaciones de calidad requeridas para guiar a la IA para hacer estas cosas serán extremadamente valiosas. No se sabe cómo de grande será el mercado, pero puedo ver que esta será una habilidad tecnológica clave, si no el futuro de la programación”.
Este nuevo perfil profesional, así como todo el territorio de la generación de imágenes mediante inteligencia artificial, se enfrenta todavía a numerosos retos. Entre ellos se incluyen el debate sobre los derechos de propiedad intelectual respecto a las indicaciones generadas; el de copyright por el uso de conceptos -algunas imágenes imitan figuras de videojuegos, cómics, personajes de novelas o, incluso, actores reales-; o de autoría, ya que las imágenes ofrecidas por Dall-e o Midjourney se apoyan en millones de otras ya creadas y previamente existentes.
Pese a todo, el nacimiento del “prompt engineer” como nuevo perfil profesional pone de manifiesto el poder moldeador de la tecnología, no solo para la economía, sino también para la legislación, la cultura y la sociedad.