En un contexto de creciente interés, tanto profesional como particular, por las herramientas de inteligencia artificial que permiten la generación de imágenes, las grandes compañías tecnológicas se están sumando a la carrera presentando sus propias soluciones. A comienzos de esta semana Meta daba a conocer Make-A-Video, que brindará la posibilidad de crear vídeos a partir de texto, unos pasos que ahora toma también Google con Imagen Video y Phenaki.
Apoyándose en su anterior sistema de conversión de instrucciones escritas a video, llamado Imagen, Google ha perfeccionado la técnica para desarrollar una herramienta -es un proyecto de investigación- que ofrece la oportunidad de convertir esas imágenes estéticas en otras con movimiento fluido. De esta forma, Imagen Video es capaz de generar vídeos cortos y sin sonido, y propuesta se apoya, a diferencia del otro nuevo sistema de la tecnológica, en la búsqueda de la calidad de la imagen.
Tal y como sucede con la solución de Meta, Imagen Video ofrece los mejores resultados en aquellas composiciones de carácter más abstracto y que replican animación, pero muestra oportunidades de optimización en aquellas que emulan el movimiento de personas y animales, de las cuales el usuarios ya cuenta con una idea muy definida de lo que desde obtener. La tecnológica asegura que Imagen Video genera videos de alta resolución con Modelos de Difusión en Cascada y cuenta con capacidad para dar lugar a piezas de 128 fotogramas con una resolución de 1280 × 768 y 24 fotogramas por segundo
“Ante un mensaje de texto, Imagen Video genera videos de alta definición utilizando un modelo de generación de video base y una secuencia de modelos de superresolución de video espacial y temporal intercalados”, explica la compañía en la página web de la herramienta. “Imagen Video no solo es capaz de generar videos de alta fidelidad, sino que también tiene un alto grado de controlabilidad y conocimiento del mundo, incluida la capacidad de generar diversos videos y animaciones de texto en varios estilos artísticos y con comprensión de objetos 3D”.
Noticias Relacionadas
El fenómeno del “algospeak” evidencia la compleja tarea de la moderación de contenido en internet
{"id":23377,"titular":"El fenómeno del “algospeak” evidencia la compleja tarea de la moderación de contenido en internet","prefijo":null,"slug":null,"image":"https://www.reasonwhy.es/media/cache/noticia_relacionada/media/library/algospeak-moderacion-de-contenido.jpg","path":"/actualidad/fenomeno-algospeak-algoritmos-moderacion-contenido-internet"}Además de los desafíos técnicos en los que se está trabajando, Google también asegura que el desarrollo de este tipo de herramientas afrontar retos de seguridad y ética. “Los modelos generativos de video se pueden usar para impactar positivamente en la sociedad, por ejemplo, amplificando y aumentando la creatividad humana. Sin embargo, estos modelos generativos también pueden ser mal utilizados, por ejemplo, para generar contenido falso, de odio, explícito o dañino”, comenta la compañía.
En esta línea, destaca entre las medidas tomadas las pruebas internas y la aplicación de filtrado de mensajes de texto de entrada y de contenido de video de salida, y también señala que Imagen Video y su codificador de texto congelado T5-XXL fueron entrenados en datos problemáticos. No obstante, la compañía ha optado por no lanzar todavía el sistema ni su código fuente al público para mitigar preocupaciones. “Si bien nuestras pruebas internas sugieren que gran parte del contenido explícito y violento se puede filtrar, todavía existen prejuicios y estereotipos sociales que son difíciles de detectar y filtrar”, sostienen desde Google.
Duración y coherencia con Phenaki
Por otro lado, otro equipo de investigadores de Google ha presentado Phenanki, un sistema también basado en la conversión de instrucciones de texto a vídeo, pero enfocado a la generación de piezas de mayor duración gracias a descripciones y mensajes más detallados. Concretamente, los responsables de la solución resaltan que Phenaki puede generar videos de una duración "arbitraria", es decir, sin límite.
Una posibilidad que no queda exenta de retos. “Generar videos a partir de texto es particularmente desafiante debido al costo computacional, las cantidades limitadas de datos de video de texto de alta calidad y la duración variable de los videos”, explican los investigadores. “En comparación con los métodos de generación de video anteriores, Phenaki puede generar videos largos arbitrarios condicionados a una secuencia de indicaciones, es decir, texto variable en el tiempo o una historia”.
Al igual que Imagen Video, Phenaki no ha sido todavía compartida con el público en tanto en cuanto Google y su equipo continúan optimizando los aspectos de seguridad de la herramienta. “Si bien la calidad de los videos generados por Phenaki aún no es indistinguible de los videos reales, llegar a ese punto está dentro del ámbito de la posibilidad, incluso hoy. Esto puede ser particularmente dañino si se va a usar Phenaki para generar videos de alguien sin su consentimiento y conocimiento”, comentan los responsables.
Con todo, la tecnológica piensa en estas soluciones como herramientas dentro de un abanico de opciones para impulsar la creatividad. Así, los investigadores consideran que las versiones futuras del modelo "serán parte de un conjunto de herramientas cada vez más amplio para artistas y no artistas por igual, proporcionando nuevas y emocionantes formas de expresar la creatividad".