OpenAI ha presentado un nuevo modelo de inteligencia artificial generativa al que ha denominado GPT-4o, siendo la “o” de “omni" en alusión a sus capacidades para manejar y gestionar texto, voz y video en tiempo real. Se trata de un modelo con funcionalidades mejoradas y mayor velocidad y rendimiento y que desde la compañía entiende como un paso hacia una interacción persona-computadora mucho más natural.
Tal y como explican desde la firma liderada por Sam Altman, GPT-4o acepta como entrada de información cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas en esos mismos formatos. Según detallan, el modelo puede responder a entradas de audio en tan solo 232 milisegundos, similar al tiempo de respuesta humano en una conversación; y es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes.
GPT-4o promete mejorar notablemente la experiencia en ChatGPT, el chatbot de OpenAI, que hasta el momento ha ofrecido la posibilidad de interactuar y recibir respuestas de voz y texto. Pero con el nuevo modelo se añade también el vídeo, lo que elevará la aplicación de ChatGPT como un asistente virtual. Y así lo ha reflejado la compañía en una serie de vídeos en los que se muestra a los directivos interactuando con el modelo en teléfonos móviles y en diferentes situaciones.
En los vídeos se puede observar como el modelo es capaz de identificar el entorno, cantar, susurrar, traducir en tiempo real, resolver problemas matemáticos, ser sarcástico y expresar otras emociones a través de la entonación, o cantar, entre muchas otras cosas. GPT-4o es multilingüe, con posibilidad de procesar 50 idiomas diferentes.
Además de mejorar las capacidades del modelo, la compañía asegura haber puesto el foco en la experiencia de interacción para que sea más sencilla y natural, y permita a los usuarios centrarse en la colaboración con la herramienta y no sólo en la interfaz. Es por ello que consideran el nuevo modelo como un paso importante en lo que respecta a facilidad de uso.
Es más, Sam Altman, CEO de la compañía, ha publicado un enigmático tuit que sólo reza “her”. Muchos usuarios han interpretado esto como una alusión a la película dirigida por Spike Jonze y protagonizada por Joaquin Phoenix en la que el personaje de éste interactúa y se enamora de un asistente digital, al que ahora se estaría aproximando la compañía con GPT-4o.
Con todo, desde la compañía señalan que están optimizando las capacidades del modelo. “Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal”, explican desde OpenAI. “Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones”.
La compañía también explica que se trata de un modelo seguro, al que ha sometido, entre otras cosas, a técnicas de filtrado datos de entrenamiento y refinamiento del comportamiento del modelo mediante el entrenamiento posterior, así como el establecimiento de barreras de seguridad en las salidas de voz.
También ha realizado evaluaciones humanas y automatizadas durante todo el proceso de capacitación del modelo; y ha sido sometido a expertos externos en psicología social, prejuicios y equidad, y desinformación para identificar los riesgos.
Con todo, la compañía de momento está aplicando capacidades de texto e imagen de GPT-4o en ChatGPT para usuarios con modalidad gratuita o Plus con limite ampliado de mensajes. A lo largo de las próximas semanas trabajará en la infraestructura técnica, la usabilidad y la seguridad necesarias para lanzar las otras modalidades, poniendo estas primero a disposición de usuarios seleccionados.
Lo mismo sucederá para desarrolladores que ya pueden acceder a las capacidades de texto e imagen de GPT-4o en la API, pero tendrán que esperar unas semanas para poder acceder a audio y vídeo.