Google también se acerca a “Her” con la presentación de Project Astra

  • Proyect Astra es un prototipo de asistente digital capaz de combinar texto, imagen, vídeo y audio en tiempo real
  • La compañía ha presentado sus nuevos productos y servicios durante la celebración de Google I/O
Directivo de Google durante la presentación de Proyecto Astra

Apenas unas horas después de que OpenAI presentara GPT-4o, el nuevo modelo de inteligencia artificial de la compañía que combina entradas y respuestas en texto, imagen, audio y vídeo, Google también ha dado a conocer sus avances durante la celebración de Google I/O, el evento para desarrolladores en el que la tecnológica comparte sus últimas innovaciones y noticias de productos. 

En esta ocasión Google ha presentado el progreso realizado en Gemini, su familia de modelos de inteligencia artificial capaces de razonar a través de texto, imágenes, audio, vídeo y código, y que fue presentado el pasado diciembre como la nueva era de Bard, su modelo inicial. Ahora, entre otras cosas, ha presentado la versión Gemini 1.5 Flash, ha mejorado Gemini 1.5 Pro y la realizado actualizaciones en Gemini Nano. 

Proyect Astra representa la visión de Google respecto a los asistentes de IA

No obstante, lo más destacado del evento celebrado ayer es Proyect Astra, que define como su visión del futuro de los asistentes de inteligencia artificial. Tal y como señaló Demis Hassabis, cofundador de Google DeepMind, durante la presentación Proyect Astra es un prototipo de asistente de IA universal que pretende ser útil y acompañar en todos los aspectos de la vida cotidiana. 

Según se puede observar en un vídeo compartido por la compañía, Proyect Astra es capaz de comprender el entorno y responder a las preguntas de los usuarios al respecto. Además, identifica objetos, reconoce líneas de código en un ordenador y explicar para qué sirve, responde a instrucciones de audio con creaciones creativas e, incluso, recuerda la posición de los objetos en el espacio. De esta forma, ha evidenciado que es capaz de interpretar, aprender y responder en diversos formatos en tiempo real. 

Destaca también que además de poder usarse en el teléfono móvil, los usuarios podrán aprovechar sus capacidades desde otros dispositivos, en este caso, unas gafas inteligentes. Esto demuestra la ambición de Google de integrar paulatinamente este asistente en sus diferentes productos. “Algunas de estas capacidades llegarán a los productos de Google, como la aplicación Gemini, a finales de este año”, ha comentado la compañía en un comunicado.

Según comentan desde Google, Proyect Astra responde a la misión de Deepmind de crear una IA responsable que beneficie a todo el mundo. “Para ser útil de verdad, un agente tiene que ser capaz de entender y responder a la compleja y dinámica realidad del mundo igual que lo hacemos las personas”, explican desde la tecnológica. “Y, además, asimilar y recordar todo lo que ve y escucha para comprender el contexto y actuar en consecuencia. También tiene que ser proactivo, didáctico y personal, para que los usuarios puedan hablar con él de forma natural, sin retrasos ni esperas”.

Reconocen, no obstante, que reducir el tiempo de respuesta a un nivel conversacional es un reto de ingeniería complejo, pero destaca el trabajo realizado para mejorar la forma en que los modelos perciben, recuerdan, razonan y conversan para que el ritmo y la calidad de la interacción sea más natural. Esto ha sido posible al basar Proyect Astra en Gemini y otros modelos de tareas específicas, lo que ha permitido diseñarlos para procesar la información más rápido y almacenarla en caché para recuperar la de manera eficiente. 

Noticias Relacionadas

Sobre cómo la IA game changer influye en el e-commerce

Tal y como ha sucedido esta misma semana con la llegada de GPT-4o, con el propio Sam Altman, CEO de OpenAI bromeando sobre ello, Proyect Astra acorta las distancias entre la realidad y lo imaginado por Spike Jonze en la película “Her”. Los avances de ambas compañías muestran cómo se está naturalizando la interacción entre las personas y la inteligencia artificial y adelantan un escenario en el que los asistentes virtuales estarán cada vez más integrados en el día a día. 

Otras novedades presentadas en Google I/O

Además de las nuevas versiones e iteraciones de la familia Gemini y de Proyect Astra, Google ha dado a conocer avances en otros terrenos, aunque muchas de ellas están relacionadas con la inteligencia artificial. Destacamos a continuación cinco novedades que hemos considerado relevantes: 

Ask Photos

Basada en Gemini, esta nueva funcionalidad permitirá a los usuarios realizar búsquedas inteligentes y mediante lenguaje natural entre sus fotografías. Ask Photos, estará disponible a finales de este verano, reducirá los procesos de búsqueda naturales al apoyarse en la comprensión de la IA del contenido de sus fotografías y otros metadatos.

Circle to Search

Samsung ya adelantó la funcionalidad Circle to Search al presentar sus teléfonos Galaxy S24, pero ahora Google ha presentado algunas mejoras. La herramienta permite a los usuarios de Android obtener respuestas instantáneas mediante el gesto de rodear con un círculo aquello sobre lo que desean ampliar información. Antes, a partir de una imagen, los usuarios obtenían más información sobre lo destacado manualmente con un círculo, y ahora también podrá resolver problemas más complejos, como de física o matemáticas, convirtiéndose en aliado de estudiantes. 

Detección de estadas durante llamadas

Integrada en Gemini Nano, Google ha presentado una nueva funcionalidad con capacidad de identificar posibles estafas durante las llamadas al aplicar la inteligencia artificial a la detección en tiempo real de patrones de conversación comúnmente asociados a este tipo de engaños. 

Imagen 3

Google también ha presentado Imagen 3, una versión mejorada de su herramienta de inteligencia artificial generativa para la creación de imágenes. Ésta comprende ahora con mayor precisión las instrucciones de texto que traduce en imágenes, y según comenta la compañía, ahora es más creativo y detallado que sus predecesores. 

Veo

Google también quiere ganar terreno en el terreno de los modelos de IA para la generación de vídeos, plantando así cara a Sora, de OpenAI. Veo es su respuesta, una herramienta con capacidad para crear clips de vídeo de aproximadamente un minuto de duración a partir de instrucciones de texto. Puede responder con diferentes estilos visuales y cinematográficos, incluidas panorámicas y timelapses, y realizar ediciones y ajustes en metraje ya generado.

Durante Google I/O la compañía también ha presentado otras funcionalidades, productos y servicios. Puedes descubrirlos en este vídeo resumen del evento: 

Abrir Formulario
Abrir Formulario