Este lunes OpenAI presentó GPT-4o, la “o” es de “omni”, el nuevo modelo publicado que promete ser mucho más rápido que el anterior, GTP-4 Turbo, pero ahí no es donde terminan sus novedades.
Principalmente hace hincapíe en sus mejoras para texto, visión y audio, la idea es que “O” pueda “ver” y escuchar, algo que ha sido hasta ahora un limitante en lo que respecta a interacción humana y suele ser bastante costoso en términos de cómputo.
Las nuevas características estarán disponibles mediante la API y los usuarios normales a partir de las próximas semanas según el CTO Mira Murati.
Las demos son realmente impresionantes, recordemos que no hace mucho tiempo Google había tratado de vender esta misma idea de super-interacción y el público no la había recibido del todo bien por ser más “robótica”, pero pasaron los años, debutó la AI y hoy es más abierta y aceptada por el público en general.
Los detalles del modelo de voz incluyen inflexiones, risas, sorpresa, efectos de sonido y demás en las respuestas, algo que le da bastante más “personalidad” a “O” que lo que suelen ofrecer otros asistentes de voz como Siri, Alexa o Google.
Lo más llamativo de las demos es la capacidad de comprender escenarios que está viendo, la comprensión visual es un plus que se suma a subir archivos, capturas de pantalla, imágenes, fotografías, documentos y cualquier cosa que no sea un texto escrito. GPT-4o se encarga de “Comprenderlo” y conversar a partir de ese input de información.
Desde la App puede “ver” con la cámara del teléfono por lo que se abre un nuevo abanico de posibilidades. Adicionalmente se suman mejoras en 50 otros idiomas cubriendo el 97% de la población mundial, mejorando la traducción en tiempo real y por ende las conversaciones entre humanos.
Otro detalle genial es el tiempo de interacción, bajando a unos 250 milisegundos como mínimo y un promedio de 320ms, algo que está al nivel de conversación humana, esto comparado con los más de dos segundos del modelo anterior es un gran cambio. Según Murati la diferencia está en que el proceso de transcripción, inteligencia y habla se hacía en tres etapas separadas y ahora, según él, se hacen al mismo tiempo, reduciendo notablemente la latencia.
Los usuarios pagos podrán acceder a cinco veces más tiempo de procesador, el mayor limitante en estos servicios, la API también se actualiza y acelera, baja el costo un 50% y los límites están cinco veces más arriba que con GPT-4 Turbo.
Sí, ya sabemos que poco a poco se va pareciendo más a “Her” que a “HAL9000”, igualmente ¿Realmente piensa o sabe de qué está hablando? En la superficie podríamos decir que no, no es todavía una inteligencia artificial general, pero se va acercando. Un detalle no menor es que la ventana de contexto se está ampliando cada vez más, esto significa que cuando uno va sumando más y más conversaciones ahora puede tomar toda esa información previa como contexto a futuro, y eso le permite “aprender” aunque sólo sea con una capacidad limitada.
Es mucho más de lo que ofrecía hace un año atrás.
¿Cómo responderá la competencia? Mañana es el turno de Google, veremos, Apple está atrasada perfeccionando su propio modelo ¿Y Amazon? Hace mucho que Alexa quedó como el dinosaurio de los asistentes.
Via OpenAI